Asynkron uppsättning enkla processorer

Den asynkrona arrayen av enkla processorer ( AsAP )-arkitekturen består av en 2D-array av programmerbara processorer med reducerad komplexitet med små scratchpad-minnen sammankopplade av ett omkonfigurerbart mesh-nätverk . AsAP har utvecklats av forskare vid VLSI Computation Laboratory (VCL) vid University of California, Davis och uppnår hög prestanda och energieffektivitet, samtidigt som den använder en relativt liten kretsyta. Den gjordes 2006.

AsAP-processorer är väl lämpade för implementering i framtida tillverkningsteknologier och klockas på ett globalt asynkront lokalt synkront ( GALS) sätt. Individuella oscillatorer stannar helt (endast läckage) i 9 cykler när det inte finns något arbete att göra, och startar om med full hastighet på mindre än en cykel efter att arbete är tillgängligt. Chipet kräver inga kristalloscillatorer , faslåsta loopar , fördröjningslåsta loopar , global klocksignal eller någon som helst global frekvens eller fasrelaterade signaler.

Flerprocessorarkitekturen använder sig effektivt av parallellitet på uppgiftsnivå i många komplexa DSP- tillämpningar, och beräknar även effektivt många stora uppgifter med hjälp av finkornig parallellism.

Nyckelfunktioner

Blockdiagram över en enda AsAP-processor och 6x6 AsAP 1.0-chipet

AsAP använder flera nya nyckelfunktioner, varav fyra är:

  • Chip multi-processor (CMP) arkitektur designad för att uppnå hög prestanda och låg effekt för många DSP-tillämpningar.
  • Små minnen och en enkel arkitektur i varje processor för att uppnå hög energieffektivitet.
  • Globalt asynkron lokalt synkron (GALS) klockning förenklar klockdesignen , ökar skalbarheten avsevärt och kan användas för att ytterligare minska effektförlusten .
  • Kommunikation mellan processorer utförs av ett närmaste grannnät för att undvika långa globala ledningar och öka skalbarheten till stora arrayer och i avancerad tillverkningsteknik. Varje processor kan ta emot data från två valfria grannar och skicka data till vilken kombination som helst av dess fyra grannar.

AsAP 1 chip: 36 processorer

Foto av den första generationens 36-processor AsAP-chip

Ett chip innehållande 36 (6x6) programmerbara processorer bandades ut i maj 2005 i 0,18 μm CMOS med hjälp av en syntetiserad standardcellteknik och är fullt funktionell. Processorer på chippet arbetar med klockfrekvenser från 520 MHz till 540 MHz vid 1,8 V och varje processor avger i genomsnitt 32 mW medan de kör applikationer på 475 MHz.

De flesta processorer körs med klockfrekvenser över 600 MHz vid 2,0 V, vilket gör AsAP till en av de högsta kända klockfrekvenstillverkade processorerna (programmerbara eller icke-programmerbara) som någonsin designats på ett universitet; det är den näst högsta kända i publicerade forskningsartiklar.

Vid 0,9 V är den genomsnittliga applikationseffekten per processor 2,4 mW vid 116 MHz. Varje processor upptar endast 0,66 mm².

AsAP 2-chip: 167 processorer

Foto av andra generationens 167-processor AsAP 2-chip

En andra generationens 65 nm CMOS-design innehåller 167 processorer med dedikerad snabb Fourier-transform (FFT), Viterbi-avkodare och videorörelseuppskattningsprocessorer ; 16 KB delade minnen; och långdistansinter-processor sammankoppling. De programmerbara processorerna kan individuellt och dynamiskt ändra sin matningsspänning och klockfrekvens . Chipet är fullt fungerande. Processorer arbetar upp till 1,2 GHz vid 1,3 V, vilket tros vara den högsta klockfrekvensen tillverkade processorn designad på något universitet. Vid 1,2 V fungerar de på 1,07 GHz och 47 mW när de är 100 % aktiva. Vid 0,675 V arbetar de vid 66 MHz och 608 μW när de är 100 % aktiva. Denna driftspunkt möjliggör 1 biljon MAC eller aritmetisk logisk enhet (ALU) ops/sek med en effektförlust på endast 9,2 watt. På grund av dess MIMD- arkitektur och finkorniga klockoscillatorstopp är denna energieffektivitet per operation nästan perfekt konstant över vitt varierande arbetsbelastningar, vilket inte är fallet för många arkitekturer.

Ansökningar

Kodningen av många DSP och allmänna uppgifter för AsAP har slutförts. Kartlagda uppgifter inkluderar: filter, faltningskodare , interfolierare, sortering, kvadratrot, CORDIC sin/cos/arcsin/arccos, matrismultiplikation , pseudoslumptalsgeneratorer, snabba Fouriertransformer (FFT) med längderna 32–1024, en komplett k=7 Viterbi-avkodare , en JPEG- kodare, en komplett helt kompatibel basbandsprocessor för en IEEE 802.11a/g trådlös LAN-sändare och mottagare, och ett komplett CAVLC -komprimeringsblock för en H.264 -kodare. Blockerar ansluts direkt utan nödvändiga modifieringar. Effekt-, genomströmnings- och arearesultat är vanligtvis många gånger bättre än befintliga programmerbara DSP-processorer.

Arkitekturen möjliggör en ren separation mellan programmering och inter-processor timing hanteras helt av hårdvara. En nyligen färdig C- kompilator och automatiskt kartläggningsverktyg förenklar programmeringen ytterligare.

Se även

externa länkar