Grafikkärna Nästa
Graphics Core Next ( GCN ) är kodnamnet för en serie mikroarkitekturer och en instruktionsuppsättningsarkitektur som utvecklades av AMD för sina GPU:er som efterföljaren till dess TeraScale - mikroarkitektur. Den första produkten med GCN lanserades den 9 januari 2012.
GCN är en reducerad instruktionsuppsättning SIMD- mikroarkitektur som kontrasterar det mycket långa instruktionsordet SIMD-arkitektur i TeraScale. GCN kräver betydligt fler transistorer än TeraScale, men erbjuder fördelar för generell GPU- beräkning (GPGPU) tack vare en enklare kompilator .
GCN-grafikkretsar tillverkades med CMOS vid 28 nm och med FinFET vid 14 nm (av Samsung Electronics och GlobalFoundries ) och 7 nm (av TSMC ), tillgängliga på utvalda modeller i AMD:s Radeon HD 7000 , HD 8000 , 200 , 4000 . , 500 och Vega -serien av grafikkort, inklusive den separat släppta Radeon VII. GCN användes också i grafikdelen av Accelerated Processing Units (APUs), som de i PlayStation 4 och Xbox One .
Instruktionsuppsättning
GCN-instruktionsuppsättningen ägs av AMD och har utvecklats specifikt för GPU:er. Den har ingen mikrooperation för division .
Dokumentation finns tillgänglig för:
- instruktionsuppsättningen Graphics Core Next 1 ,
- instruktionsuppsättningen Graphics Core Next 2 ,
- Graphics Core Next 3 och 4 instruktionsuppsättningar ,
- instruktionsuppsättningen Graphics Core Next 5 , och
- "Vega" 7nm instruktionsuppsättningsarkitekturen ( även kallad Graphics Core Next 5.1).
En LLVM-kompilatorbackend är tillgänglig för GCN-instruktionsuppsättningen. Den används av Mesa 3D .
GNU Compiler Collection 9 stöder GCN 3 och GCN 5 sedan 2019 för entrådade, fristående program, med GCC 10 som också laddas av via OpenMP och OpenACC .
MIAOW är en RTL- implementering med öppen källkod av AMD Southern Islands GPGPU-mikroarkitektur.
I november 2015 tillkännagav AMD sitt Boltzmann-initiativ, som syftar till att möjliggöra portering av CUDA -baserade applikationer till en gemensam C++- programmeringsmodell.
Vid Super Computing 15-evenemanget visade AMD en Heterogeneous Compute Compiler (HCC), en huvudlös Linux- drivrutin och HSA runtime-infrastruktur för klusterklassad högpresterande datoranvändning och ett Heterogeneous-compute Interface for Portability (HIP)-verktyg för portering av CUDA-applikationer till den tidigare nämnda vanliga C++-modellen.
Mikroarkitekturer
Från och med juli 2017 har Graphics Core Next-instruktionsuppsättningen sett fem iterationer. Skillnaderna mellan de första fyra generationerna är ganska minimala, men den femte generationens GCN-arkitektur har kraftigt modifierade strömprocessorer för att förbättra prestandan och stödja samtidig bearbetning av två lägre precisionsnummer istället för ett enda högre precisionsnummer.
Kommandobearbetning
Grafikkommandoprocessor
Graphics Command Processor (GCP) är en funktionell enhet i GCN:s mikroarkitektur. Den ansvarar bland annat för hanteringen av asynkrona shaders .
Asynkron Compute Engine
Asynchronous Compute Engine (ACE) är ett distinkt funktionsblock som tjänar datorändamål, vars syfte liknar det för den grafiska kommandoprocessorn. [ tvetydigt ]
Schemaläggare
Sedan den tredje iterationen av GCN innehåller hårdvaran två schemaläggare : en för att schemalägga "vågfronter" under körning av skuggning (CU Scheduler, eller Compute Unit Scheduler) och den andra för att schemalägga körning av ritnings- och beräkningsköer. Det sistnämnda hjälper prestanda genom att utföra beräkningsoperationer när beräkningsenheterna (CUs) är underutnyttjade på grund av grafikkommandon som begränsas av fast funktionspipelinehastighet eller bandbredd. Denna funktion är känd som Async Compute.
För en given shader kan GPU-drivrutinerna också schemalägga instruktioner på CPU:n för att minimera latens.
Geometrisk processor
Geometriprocessorn innehåller en Geometry Assembler, en Tesselator och en Vertex Assembler.
Tesselatorn kan göra tessellation i hårdvara enligt definitionen av Direct3D 11 och OpenGL 4.5 (se AMD 21 januari 2017), och efterträdde ATI TruForm och hårdvara tessellation i TeraScale som AMD:s då senaste halvledarimmateriella egendomskärna .
Beräkna enheter
En beräkningsenhet (CU) kombinerar 64 shader-processorer med 4 texturmappningsenheter (TMU). Beräkningsenheterna är separata från, men matas in i, renderingsutgångsenheterna ( ROPs) . Varje beräkningsenhet består av följande:
- en CU-schemaläggare
- en filial- och meddelandeenhet
- 4 16-filiga SIMD Vector Units (SIMD-VU)
- 4 64 KiB VGPR-filer ( Vector General Purpose Register).
- 1 skalär enhet (SU)
- en 4 KiB GPR -fil
- en lokal dataandel på 64 KiB
- 4 texturfilterenheter
- 16 Texturhämtning Ladda/lagerenheter
- en 16 KiB nivå 1 (L1) cache
Fyra Compute-enheter är kopplade för att dela en 16KiB L1-instruktionscache och en 32KiB L1-datacache, som båda är skrivskyddade. En SIMD-VU fungerar på 16 element åt gången (per cykel), medan en SU kan arbeta på ett i taget (en/cykel). Dessutom sköter SU en del andra verksamheter, såsom filialer.
Varje SIMD-VU har ett privat minne där den lagrar sina register. Det finns två typer av register: skalära register (S0, S1, etc.), som innehåller 4 byte nummer vardera, och vektorregister (V0, V1, etc.), som vart och ett representerar en uppsättning av 64 4-byte nummer. På vektorregistren görs varje operation parallellt på de 64 talen. vilket motsvarar 64 ingångar. Det kan till exempel fungera på 64 olika pixlar åt gången (för var och en av dem är ingångarna något olika, och därmed får du lite olika färg i slutet).
Varje SIMD-VU har plats för 512 skalära register och 256 vektorregister.
CU-schemaläggare
CU-schemaläggaren är maskinvarufunktionsblocket, som väljer vilka vågfronter som SIMD-VU exekverar. Den väljer en SIMD-VU per cykel för schemaläggning. Detta ska inte förväxlas med andra hårdvaru- eller mjukvaruschemaläggare.
Vågfront
En shader är ett litet program skrivet i GLSL som utför grafikbearbetning, och en kärna är ett litet program skrivet i OpenCL som utför GPGPU-bearbetning. Dessa processer behöver inte så många register, men de behöver ladda data från system- eller grafikminne. Denna operation kommer med betydande latens. AMD och Nvidia valde liknande metoder för att dölja denna oundvikliga latens: grupperingen av flera trådar . AMD kallar en sådan grupp för en "vågfront", medan Nvidia kallar den för en "varp". En grupp trådar är den mest grundläggande enheten för schemaläggning av GPU:er som implementerar detta tillvägagångssätt för att dölja latens. Det är den minsta storleken på data som behandlas på SIMD-sätt, den minsta körbara kodenheten och sättet att behandla en enda instruktion över alla trådar i den samtidigt.
I alla GCN GPU:er består en "wavefront" av 64 trådar, och i alla Nvidia GPU:er består en "warp" av 32 trådar.
AMD:s lösning är att tillskriva flera vågfronter till varje SIMD-VU. Hårdvaran distribuerar registren till de olika vågfronterna, och när en vågfront väntar på något resultat, som ligger i minnet, tilldelar CU Scheduler SIMD-VU en annan vågfront. Vågfronter tilldelas per SIMD-VU. SIMD-VU:er byter inte vågfronter. Maximalt 10 vågfronter kan tillskrivas per SIMD-VU (därmed 40 per CU).
AMD CodeXL visar tabeller med förhållandet mellan antalet SGPR och VGPR till antalet vågfronter, men i huvudsak är det för SGPRS mellan 104 och 512 per antal vågfronter, och för VGPRS är det 256 per antal vågfronter.
Observera att i samband med SSE-instruktionerna kallas detta koncept för den mest grundläggande nivån av parallellitet ofta en "vektorbredd". Vektorbredden kännetecknas av det totala antalet bitar i den.
SIMD vektorenhet
Varje SIMD Vector Unit har:
- en 16-filig heltal och flyttalsvektor Arithmetic Logic Unit (ALU)
- 64 KiB Vector General Purpose Register (VGPR) fil
- En 48-bitars programräknare
- Instruktionsbuffert för 10 vågfronter (varje vågfront är en grupp med 64 trådar, eller storleken på en logisk VGPR)
- En 64-tråds vågfront skickas till en 16-filig SIMD-enhet under fyra cykler
Varje SIMD-VU har 10 vågfrontsinstruktionsbuffertar, och det tar 4 cykler att exekvera en vågfront.
Ljud- och videoaccelerationsblock
Många implementeringar av GCN åtföljs vanligtvis av flera av AMD:s andra ASIC -block. Inklusive men inte begränsat till Unified Video Decoder , Video Coding Engine och AMD TrueAudio .
Videokodningsmotor
Videokodningsmotorn är en ASIC för videokodning , som först introducerades med Radeon HD 7000-serien .
Den första versionen av VCE lade till stöd för kodning av I- och P-ramar H.264 i YUV420 -pixelformatet, tillsammans med SVE-tidskodning och Display Encode Mode, medan den andra versionen lade till B-frame-stöd för YUV420 och YUV444 I-frames.
VCE 3.0 utgjorde en del av den tredje generationen av GCN och lade till högkvalitativ videoskalning och HEVC (H.265) codec.
VCE 4.0 var en del av Vega-arkitekturen och efterträddes därefter av Video Core Next .
TrueAudio
Enat virtuellt minne
I en förhandsvisning 2011 skrev AnandTech om det enhetliga virtuella minnet, som stöds av Graphics Core Next.
Klassisk stationär datorarkitektur med ett distinkt grafikkort över PCI Express . CPU och GPU har sitt distinkta fysiska minne, med olika adressutrymmen. Hela datan måste kopieras över PCIe-bussen. Notera: diagrammet visar bandbredder, men inte minnesfördröjningen .
GCN stöder "unified virtual memory", vilket möjliggör nollkopia , istället för data, kopieras endast pekarna , "passeras". Detta är en viktig HSA- funktion.
Integrerade grafiklösningar (och AMD APU:er med TeraScale-grafik ) lider under partitionerat huvudminne : en del av systemminnet allokeras enbart till GPU:n. Nollkopiering är inte möjligt, data måste kopieras (över systemminnesbussen) från en partition till en annan.
AMD APU:er med GCN-grafik vinner på ett enhetligt huvudminne och sparar knapp bandbredd.
Heterogen systemarkitektur (HSA)
Vissa av de specifika HSA -funktionerna som implementeras i hårdvaran behöver stöd från operativsystemets kärna (dess undersystem) och/eller från specifika enhetsdrivrutiner. Till exempel, i juli 2014 publicerade AMD en uppsättning av 83 patchar som skulle slås samman till Linux-kärnan mainline 3.17 för att stödja deras Graphics Core Next-baserade Radeon -grafikkort. Den så kallade HSA-kärndrivrutinen finns i katalogen /drivers/gpu/hsa , medan DRM- grafikenhetsdrivrutinerna finns i /drivers/gpu/drm och utökar de redan befintliga DRM-drivrutinerna för Radeon-kort. Denna allra första implementering fokuserar på en enda "Kaveri" APU och fungerar tillsammans med den befintliga grafikdrivrutinen för Radeon-kärnan (kgd).
Förlustfri Delta Color Compression
Hårdvaruschemaläggare
Hårdvaruschemaläggare används för att utföra schemaläggning och avlasta tilldelningen av beräkningsköer till ACE från drivrutinen till hårdvaran, genom att buffra dessa köer tills det finns minst en tom kö i minst en ACE. Detta gör att HWS omedelbart tilldelar buffrade köer till ACE:erna tills alla köer är fulla eller det inte finns fler köer att tilldela säkert.
En del av det utförda schemaläggningsarbetet inkluderar prioriterade köer som gör att kritiska uppgifter kan köras med högre prioritet än andra uppgifter utan att kräva att de lägre prioriterade uppgifterna företräds för att köra den högprioriterade uppgiften, vilket gör att uppgifterna kan köras samtidigt med de högprioriterade uppgifterna schemalagd för att häva GPU:n så mycket som möjligt samtidigt som de låter andra uppgifter använda de resurser som de högprioriterade uppgifterna inte använder. Dessa är i huvudsak asynkrona beräkningsmotorer som saknar avsändningskontroller. De introducerades först i den fjärde generationens GCN-mikroarkitektur, men fanns i den tredje generationens GCN-mikroarkitektur för interna teständamål. En drivrutinsuppdatering har aktiverat hårdvaruschemaläggarna i tredje generationens GCN-delar för produktionsanvändning.
Primitiv kasseringsaccelerator
Den här enheten kasserar degenererade trianglar innan de går in i vertexskuggningen och trianglar som inte täcker några fragment innan de går in i fragmentskuggningen. Denna enhet introducerades med fjärde generationens GCN-mikroarkitektur.
Generationer
Grafikkärna Nästa 1
Utgivningsdatum | januari 2012 citat behövs ] | [
---|---|
Historia | |
Företrädare | TeraScale 3 |
Efterträdare | Graphics Core Nästa 2 |
Supportstatus | |
Stöds inte |
GCN 1-mikroarkitekturen användes i flera Radeon HD 7000-seriens grafikkort.
- stöd för 64-bitars adressering ( x86-64 adressutrymme) med enhetligt adressutrymme för CPU och GPU
- stöd för PCI-E 3.0
- GPU skickar avbrottsbegäranden till CPU vid olika händelser (som sidfel )
- stöd för Partially Resident Textures, som möjliggör virtuellt minnesstöd genom DirectX- och OpenGL -tillägg
- AMD PowerTune- stöd, som dynamiskt justerar prestandan för att hålla sig inom en specifik TDP
- stöd för Mantle (API)
Det finns asynkrona beräkningsmotorer som styr beräkning och utsändning.
ZeroCore Power
ZeroCore Power är en energibesparande teknik för länge inaktiv, som stänger av funktionella enheter i GPU:n när den inte används. AMD ZeroCore Power-teknik kompletterar AMD PowerTune .
Pommes frites
Diskreta GPU:er (Southern Islands-familjen):
- Hainan
- Öland
- Cap Verde
- Pitcairn
- Tahiti
Graphics Core Nästa 2
Utgivningsdatum | september 2013 citat behövs ] | [
---|---|
Historia | |
Företrädare | Grafikkärna Nästa 1 |
Efterträdare | Graphics Core Nästa 3 |
Supportstatus | |
Stöds inte |
Den andra generationen av GCN introducerades med Radeon HD 7790 och finns även i Radeon HD 8770 , R7 260/260X, R9 290/290X, R9 295X2 , R7 360 och R9 390/390X rullbaserat S -team samt - stationära "Kaveri" APU:er och mobila "Kaveri" APU:er och i Puma -baserade "Beema" och "Mullins" APU:er . Det har flera fördelar jämfört med det ursprungliga GCN, inklusive FreeSync- stöd, AMD TrueAudio och en reviderad version av AMD PowerTune- teknik.
GCN 2:a generationen introducerade en enhet som heter "Shader Engine" (SE). En Shader Engine består av en geometriprocessor, upp till 44 CUs (Hawaii-chip), rasteriserare, ROPs och L1-cache. Inte en del av en Shader Engine är den grafiska kommandoprocessorn, de 8 ACE-enheterna, L2-cachen och minneskontrollerna samt ljud- och videoacceleratorerna, bildskärmskontrollerna, de 2 DMA-kontrollerna och PCIe - gränssnittet .
A10-7850K "Kaveri" innehåller 8 CUs (beräkningsenheter) och 8 asynkrona beräkningsmotorer för oberoende schemaläggning och leverans av arbetsobjekt.
Vid AMD Developer Summit (APU) i november 2013 presenterade Michael Mantor Radeon R9 290X .
Pommes frites
Diskreta GPU:er (Sea Islands-familjen):
- Bonaire
- Hawaii
integrerad i APU:er:
- Temash
- Kabini
- Liverpool (dvs den APU som finns i PlayStation 4)
- Durango (dvs. APU:n som finns i Xbox One och Xbox One S)
- Kaveri
- Godavari
- Mullins
- Beema
- Carrizo-L
Graphics Core Nästa 3
Utgivningsdatum | juni 2015 citat behövs ] | [
---|---|
Historia | |
Företrädare | Graphics Core Nästa 2 |
Efterträdare | Grafikkärna Nästa 4 |
GCN 3:e generationen introducerades 2014 med Radeon R9 285 och R9 M295X, som har "Tonga" GPU. Den har förbättrad tessellationsprestanda, förlustfri deltafärgkomprimering för att minska användningen av minnesbandbredd, en uppdaterad och effektivare instruktionsuppsättning, en ny högkvalitativ skalare för video och en ny multimediamotor (videokodare/dekoder). Delta-färgkompression stöds i Mesa. Dess dubbla precisionsprestanda är dock sämre jämfört med föregående generation.
Pommes frites
diskreta GPU:er:
- Tonga (Vulcanic Islands-familjen), levereras med UVD 5.0 (Unified Video Decoder)
- Fiji (Pirate Islands-familjen), kommer med UVD 6.0 och High Bandwidth Memory (HBM 1)
integrerad i APU:er:
- Carrizo, levereras med UVD 6.0
- Bristol Ridge
- Stoney Ridge
Grafikkärna Nästa 4
Utgivningsdatum | juni 2016 citat behövs ] | [
---|---|
Historia | |
Företrädare | Graphics Core Nästa 3 |
Efterträdare | Grafikkärna Nästa 5 |
Supportstatus | |
Stöds |
GPU:er från Arctic Islands-familjen introducerades under andra kvartalet 2016 med AMD Radeon 400-serien . 3D-motorn (dvs GCA (Graphics and Compute array) eller GFX) är identisk med den som finns i Tonga-chipsen. Men Polaris har en nyare Display Controller-motor, UVD-version 6.3, etc.
Alla Polaris-baserade chips förutom Polaris 30 produceras på 14 nm FinFET- processen, utvecklad av Samsung Electronics och licensierad till GlobalFoundries . Den något nyare uppfräschade Polaris 30 är byggd på 12 nm LP FinFET-processnoden, utvecklad av Samsung och GlobalFoundries. Den fjärde generationens GCN-instruktionsuppsättningsarkitektur är kompatibel med den tredje generationen. Det är en optimering för 14 nm FinFET-process som möjliggör högre GPU-klockhastigheter än med den 3:e GCN-generationen. Arkitektoniska förbättringar inkluderar nya hårdvaruschemaläggare, en ny primitiv kasseringsaccelerator, en ny skärmkontroller och en uppdaterad UVD som kan avkoda HEVC vid 4K-upplösningar med 60 bilder per sekund med 10 bitar per färgkanal.
Pommes frites
diskreta GPU:er:
- Polaris 10 (även kodnamnet Ellesmere ) finns på grafikkorten "Radeon RX 470" och "Radeon RX 480"
- Polaris 11 (även kodnamnet Baffin ) finns på "Radeon RX 460"-märkta grafikkort (även Radeon RX 560 D )
- Polaris 12 (även kodnamnet Lexa) som finns på grafikkorten "Radeon RX 550" och "Radeon RX 540"
- Polaris 20, som är en uppfräschad ( 14 nm LPP Samsung / GloFo FinFET- process) Polaris 10 med högre klockor, som används för "Radeon RX 570" och "Radeon RX 580"-märkta grafikkort
- Polaris 21, som är en fräsch (14 nm LPP Samsung/GloFo FinFET-process) Polaris 11, som används för "Radeon RX 560"-märkta grafikkort
- Polaris 22, som finns på "Radeon RX Vega M GH" och "Radeon RX Vega M GL"-märkta grafikkort (som en del av Kaby Lake-G )
- Polaris 23, som är en uppfräschad (14 nm LPP Samsung/GloFo FinFET-process) Polaris 12, som används för "Radeon Pro WX 3200" och "Radeon RX 540X"-märkta grafikkort (även Radeon RX 640)
- Polaris 30, som är en fräsch (12 nm LP GloFo FinFET-process) Polaris 20 med högre klockor, som används för "Radeon RX 590"-märkta grafikkort
Förutom dedikerade GPU:er används Polaris i APU:erna för PlayStation 4 Pro och Xbox One X, med titeln "Neo" respektive "Scorpio".
Precisionsprestanda
- prestanda för alla GCN 4:e generationens GPU:er är 1/16 av FP32-prestanda.
Grafikkärna Nästa 5
Utgivningsdatum | juni 2017 citat behövs ] | [
---|---|
Historia | |
Företrädare | Grafikkärna Nästa 4 |
Efterträdare | RDNA 1 |
Supportstatus | |
Stöds |
AMD började släppa detaljer om sin nästa generation av GCN-arkitektur, kallad 'Next-Generation Compute Unit', i januari 2017. Den nya designen förväntades öka instruktioner per klocka , högre klockhastigheter , stöd för HBM2 , ett större minnesadressutrymme . De diskreta grafikkretsuppsättningarna inkluderar också "HBCC (High Bandwidth Cache Controller)", men inte när de är integrerade i APU:er. Dessutom förväntades de nya chipsen inkludera förbättringar i utdataenheterna Rasterisation och Render . Strömprocessorerna är kraftigt modifierade från de tidigare generationerna för att stödja packad math Rapid Pack Math-teknik för 8-bitars, 16-bitars och 32-bitars nummer . Med detta finns det en betydande prestandafördel när lägre precision är acceptabel (till exempel: bearbetning av två halvprecisionstal i samma takt som ett enda precisionsnummer ).
Nvidia introducerade kakelbaserad rasterisering och binning med Maxwell , och detta var en stor anledning till Maxwells effektivitetsökning. I januari AnandTech att Vega äntligen skulle komma ikapp Nvidia angående energieffektiviseringsoptimeringar på grund av den nya "DSBR (Draw Stream Binning Rasterizer)" som ska introduceras med Vega.
Det lade också till stöd för ett nytt shader -steg – Primitive Shaders. Primitiva shaders ger mer flexibel geometribearbetning och ersätter vertex- och geometrishaders i en renderingspipeline. Från och med december 2018 kan Primitive shaders inte användas eftersom nödvändiga API-ändringar ännu inte har gjorts.
Vega 10 och Vega 12 använder 14 nm FinFET- processen, utvecklad av Samsung Electronics och licensierad till GlobalFoundries . Vega 20 använder 7 nm FinFET - processen utvecklad av TSMC .
Pommes frites
diskreta GPU:er:
- Vega 10 ( 14 nm Samsung / GloFo FinFET- process) (även kodad Grönland ) finns på "Radeon RX Vega 64", "Radeon RX Vega 56", "Radeon Vega Frontier Edition", "Radeon Pro V340", Radeon Pro WX 9100, och Radeon Pro WX 8200 grafikkort
- Vega 12 (14 nm Samsung/GloFo FinFET-process) finns på "Radeon Pro Vega 20" och "Radeon Pro Vega 16"-märkta mobilgrafikkort
- Vega 20 ( 7 nm TSMC FinFET-process) finns på "Radeon Instinct MI50" och "Radeon Instinct MI60"-märkta acceleratorkort, "Radeon Pro Vega II" och "Radeon VII"-märkta grafikkort.
integrerad i APU:er:
- Raven Ridge kom med VCN 1 som ersätter VCE och UVD och tillåter full VP9-avkodning med fast funktion.
Precisionsprestanda
Dubbelprecision flyttal (FP64) prestanda för alla GCN 5:e generationens GPU: er, förutom Vega 20, är 1/16 av FP32 prestanda . För Vega 20 med Radeon Instinct är detta 1/2 av FP32-prestanda . För Vega 20 med Radeon VII är detta 1/4 av FP32 - prestanda . Alla GCN 5:e generationens GPU:er stöder halvprecisions flyttalsberäkningar (FP16), vilket är dubbelt så mycket som FP32-prestanda.
Jämförelse av GCN-chips
- Tabellen innehåller endast diskreta GPU-chips (inklusive mobil). APU(IGP) och konsolchips är inte listade.
ÄR EN | Grafikkärna Nästa | ||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
µarch | GCN 1 | GCN 2 | GCN 3 | GCN 4 | GCN 5 | ||||||||||||
Chip | Tahiti | Pitcairn | Cap Verde | Öland | Hainan | Bonaire | Hawaii | Topas | Tonga | Fiji | Ellesmere | Baffin | Lexa | Vega 10 | Vega 12 | Vega 20 | |
Kodnamn 1 | ? | ? | ? | Tiran | ? | ? | Ibiza | Island | ? | ? | Polaris 10 | Polaris 11 | Polaris 12 | Grönland | Treasure Refresh | Månskott | |
Chipvariant(er) |
Nya Zeeland Malta |
Wimbledon Curacao Neptune Trinidad |
Chelsea Heathrow Venus Tropo |
Mars Opal Litho |
Sun Jet Exo Banks |
Saturnus Tobago Strato Emerald |
Vesuvius Grenada |
Meso Weston Polaris 24 |
Ametist Antigua |
Capsaicin |
Polaris 20 Polaris 30 |
Polaris 21 | Polaris 23 | — | — | — | |
Fab | TSMC 28 nm | GlobalFoundries 14 nm / 12 nm (Polaris 30) | TSMC 7 nm | ||||||||||||||
Formstorlek (mm 2 ) | 352/365 (Malta) | 212 | 123 | 77 | 56 | 160 | 438 | 125 | 366 | 596 | 232 | 123 | 103 | 495 | Okänd | 331 | |
Transistorer (miljoner) | 4,313 | 2 800 | 1 500 | 950 | 690 | 2 080 | 6 200 | 1 550 | 5 000 | 8 900 | 5 700 | 3 000 | 2 200 | 12 500 | Okänd | 13 230 | |
Transistordensitet (MTr/mm 2 ) | 12,3 / 12,8 (Malta) | 13.2 | 12.2 | 12.3 | 13,0 | 14.2 | 12.4 | 13.7 | 14.9 | 24.6 | 24.4 | 21.4 | 25.3 | Okänd | 40,0 | ||
Hårdvaruschemaläggare | — | 2 | ? | 2 | |||||||||||||
Asynkrona beräkningsmotorer | 2 | 8 | ? | 8 | 4 | ? | 4 | ||||||||||
Geometrimotorer | 2 | 1 | 2 | — | ? | — | 4 | ? | 4 | ||||||||
Shader motorer | — | 4 | ? | 4 | 2 | — | |||||||||||
Beräkna enheter | 32 | 20 | 10/8 (Chelsea) | 6 | 5/6 (Jet) | 14 | 44 | 6 | 32 | 64 | 36 | 16 | 10 | 64 | 20 | 64 | |
Streama processorer | 2048 | 1280 | 640/512 (Chelsea) | 384 | 320/384 (Jet) | 896 | 2816 | 384 | 2048 | 4096 | 2034 | 1024 | 640 | 4096 | 1280 | 4096 | |
Texturkartläggningsenheter | 128 | 80 | 40/32 (Chelsea) | 24 | 20/24 (Jet) | 56 | 176 | 24 | 128 | 256 | 144 | 64 | 40 | 256 | 80 | 256 | |
Rendera utenheter | 32 | 16 | 8 | 16 | 64 | 8 | 32 | 64 | 32 | 16 | 64 | 32 | 64 | ||||
Z/Stencil OPS | 128 | 64 | 16 | 64 | 256 | 16 | 128 | 256 | — | ||||||||
L1 cache (KB) | 16 per beräkningsenhet (CU) | ||||||||||||||||
L2 cache (KB) | 768 | 512 | 256 | 128/256 (Jet) | 256 | 1024 | 256 | 768 | 2048 | 1024 | 512 | 4096 | 1024 | 4096 | |||
Display kärnmotor | 6,0 | 6.4 | — | 8.2 | 8.5 | — | 10,0 | 11.2 | 12,0 | 12.1 | |||||||
Unified video dekoder | 3.2 | 4.0 | — | 4.2 | — | 5.0 | 6,0 | 6.3 | 7,0 | 7.2 | |||||||
Motor för videokodning | 1.0 | — | 2.0 | — | 3.0 | 3.4 | 4.0 | 4.1 | |||||||||
Lansering 2 | dec 2011 | mars 2012 | februari 2012 | jan 2013 | maj 2015 | mars 2013 | oktober 2013 | 2014 | augusti 2014 | juni 2015 | juni 2016 | augusti 2016 | apr 2017 | juni 2017 | nov 2018 | nov 2018 | |
Anteckningar | mobil/OEM | mobil/OEM | mobil |
1 Gamla kodnamn som Treasure (Lexa) eller Hawaii Refresh (Ellesmere) är inte listade. 2 Inledande lanseringsdatum. Lanseringsdatum för variantchips som Polaris 20 (april 2017) är inte listade.