Wu Dao
Originalförfattare | Pekings akademi för artificiell intelligens |
---|---|
Initial release | 11 januari 2021 |
Hemsida |
Wu Dao ( kinesiska : 悟道 ; pinyin : wùdào ; lit. 'väg till medvetenhet') är en multimodal artificiell intelligens utvecklad av Beijing Academy of Artificial Intelligence (BAAI). Wu Dao 1.0 tillkännagavs först den 11 januari 2021; en förbättrad version, Wu Dao 2.0, tillkännagavs den 31 maj. Den har jämförts med GPT-3 och är byggd på en liknande arkitektur; i jämförelse har GPT-3 175 miljarder parametrar – variabler och indata inom maskininlärningsmodellen – medan Wu Dao har 1,75 biljoner parametrar. Wu Dao tränades på 4,9 terabyte bilder och texter (som inkluderade 1,2 terabyte kinesisk text och 1,2 terabyte engelsk text), medan GPT-3 tränades på 45 terabyte textdata. Ändå understryker ett växande arbete vikten av att öka både data och parametrar. Ordföranden för BAAI sa att Wu Dao var ett försök att "skapa den största, mest kraftfulla AI-modellen"; även om direkta jämförelser mellan modeller baserade på parameterantal (dvs. mellan Wu Dao och GPT-3) inte direkt korrelerar med kvalitet. Wu Dao 2.0, kallades "det största språk AI-systemet hittills". Det tolkades av kommentatorer som ett försök att "konkurrera med USA". Noterbart är att den typ av arkitektur som används för Wu Dao 2.0 är en blandning av experter (MoE) modell, till skillnad från GPT-3, som är en " tät"-modell: medan MoE-modeller kräver mycket mindre beräkningskraft för att träna än täta modeller med samma antal parametrar, har MoE-modeller med biljoner parametrar visat jämförbar prestanda med modeller som är hundratals gånger mindre.
Wu Daos skapare visade sin förmåga att utföra naturlig språkbehandling och bildigenkänning, förutom att skapa text och bilder. Modellen kan inte bara skriva uppsatser, dikter och kupletter på traditionell kinesiska, den kan både generera alt-text baserad på en statisk bild och generera nästan fotorealistiska bilder baserade på naturliga språkbeskrivningar. Wu Dao visade också upp sin förmåga att driva virtuella idoler (med lite hjälp från Microsoft -spinoff Xiaoice ) och förutsäga 3D-strukturerna hos proteiner som AlphaFold .
Historia
Wu Daos utveckling började i oktober 2020, flera månader efter lanseringen av GPT-3 i maj 2020 . Den första iterationen av modellen, Wu Dao 1.0, "initierade storskaliga forskningsprojekt" via fyra relaterade modeller.
- Wu Dao – Wen Yuan , en förtränad språkmodell med 2,6 miljarder parametrar, designades för uppgifter som svar i öppen domän, sentimentanalys och grammatikkorrigering.
- Wu Dao – Wen Lan , en multimodal grafisk modell med 1 miljard parametrar, tränades på 50 miljoner bildpar för att utföra bildtextning.
- Wu Dao – Wen Hui , en generativ språkmodell med 11,3 miljarder parametrar, designades för "väsentliga problem i allmän artificiell intelligens ur ett kognitivt perspektiv"; Synced säger att det kan "generera poesi, göra videor, rita bilder, hämta text, utföra komplexa resonemang, etc".
- Wu Dao – Wen Su , baserad på Googles BERT-språkmodell och utbildad i UNIPARC-databasen på 100 gigabyte (liksom tusentals gensekvenser), designades för förutsägelse av biomolekylär struktur och proteinveckningsuppgifter.
WuDaoCorpora
WuDaoCorpora, från och med version 2.0, var en stor datamängd konstruerad för att träna Wu Dao 2.0. Den innehåller 3 terabyte text skrapad från webbdata, 90 terabyte grafisk data (inkluderande 630 miljoner text/bildpar) och 181 gigabyte kinesisk dialog (inkluderande 1,4 miljarder dialogrundor). Wu Dao 2.0 tränades med FastMoE, en variant av blandningen av expertarkitektur publicerad av Google . TheNextWeb sa i juni 2021 att "detaljer om exakt hur Wu Dao tränades, vad som fanns i dess olika datamängder och vilka praktiska tillämpningar den kan användas för är fortfarande knapphändig". OpenAI :s policychef kallade Wu Dao för ett exempel på "modellspridning", en neologism som beskriver en situation där flera enheter utvecklar modeller som liknar OpenAIs.