Grundmodeller

En grundmodell är en stor artificiell intelligensmodell som tränas på en stor mängd omärkt data i stor skala (vanligtvis genom självövervakad inlärning ) vilket resulterar i en modell som kan anpassas till ett brett utbud av nedströmsuppgifter. Grundmodeller har hjälpt till att åstadkomma en stor förändring av hur AI-system är byggda sedan de introducerades 2018. Tidiga exempel på grundmodeller var stora förtränade språkmodeller inklusive BERT och GPT-3 . Med samma idéer har domänspecifika modeller som använder sekvenser av andra typer av tokens, såsom medicinska koder, också byggts. Därefter har flera multimodala grundmodeller tagits fram inklusive DALL-E , Flamingo, Florence och NOOR. Stanford Institute for Human-Centered Artificial Intelligence (HAI) Center for Research on Foundation Models (CRFM) populariserade termen.

Definitioner

Stanford Institute for Human-Centered Artificial Intelligence (HAI) Center for Research on Foundation Models (CRFM) myntade termen foundation model för att hänvisa till "alla modeller som tränas på breda data (i allmänhet använder självövervakning i stor skala) som kan vara anpassad (t.ex. finjusterad) till ett brett utbud av nedströmsuppgifter". Detta är inte en ny teknik i sig, eftersom den är baserad på djupa neurala nätverk och självövervakad inlärning, utan den skala som den har utvecklats i de senaste åren och potentialen för att en modell kan användas för många olika ändamål , garanterar en ny mandatperiod, hävdar Stanford-gruppen.

En grundmodell är ett "paradigm för att bygga AI-system" där en modell tränad på en stor mängd omärkt data kan anpassas till många applikationer. Grundmodeller är "designade för att anpassas (t.ex. finjusteras) till olika nedströms kognitiva uppgifter genom förträning på bred data i skala".

Nyckelegenskaper hos grundmodeller är uppkomst och homogenisering . Eftersom träningsdata inte är märkta av människor, kommer modellen fram snarare än att vara explicit kodad. Egenskaper som inte var förutsedda kan dyka upp. Till exempel kan en modell som tränas på en stor språkdatauppsättning lära sig att generera egna berättelser, eller att göra aritmetik, utan att vara explicit programmerad att göra det. Homogenisering innebär att samma metod används inom många domäner, vilket möjliggör kraftfulla framsteg men också möjligheten till "single points of failure".

Möjligheter och risker

En arXiv-rapport från 2021 listade grundmodellernas kapacitet när det gäller "språk, vision, robotik, resonemang och mänsklig interaktion", tekniska principer, såsom "modellarkitekturer, utbildningsprocedurer, data, system, säkerhet, utvärdering och teori", deras tillämpningar, till exempel inom juridik, hälsovård och utbildning och deras potentiella inverkan på samhället, inklusive "ojämlikhet, missbruk, ekonomisk och miljömässig påverkan, juridiska och etiska överväganden".

En artikel om grundmodeller i The Economist noterar att "en del oroar sig för att teknikens hänsynslösa spridning kommer att ytterligare koncentrera ekonomisk och politisk makt".