OpenAI Codex
OpenAI Codex är en artificiell intelligensmodell utvecklad av OpenAI . Den analyserar naturligt språk och genererar kod som svar. Den används för att driva GitHub Copilot , ett programmeringsverktyg för autokomplettering utvecklat för utvalda IDE:er , som Visual Studio Code och Neovim . Codex är en ättling till OpenAI:s GPT-3- modell, finjusterad för användning i programmeringsapplikationer.
OpenAI har släppt ett API för Codex i sluten beta .
Förmågor
Baserat på GPT-3, ett neuralt nätverk tränat på text, har Codex dessutom tränats på 159 gigabyte Python -kod från 54 miljoner GitHub- förråd. Ett typiskt användningsfall av Codex är att skriva en kommentar, till exempel " //beräkna det glidande medelvärdet av en array för en given fönsterstorlek
", och sedan använda AI för att föreslå ett kodblock som uppfyller den uppmaningen. OpenAI har sagt att Codex kan slutföra cirka 37 % av förfrågningarna och är tänkt att göra mänsklig programmering snabbare snarare än att ersätta den; enligt OpenAI:s blogg utmärker Codex sig mest på att "karta [...] enkla problem till befintlig kod", som de beskriver som "förmodligen den minst roliga delen av programmering". Jeremy Howard , medgrundare av Fast.ai , konstaterade att "[Codex] är ett sätt att få kod skriven utan att behöva skriva så mycket kod" och att "det är inte alltid korrekt, men det är bara tillräckligt nära". Enligt en artikel skriven av OpenAI-forskare hade 70,2 % av uppmaningarna fungerande lösningar när de försökte varje testfall 100 gånger.
OpenAI hävdar att Codex kan fungera i över ett dussin programmeringsspråk, inklusive Go , JavaScript , Perl , PHP , Ruby , Shell , Swift och TypeScript , även om det är mest effektivt i Python. Enligt VentureBeat visade demonstrationer uppladdade av OpenAI imponerande funktioner för coreference-upplösning . Demonstranterna kunde skapa ett webbläsarspel i JavaScript och generera datavetenskapliga diagram med matplotlib .
OpenAI har visat att Codex kan samverka med tjänster och appar som Mailchimp , Microsoft Word , Spotify och Google Calendar . Microsoft är enligt uppgift intresserad av att utforska Codex kapacitet.
frågor
OpenAI-demonstrationer visade upp brister som ineffektiv kod och enstaka egenheter i kodexempel. I en intervju med The Verge sa OpenAI teknikchef Greg Brockman att "ibland vet [Codex] inte riktigt exakt vad du frågar om" och att det kan kräva en del försök och misstag. OpenAI-forskare fann att Codex kämpar med uppmaningar i flera steg och högre nivåer, ofta misslyckas eller ger kontraintuitivt beteende. Dessutom tog de upp flera säkerhetsproblem, såsom övertillit från nybörjare av programmerare, fördomar baserade på utbildningsdata och säkerhetspåverkan på grund av sårbar kod.
VentureBeat har uttalat att eftersom Codex är utbildad på offentlig data kan den vara sårbar för "dataförgiftning" via avsiktliga uppladdningar av skadlig kod. Enligt en studie av forskare från New York University inkluderade cirka 40 % av koden som genererades av GitHub Copilot (som använder Codex) i scenarier som är relevanta för högrisk- CWE :er glitches eller andra exploaterbara designfel.
upphovsrätt
Free Software Foundation har uttryckt oro för att kodsnuttar som genereras av Copilot och Codex omedvetet kan bryta mot upphovsrätten , och i synnerhet villkoret för GPL som kräver att härledda verk licensieras under motsvarande villkor. Frågor som de tog upp inkluderar huruvida utbildning på offentliga arkiv faller i rimlig användning eller inte, hur utvecklare kan upptäcka intrångsgenererad kod, om utbildade maskininlärningsmodeller kan betraktas som modifierbar källkod eller en sammanställning av utbildningsdata, och om maskininlärningsmodeller själva kan vara upphovsrättsskyddad och av vem. En intern GitHub-studie fann att cirka 0,1 % av den genererade koden innehöll direkta kopior från träningsdata. Ett specifikt exempel har tagits upp, där modellen matade ut den ursprungliga koden för den snabba inversa kvadratrotsalgoritmen, inklusive kommentarer och ett felaktigt upphovsrättsmeddelande .
Som svar har OpenAI uttalat att "rättslig osäkerhet om de upphovsrättsliga konsekvenserna av utbildning av AI-system medför betydande kostnader för AI-utvecklare och därför bör lösas auktoritativt." Upphovsrättsproblemen med Codex har jämförts med Authors Guild, Inc. mot Google, Inc.s rättsfall, där domare bedömde att Google Books användning av textutdrag från miljontals skannade böcker utgjorde skälig användning.