Sparrow (bot)
Sparrow är en chatbot utvecklad av artificiell intelligens forskningslab DeepMind , ett dotterbolag till Alphabet Inc. Den är utformad för att svara korrekt på användarnas frågor, samtidigt som den minskar risken för osäkra och olämpliga svar. En motivation bakom Sparrow är att ta itu med problemet med språkmodeller som producerar felaktiga, partiska eller potentiellt skadliga utdata. Sparrow tränas med hjälp av mänskliga bedömningar, för att vara mer "hjälpsam, korrekt och ofarlig" jämfört med förtränade språkmodeller. Utvecklingen av Sparrow involverade att be betalda studiedeltagare att interagera med Sparrow och samla in deras preferenser för att träna en modell av hur användbart ett svar är.
För att förbättra korrektheten och hjälpa till att undvika problemet med "hallucinering" av felaktiga fakta, har Sparrow möjligheten att söka på internet med hjälp av Google Sök för att hitta och citera bevis för alla faktiska påståenden den gör.
För att göra modellen säkrare begränsas dess beteende av en uppsättning regler, till exempel "gör inte hotfulla uttalanden" och "kom inte med hatiska eller förolämpande kommentarer", samt regler om möjligen skadliga råd och att inte göra anspråk på att vara en person. Under utvecklingsstudien ombads deltagarna att samtala med systemet och försöka lura det att bryta mot dessa regler. En "regelmodell" tränades på bedömningar från dessa deltagare, som användes för vidareutbildning.
Sparrow introducerades i en artikel i september 2022 med titeln "Förbättra anpassningen av dialogagenter via riktade mänskliga bedömningar"; men det släpptes inte offentligt. DeepMinds vd Demis Hassabis sa att DeepMind överväger att släppa Sparrow för en "privat beta" någon gång under 2023.
Träning
Sparrow är ett Deep Neural Network baserat på transformatorns maskininlärningsmodellarkitektur . Den är finjusterad från DeepMinds "Chinchilla" förutbildade Large Language Model (LLM), som har 70 miljarder neurala nätverksparametrar.
Sparrow tränas med hjälp av förstärkningsinlärning från mänsklig feedback ( RLHF), även om vissa övervakade finjusteringstekniker också används. RLHF-utbildningen använder två belöningsmodeller som fångar mänskliga bedömningar; en "preferensmodell" som förutsäger vad en mänsklig studiedeltagare skulle föredra, och en "regelmodell" som förutsäger om modellen har brutit mot någon av reglerna.
Begränsningar
Sparrows träningsdatakorpus är huvudsakligen på engelska, vilket betyder att den presterar sämre på andra språk.
När det undersöks av studiedeltagare bryter det mot reglerna 8 % av gångerna; detta är dock fortfarande 3 gånger lägre än den förtränade modellen (Chinchilla) som anges vid baslinjen.
Se även
- AI säkerhet
- Sunt resonemang
- Etik för artificiell intelligens
- Naturlig språkbehandling
- Snabb ingenjörskonst