Hutterpriset
Hutter -priset är ett kontantpris finansierat av Marcus Hutter som belönar förbättringar av datakomprimering på en specifik 1 GB engelsk textfil, med målet att uppmuntra forskning inom artificiell intelligens (AI).
Priset, som lanserades 2006, delar ut 5 000 euro för varje enprocentig förbättring (med 500 000 euro totalt) i den komprimerade storleken på filen enwik9 , som är den största av två filer som används i Large Text Compression Benchmark (LTCB); enwik9 består av de första 10 9 byten av en specifik version av engelska Wikipedia . Den pågående tävlingen arrangeras av Hutter, Matt Mahoney och Jim Bowery.
Från och med 2018 är textdata för enwik8 och enwik9 fortfarande ett nyckelverktyg för att utvärdera prestandan för komprimeringsalgoritmer (som gjorts i Hutters LTCB) och språkmodeller .
Mål
Målet med Hutterpriset är att uppmuntra forskning inom artificiell intelligens ( AI). Arrangörerna anser att textkomprimering och AI är likvärdiga problem. Hutter bevisade att det optimala beteendet för en målsökande agent i en okänd men beräkningsbar miljö är att vid varje steg gissa att miljön förmodligen styrs av ett av de kortaste programmen som överensstämmer med all interaktion hittills. Det finns dock ingen generell lösning eftersom Kolmogorovs komplexitet inte är beräkningsbar. Hutter bevisade att i det begränsade fallet (kallat AIXI tl ) där miljön är begränsad till tiden t och rum l , kan en lösning beräknas i tiden O (t2 l ), som fortfarande är svårbehandlad.
Arrangörerna tror vidare att komprimering av text på naturligt språk är ett svårt AI- problem, vilket motsvarar att klara Turing-testet . Framsteg mot ett mål representerar alltså framsteg mot det andra. De hävdar att förutsägelse av vilka karaktärer som mest sannolikt kommer att inträffa härnäst i en textsekvens kräver stor verklig kunskap. En textkompressor måste lösa samma problem för att tilldela de kortaste koderna till de mest troliga textsekvenserna.
Regler
Tävlingen är öppen. Det är öppet för alla. För att delta måste en konkurrent skicka in ett komprimeringsprogram och en dekomprimerare som dekomprimerar till filen enwik9 . Det är också möjligt att skicka in en komprimerad fil istället för komprimeringsprogrammet. Den totala storleken på den komprimerade filen och dekomprimeraren (som en Win32 eller Linux körbar fil) får inte vara större än 99 % av det tidigare prisvinnande bidraget. För varje enprocentig förbättring vinner konkurrenten 5 000 euro. Dekompressionsprogrammet måste också uppfylla begränsningar för körningstid och minne.
Bidragen måste publiceras för att möjliggöra oberoende verifiering. Det finns en 30-dagars väntetid för offentliga kommentarer innan ett pris tilldelas. 2017 ändrades reglerna för att kräva att källkoden släpptes under en fri mjukvarulicens , av oro över att "tidigare bidrag [som inte avslöjade sin källkod] hade varit värdelösa för andra och idéerna i dem kan gå förlorade evigt."
Historia
Priset tillkännagavs den 6 augusti 2006 med en mindre textfil: enwik8 bestående av 100MB. Den 21 februari 2020 utökades det med en faktor 10, till enwik9 på 1 GB, på samma sätt går priset från 50 000 till 500 000 euro. Den ursprungliga prisbaslinjen var 18 324 887 byte, uppnådd av PAQ 8F. Den utökade prisbaslinjen var 116 MB.
Den 20 augusti samma år skickade Alexander Ratushnyak PAQ8HKCC, en modifierad version av PAQ8H, som förbättrade komprimeringen med 2,6 % jämfört med PAQ8F. Han fortsatte att förbättra kompressionen till 3,0 % med PAQ8HP1 den 21 augusti, 4 % med PAQ8HP2 den 28 augusti, 4,9 % med PAQ8HP3 den 3 september, 5,9 % med PAQ8HP4 den 10 september och 5,9 % med PAQ8HP5 den 25 september. poäng förklarades han som den första vinnaren av Hutter-priset, belönades med 3 416 euro, och den nya baslinjen sattes till 17 073 018 byte.
Ratushnyak har sedan dess slagit sitt rekord flera gånger och blivit den andra (den 14 maj 2007, med PAQ8HP12 som komprimerade enwik8 till 16 481 655 byte och vann 1 732 euro), tredje (den 23 maj 2009, med dekomprimering 8,9,65 byte till 9,65). och vann 1 614 euro), och fjärde (den 4 november 2017, med phda som komprimerade filen till 15 284 944 byte och vann 2 085 euro) vinnare av Hutter-priset.
Se även
- ^ a b c "500 000 €-pris för att komprimera mänsklig kunskap" . Hutterpriset . Hämtad 2023-01-08 .
- ^ Mahoney, Matt (2022-12-02). "Barchmark för stor textkomprimering" . Hämtad 2023-01-08 .
- ^ a b Mahoney, Matt (2011-09-01). "Om testdata" . Hämtad 2022-11-16 .
- ^ a b "Vanliga ställda frågor och svar för mänsklig kunskapskompressionstävling" . Hutterpriset . Hämtad 14 okt 2022 .
-
^
Radford, Alec och Wu, Jeff och Child, Rewon och Luan, David och Amodi, Dario och Sutskever, Ilya (2019). "Språkmodeller är unsupervised multitask Learners" (PDF) .
{{ citera webben }}
: CS1 underhåll: använder författarens parameter ( länk ) - ^ Hutter, Marcus. Universell artificiell intelligens: Sekventiella beslut baserade på algoritmisk sannolikhet . Springer . doi : 10.1007/b138233 . ISBN 3-540-22139-5 .
- ^ Mahoney, Matt (2009-07-23). "Skäl för ett stort riktmärke för textkomprimering" . Hämtad 2022-11-16 .