Minsta meddelandelängd

Minsta meddelandelängd (MML) är en Bayesiansk informationsteoretisk metod för statistisk modelljämförelse och urval. Den tillhandahåller en formell informationsteori som återupptar Occams Razor : även när modellerna är lika i sitt mått på passningsnoggrannhet med de observerade data, är det mer sannolikt att den som genererar den mest kortfattade förklaringen av data är korrekt (där förklaringen består av beskrivning av modellen, följt av förlustfri kodning av data med användning av den angivna modellen). MML uppfanns av Chris Wallace , som först dök upp i tidningen "An information measure for classification". MML är inte bara tänkt som en teoretisk konstruktion, utan som en teknik som kan användas i praktiken. Det skiljer sig från det relaterade konceptet Kolmogorovs komplexitet genom att det inte kräver användning av ett Turing-komplett språk för att modellera data.

Definition

Shannons A Mathematical Theory of Communication (1948) säger att i en optimal kod, meddelandelängden (i binär) för en händelse längd , där har sannolikheten , ges av .

Bayes teorem säger att sannolikheten för en (variabel) hypotes givet fast bevis är proportionell mot , som enligt definitionen av betingad sannolikhet är lika med . Vi vill ha modellen (hypotesen) med högst sådan posterior sannolikhet . Anta att vi kodar ett meddelande som representerar (beskriver) både modell och data gemensamt. Eftersom kommer den mest sannolika modellen att ha det kortaste meddelandet. Meddelandet delas upp i två delar: . Den första delen kodar själva modellen. Den andra delen innehåller information (t.ex. värden på parametrar, eller initiala villkor, etc.) som, när den bearbetas av modellen, matar ut observerade data.

MML byter naturligt och precist ut modellkomplexitet mot god passform. En mer komplicerad modell tar längre tid att ange (längre första del) men passar förmodligen data bättre (kortare andra del). Så ett MML-mått väljer inte en komplicerad modell om inte den modellen betalar för sig själv.

Kontinuerligt värderade parametrar

En anledning till att en modell kan vara längre är helt enkelt för att dess olika parametrar anges med större precision, vilket kräver överföring av fler siffror. Mycket av kraften hos MML kommer från dess hantering av hur exakt man ska ange parametrar i en modell, och en mängd olika approximationer som gör detta genomförbart i praktiken. Detta gör det möjligt att på ett användbart sätt jämföra, låt säga, en modell med många parametrar som är oprecist angivna mot en modell med färre parametrar mer exakt angivna.

Nyckelfunktioner i MML

  • MML kan användas för att jämföra modeller med olika struktur. Till exempel, dess tidigaste tillämpning var att hitta blandningsmodeller med det optimala antalet klasser. Att lägga till extra klasser till en blandningsmodell kommer alltid att tillåta att data anpassas med större noggrannhet, men enligt MML måste detta vägas mot de extra bitar som krävs för att koda parametrarna som definierar dessa klasser.
  • MML är en metod för bayesiansk modelljämförelse . Det ger varje modell ett betyg.
  • MML är skalinvariant och statistiskt invariant. Till skillnad från många Bayesianska urvalsmetoder bryr sig MML inte om du ändrar från att mäta längd till volym eller från kartesiska koordinater till polära koordinater.
  • MML är statistiskt konsekvent. För problem som Neyman-Scott (1948) problem eller faktoranalys där mängden data per parameter är begränsad ovan, kan MML uppskatta alla parametrar med statistisk konsistens .
  • MML står för mätnoggrannheten. Den använder Fisher-informationen (i Wallace-Freemans approximation 1987, eller andra hypervolymer i andra approximationer ) för att optimalt diskretisera kontinuerliga parametrar. Därför är den bakre alltid en sannolikhet, inte en sannolikhetstäthet.
  • MML har använts sedan 1968. MML-kodningsscheman har utvecklats för flera distributioner och många typer av maskininlärare, inklusive oövervakad klassificering, beslutsträd och grafer, DNA-sekvenser, Bayesiska nätverk, neurala nätverk (endast ett lager hittills ) , bildkomprimering, bild- och funktionssegmentering m.m.

Se även

externa länkar

Originalpublikation:

Böcker:

Relaterade länkar: