Bayesianskt informationskriterium
av |
---|
en serie om |
Bayesiansk statistik |
Posterior = Sannolikhet × Tidigare ÷ Bevisbakgrund |
Modellbyggnad |
Posterior approximation |
Uppskattare |
Modellutvärdering |
Inom statistik är det Bayesianska informationskriteriet ( BIC ) eller Schwarz informationskriteriet (även SIC , SBC , SBIC ) ett kriterium för modellval bland en ändlig uppsättning modeller; modeller med lägre BIC är i allmänhet att föredra. Den är delvis baserad på sannolikhetsfunktionen och den är nära relaterad till Akaike informationskriteriet ( AIC).
Vid montering av modeller är det möjligt att öka sannolikheten genom att lägga till parametrar, men att göra det kan leda till övermontering . Både BIC och AIC försöker lösa detta problem genom att införa en straffterm för antalet parametrar i modellen; strafftiden är större i BIC än i AIC för urvalsstorlekar större än 7.
BIC utvecklades av Gideon E. Schwarz och publicerades i en tidning 1978, där han gav ett Bayesianskt argument för att anta det.
Definition
BIC definieras formellt som
var
- det maximerade värdet av sannolikhetsfunktionen för modellen , dvs , där är parametervärdena som maximerar sannolikhetsfunktionen;
- = observerade data;
- = antalet datapunkter i , antalet observationer eller motsvarande urvalsstorleken;
- = antalet parametrar som uppskattas av modellen. Till exempel i multipel linjär regression är de uppskattade parametrarna skärningspunkten, lutningsparametrarna och den konstanta variansen av felen; alltså, .
Härledning
Konishi och Kitagawa härleder BIC för att approximera fördelningen av data, och integrerar parametrarna med hjälp av Laplaces metod , med början med följande modellbevis :
där är prioriteten för under modell .
Log-sannolikheten, , utökas sedan till en andra ordningens Taylor-serie om MLE , , förutsatt att det är dubbelt differentierbart enligt följande:
där är den genomsnittliga observerade informationen per observation och anger resttermen . I den mån är försumbar och är relativt linjär nära , vi kan integrera ut för att få följande:
När ökar kan vi ignorera och eftersom de är . Således,
där BIC definieras enligt ovan, och antingen (a) är det Bayesianska posteriora läget eller (b) använder MLE och föregående har en lutning som inte är noll vid MLE. Sedan den bakre
Användande
När man väljer bland flera modeller är i allmänhet sådana med lägre BIC-värden att föredra. BIC är en ökande funktion av felvariansen och en ökande funktion av k . Det vill säga, oförklarad variation i den beroende variabeln och antalet förklarande variabler ökar värdet på BIC. En lägre BIC betyder dock inte nödvändigtvis att en modell är bättre än en annan. Eftersom det innefattar approximationer är BIC bara en heuristik. I synnerhet bör skillnader i BIC aldrig behandlas som transformerade Bayes-faktorer.
Det är viktigt att komma ihåg att BIC kan användas för att jämföra skattade modeller endast när de numeriska värdena för den beroende variabeln är identiska för alla modeller som jämförs. De modeller som jämförs behöver inte vara kapslade , till skillnad från fallet när modeller jämförs med ett F-test eller ett sannolikhetsförhållandetest . [ citat behövs ]
Egenskaper
- BIC:n straffar generellt fria parametrar hårdare än Akaike-informationskriteriet , även om det beror på storleken på n och den relativa storleken på n och k .
- Det är oberoende av föregående.
- Den kan mäta effektiviteten hos den parametriserade modellen när det gäller att förutsäga data.
- Det straffar komplexiteten i modellen där komplexitet avser antalet parametrar i modellen.
- Det är ungefär lika med kriteriet för minsta beskrivningslängd men med negativt tecken.
- Den kan användas för att välja antalet kluster enligt den inneboende komplexiteten som finns i en viss datamängd.
- Det är nära besläktat med andra bestraffade sannolikhetskriterier som avvikelseinformationskriteriet och Akaike informationskriteriet .
Begränsningar
BIC lider av två huvudsakliga begränsningar
- Ovanstående approximation är endast giltig för provstorlek mycket större än antalet parametrar i modellen.
- BIC kan inte hantera komplexa samlingar av modeller som i problemet med variabelval (eller funktionsval ) i hög dimension.
Gaussiskt specialfall
Under antagandet att modellfelen eller störningarna är oberoende och identiskt fördelade enligt en normalfördelning och gränsvillkoret att derivatan av logsannolikheten med avseende på den sanna variansen är noll, blir detta ( upp till en additiv konstant , vilket beror på endast på n och inte på modellen):
där är felvariansen. Felavvikelsen i detta fall definieras som
som är en partisk skattare för den sanna variansen .
I termer av restsumman av kvadrater (RSS) är BIC
När man testar flera linjära modeller mot en mättad modell kan BIC skrivas om i termer av avvikelsen χ som:
där är antalet modellparametrar i testet.
Se även
Anteckningar
Vidare läsning
-
Bhat, HS; Kumar, N (2010). "Om härledningen av Bayesian Information Criterion" (PDF) . Arkiverad från originalet (PDF) den 28 mars 2012.
{{ citera tidskrift }}
: Citera tidskrift kräver|journal=
( hjälp ) - Findley, DF (1991). "Motexempel till sparsamhet och BIC". Annals of the Institute of Statistical Mathematics . 43 (3): 505–514. doi : 10.1007/BF00053369 . S2CID 58910242 .
- Kass, RE; Wasserman, L. (1995). "Ett referens Bayesianskt test för kapslade hypoteser och dess förhållande till Schwarz-kriteriet". Journal of the American Statistical Association . 90 (431): 928–934. doi : 10.2307/2291327 . JSTOR 2291327 .
- Liddle, AR (2007). "Informationskriterier för val av astrofysiska modeller". Månatliga meddelanden från Royal Astronomical Society . 377 (1): L74–L78. arXiv : astro-ph/0701113 . Bibcode : 2007MNRAS.377L..74L . doi : 10.1111/j.1745-3933.2007.00306.x . S2CID 2884450 .
- McQuarrie, ADR; Tsai, C.-L. (1998). Val av regression och tidsseriemodell . World Scientific .