Hyperprior
av |
---|
en serie om |
Bayesiansk statistik |
Posterior = Sannolikhet × Tidigare ÷ Bevisbakgrund |
Modellbyggnad |
Posterior approximation |
Uppskattare |
Modellutvärdering |
I Bayesiansk statistik är en hyperprior en tidigare fördelning på en hyperparameter , det vill säga på en parameter av en tidigare fördelning .
Liksom med termen hyperparameter är användningen av hyper för att skilja den från en tidigare fördelning av en parameter i modellen för det underliggande systemet. De uppstår särskilt vid användning av hierarkiska modeller .
Till exempel, om man använder en betafördelning för att modellera fördelningen av parametern p för en Bernoulli-fördelning , då:
- Bernoulli-fördelningen (med parameter p ) är modellen för det underliggande systemet;
- p är en parameter för det underliggande systemet (Bernoulli-fördelning);
- Betafördelningen (med parametrarna α och β ) är den tidigare fördelningen av p ;
- a och β är parametrar för den tidigare fördelningen (betafördelning), därav hyperparametrar;
- En tidigare fördelning av α och β är således en hyperprior.
I princip kan man upprepa ovanstående: om hyperpriorn själv har hyperparametrar kan dessa kallas hyperhyperparametrar, och så vidare.
Man kan analogt kalla den bakre fördelningen på hyperparametern för den hyperposteriora och, om dessa är i samma familj, kalla dem konjugerade hyperdistributioner eller en konjugat hyperprior. Detta blir dock snabbt mycket abstrakt och avlägsnat från det ursprungliga problemet.
Syfte
Hyperpriorer, liksom konjugerade priorer, är en beräkningsbekvämlighet – de ändrar inte processen för Bayesiansk slutledning, utan tillåter helt enkelt en att lättare beskriva och beräkna med prioren.
Osäkerhet
För det första tillåter användningen av en hyperprior en att uttrycka osäkerhet i en hyperparameter: att ta en fast prior är ett antagande, att variera en hyperparameter av priorn gör det möjligt för en att göra känslighetsanalys på detta antagande, och att ta en fördelning på denna hyperparameter tillåter en att uttrycka osäkerhet i detta antagande: "anta att prioren är av denna form (denna parametriska familj), men att vi är osäkra på exakt vad parametrarnas värden ska vara".
Blandningsfördelning
Mer abstrakt, om man använder en hyperprior, så är den tidigare fördelningen (på parametern för den underliggande modellen) i sig en blandningstäthet : det är det viktade medelvärdet av de olika tidigare fördelningarna (över olika hyperparametrar), där hyperpriorn är viktningen . Detta lägger till ytterligare möjliga distributioner (utöver den parametriska familjen man använder), eftersom parametriska familjer av distributioner i allmänhet inte är konvexa mängder – eftersom en blandningstäthet är en konvex kombination av distributioner, kommer den i allmänhet att ligga utanför familjen. Blandningen av två normalfördelningar är till exempel inte en normalfördelning: om man använder olika medel (tillräckligt långt borta) och blandar 50 % av vardera får man en bimodal fördelning, som alltså inte är normal. Faktum är att det konvexa skrovet för normalfördelningar är tätt i alla utbredningar, så i vissa fall kan du godtyckligt närma dig en given förut genom att använda en familj med en lämplig hyperprior.
Det som gör detta tillvägagångssätt särskilt användbart är om man använder konjugerade priors: individuella konjugerade priors har lätt beräknade posteriors, och därför är en blandning av konjugerade priors samma blandning av posteriors: man behöver bara veta hur varje konjugat föregående ändras. Att använda ett enskilt konjugat-prior kan vara för restriktivt, men att använda en blandning av konjugat-prior kan ge en önskad distribution i en form som är lätt att beräkna. Detta liknar att dekomponera en funktion i termer av egenfunktioner – se Konjugera tidigare: Analogi med egenfunktioner .
Dynamiskt system
En hyperprior är en fördelning på utrymmet av möjliga hyperparametrar. Om man använder konjugerade priors, så bevaras detta utrymme genom att flyttas till posteriors – sålunda när data anländer förändras fördelningen, men förblir på detta utrymme: när data anländer utvecklas distributionen som ett dynamiskt system (varje punkt i hyperparameterutrymmet utvecklas till de uppdaterade hyperparametrarna), konvergerar över tiden, precis som själva priorn konvergerar.
Vidare läsning
- Bernardo, JM; Smith, AFM (2000). Bayesiansk teori . New York: Wiley. ISBN 0-471-49464-X .