Oprecis Dirichlet-process
Inom sannolikhetsteori och statistik är Dirichlet-processen (DP) en av de mest populära Bayesianska icke-parametriska modellerna. Det introducerades av Thomas Ferguson som en tidigare över sannolikhetsfördelningar.
En Dirichlet-process definieras helt av sina parametrar: (basen distribution eller basmått ) är en godtycklig fördelning och ( koncentrationsparametern ) är ett positivt reellt tal (det betecknas ofta som ). Enligt det Bayesianska paradigmet bör dessa parametrar väljas baserat på tillgänglig tidigare information om domänen.
Frågan är: hur ska vi välja de tidigare parametrarna för DP, i synnerhet den oändliga dimensionella , vid brist på förhandsinformation?
För att ta itu med detta problem är den enda tidigare föreslagna hittills den begränsande DP som erhållits för som har introducerats under namnet Bayesian bootstrap av Rubin; i själva verket kan det bevisas att den Bayesianska bootstrap är asymptotiskt likvärdig med den frekventistiska bootstrap som introducerades av Bradley Efron . Den begränsande Dirichlet-processen har kritiserats på olika grunder. Ur en a-priori synvinkel är den främsta kritiken att ta är långt ifrån att leda till en icke-informativ prior. Dessutom, a-posteriori, tilldelar den noll sannolikhet till varje uppsättning som inte inkluderar observationerna.
Den oprecisa Dirichlet-processen har föreslagits för att övervinna dessa problem. Grundidén är att fixa men inte välja något exakt basmått .
Mer exakt definieras den oprecisa Dirichlet-processen (IDP) enligt följande:
där är mängden av alla sannolikhetsmått. Med andra ord, IDP är mängden av alla Dirichlet-processer (med ett fast ) som erhålls genom att låta basmåttet spänna över mängden av alla sannolikhetsmått .
Slutsatser med den oprecisa Dirichlet-processen
Låt en sannolikhetsfördelning på (här är en standard Borel space med Borel -fält ) och antag att . Betrakta sedan en verkligt värderad begränsad funktion definierad på . Det är välkänt att förväntan på med avseende på Dirichlet-processen är
En av de mest anmärkningsvärda egenskaperna hos DP-priorerna är att den bakre fördelningen av återigen är en DP. Låt vara ett oberoende och identiskt fördelat prov från och , då är den bakre fördelningen av givet observationerna
där är ett atomärt sannolikhetsmått (Diracs delta) centrerat vid . Följaktligen följer att G kan vi utnyttja de tidigare ekvationerna för att härleda tidigare och efterföljande förväntningar.
I IDP: n sträcka sig över uppsättningen av alla distributioner . Detta innebär att vi kommer att få en annan för- och efterförväntning av för alla val av . Ett sätt att karakterisera inferenser för IDP är genom att beräkna nedre och övre gränser för förväntan på wt . A-priori dessa gränser är:
den nedre (övre) gränsen erhålls genom ett sannolikhetsmått som sätter all massa på infimum (supremum) av , dvs. med (eller med ). Från ovanstående uttryck för de nedre och övre gränserna kan det observeras att intervallet för under IDP är detsamma som det ursprungliga intervallet för . Med andra ord, genom att specificera IDP, ger vi ingen tidigare information om värdet av förväntan på . A-priori IDP därför en modell av tidigare (nära)-okunnighet för .
A-posteriori kan IDP lära sig av data. De bakre nedre och övre gränserna för förväntan på ges i själva verket av:
Det kan observeras att de bakre inferenserna inte beror på . För att definiera IDP behöver modelleraren bara välja (koncentrationsparametern). Detta förklarar innebörden av adjektivet nära i tidigare nästan okunnighet, eftersom IDP kräver av modelleraren att en parameter framkallas. Detta är dock ett enkelt framkallningsproblem för en icke-parametrisk prior, eftersom vi bara behöver välja värdet på en positiv skalär (det finns inte oändligt många parametrar kvar i IDP-modellen).
Slutligen, observera att för , uppfyller IDP
där . Med andra ord är IDP konsekvent.
Val av tidigare styrka
IDP är helt specificerad av , som är den enda parametern som finns kvar i den tidigare modellen. Eftersom värdet på bestämmer hur snabbt nedre och övre posteriora förväntningar konvergerar vid ökningen av antalet observationer, kan väljas så att den matchar en viss konvergenshastighet. Parametern kan också väljas att ha några önskvärda frekventistiska egenskaper (t.ex. trovärdiga intervall som ska kalibreras frekventistintervall, hypotestest som ska kalibreras för typ I-felet, etc.), se Exempel: mediantest
Exempel: uppskattning av den kumulativa fördelningen
Låt vara iid reella slumpvariabler med kumulativ fördelningsfunktion .
Eftersom där är indikatorfunktionen , vi kan använda IDP för att härleda slutsatser om Det nedre och övre bakre medelvärdet av är
där är den empiriska fördelningsfunktionen . Här, för att få den lägre, har vi utnyttjat det faktum att och för den övre som .
Observera att för alla exakta val av (t.ex. normalfördelning , posterior förväntan på kommer att inkluderas mellan den nedre och övre gränsen.
Exempel: mediantest
IDP kan också användas för hypotestestning, till exempel för att testa hypotesen dvs medianen för är större än noll. Genom att beakta partitionen och egenskapen för Dirichlet-processen, kan det visas att den bakre fördelningen av är
där är antalet observationer som är mindre än noll,
- och
Genom att utnyttja den här egenskapen följer det
där är den regulariserade ofullständiga betafunktionen . Vi kan alltså utföra hypotestestet
(med till exempel) och sedan
- om båda olikheterna är uppfyllda kan vi deklarera att med sannolikhet större än ;
- om bara en av ojämlikheterna är uppfyllda (vilket nödvändigtvis måste vara den för den övre), är vi i en obestämd situation, dvs vi kan inte bestämma oss;
- om båda inte är uppfyllda kan vi förklara att sannolikheten för att är lägre än den önskade sannolikheten på .
IDP returnerar ett obestämt beslut när beslutet är tidigare beroende (det vill säga när det skulle bero på valet av .
Genom att utnyttja sambandet mellan den kumulativa fördelningsfunktionen för Beta-fördelningen och den kumulativa fördelningsfunktionen för en slumpvariabel Z från en binomialfördelning , där "sannolikheten för framgång" är p och urvalsstorleken är n :
vi kan visa att mediantestet härlett med th IDP för valfritt val av omfattar det ensidiga frekventistteckentestet som ett test för medianen. Det kan faktiskt verifieras att för -värdet för teckentestet lika med . Således, om så är -värdet mindre än och därför har de två testerna samma effekt.
Tillämpningar av den oprecisa Dirichlet-processen
Dirichlet-processer används ofta i Bayesiansk icke-parametrisk statistik. Den oprecisa Dirichlet-processen kan användas istället för Dirichlet-processerna i alla applikationer där förhandsinformation saknas (det är därför viktigt att modellera detta tillstånd av tidigare okunnighet).
I detta avseende har den oprecisa Dirichlet-processen använts för icke-parametrisk hypotestestning, se det statistiska paketet för Imprecise Dirichlet Process . Baserat på den oprecisa Dirichlet-processen har Bayesianska icke-parametriska nästan-okunnighetsversioner av följande klassiska icke-parametriska estimatorer härletts: Wilcoxon rank summa test och Wilcoxon signed-rank test.
En Bayesiansk icke-parametrisk nära-okunnighetsmodell presenterar flera fördelar med avseende på en traditionell metod för hypotestestning.
- Den bayesianska ansatsen gör att vi kan formulera hypotestestet som ett beslutsproblem. Detta innebär att vi kan verifiera bevisen till förmån för nollhypotesen och inte bara förkasta den och fatta beslut som minimerar den förväntade förlusten.
- På grund av den icke-parametriska tidigare nästan okunnighet, tillåter IDP-baserade tester oss att starta hypotestestet med mycket svaga tidigare antaganden, mycket i riktning mot att låta data tala för sig själva.
- Även om IDP-testet delar flera likheter med ett standard Bayesianskt tillvägagångssätt, förkroppsligar det samtidigt en betydande förändring av paradigm när det gäller att fatta beslut. Faktum är att de IDP-baserade testerna har fördelen att de ger ett obestämt resultat när beslutet är förut-beroende. Med andra ord, IDP-testet avbryter bedömningen när alternativet som minimerar den förväntade förlusten ändras beroende på Dirichlet-processens basmått vi fokuserar på.
- Det har verifierats empiriskt att när IDP-testet är obestämt, beter sig de frekventa testerna praktiskt taget som slumpmässiga gissare. Detta överraskande resultat får praktiska konsekvenser vid hypotesprövning. Antag att vi försöker jämföra effekterna av två medicinska behandlingar (Y är bättre än X) och att IDP-testet, givet tillgängliga data, är obestämbart. I en sådan situation ger frekventisttestet alltid ett bestämt svar (till exempel kan jag säga att Y är bättre än X), men det visar sig att dess svar är helt slumpmässigt, som om vi skulle kasta ett mynt. Å andra sidan erkänner IDP-testet omöjligheten att fatta ett beslut i dessa fall. Genom att säga "Jag vet inte", ger IDP-testet således en rikare information till analytikern. Analytikern kan till exempel använda denna information för att samla in mer data.
Kategoriska variabler
För kategoriska variabler , dvs när har ett ändligt antal element, är det känt att Dirichlet-processen reduceras till en Dirichlet-fördelning . I det här fallet reduceras den oprecisa Dirichlet-processen till den oprecisa Dirichlet-modellen som föreslagits av Walley som en modell för tidigare (nästan) okunnighet för chanser.
Se även
externa länkar
- Implementering av öppen källkod av hypoteser baserade på IDP
- Den oprecisa sannolikhetsgruppen på IDSIA