Sannolikhetsfördelningsanpassning

Sannolikhetsfördelningsanpassning eller helt enkelt fördelningsanpassning är anpassningen av en sannolikhetsfördelning till en serie data som rör upprepad mätning av ett variabelt fenomen. Syftet med distributionsanpassning är att förutsäga sannolikheten eller att förutsäga förekomstfrekvensen av fenomenets storlek i ett visst intervall .

Det finns många sannolikhetsfördelningar (se lista över sannolikhetsfördelningar ) av vilka vissa kan anpassas närmare den observerade frekvensen av data än andra, beroende på egenskaperna hos fenomenet och fördelningen. Fördelningen som ger en nära passning är tänkt att leda till goda förutsägelser. Vid distributionsanpassning måste man därför välja en distribution som passar data väl.

Val av distribution

Olika former av den symmetriska normalfördelningen beroende på medel μ och varians σ ²

Valet av lämplig fördelning beror på närvaron eller frånvaron av symmetri hos datamängden med avseende på den centrala tendensen .

Symmetriska fördelningar

När data är symmetriskt fördelade runt medelvärdet medan frekvensen av förekomst av data längre bort från medelvärdet minskar, kan man till exempel välja normalfördelningen , den logistiska fördelningen eller Studentens t-fördelning . De två första är väldigt lika, medan den sista, med en frihetsgrad, har "tyngre svansar" vilket innebär att värdena längre bort från medelvärdet förekommer relativt oftare (dvs. kurtosen är högre ) . Cauchy -fördelningen är också symmetrisk.

Skev distributioner till höger

Skevhet åt vänster och höger

När de större värdena tenderar att vara längre bort från medelvärdet än de mindre värdena, har man en skevningsfördelning till höger (dvs det finns positiv skevhet ), kan man till exempel välja log-normalfördelningen (dvs logvärdena för data är normalfördelade ), logistikfördelningen (dvs. datans logvärden följer en logistisk fördelning ), Gumbelfördelningen , exponentialfördelningen , Paretofördelningen , Weibullfördelningen , Burrfördelningen , eller Fréchetfördelningen . De fyra sista fördelningarna är avgränsade till vänster.

Skev distributioner åt vänster

När de mindre värdena tenderar att vara längre bort från medelvärdet än de större värdena har man en snedfördelning till vänster (dvs det finns negativ skevhet), man kan till exempel välja kvadrat-normalfördelningen (dvs normalfördelningen som tillämpas på kvadraten på datavärdena), den inverterade (spegelvända) Gumbel-fördelningen, Dagum-fördelningen (spegelvänd Burr-fördelning) eller Gompertz-fördelningen , som är avgränsad till vänster.

Tekniker för montering

Följande tekniker för distributionsanpassning finns:

Parametriska metoder , genom vilka fördelningens parametrar beräknas från dataserien. De parametriska metoderna är:
- Metod för ögonblick
- Uppskattning av maximalt avstånd
- Metod för L-moment
- Maximal likelihood- metod

Till exempel kan parametern $\mu$ förväntningen ( ) uppskattas med medelvärdet av data och parametern $\sigma ^{2}$ ( variansen ) kan uppskattas från standarden avvikelse från uppgifterna. Medelvärdet hittas som ${\textstyle m=\summa {X}/n}$ , där $X$ är datavärdet och $n$ antalet data, medan standardavvikelsen beräknas som ${\textstyle s={\sqrt {{\frac {1}{n-1}}\sum {(Xm)^{2}} }}}$ . Med dessa parametrar är många fördelningar, t.ex. normalfördelningen, helt definierade.

Kumulativ Gumbel-distribution anpassad till maximala endagsregn i oktober i Surinam med regressionsmetoden med ökat konfidensband med cumfreq

Plotta position plus regressionsanalys , med hjälp av en transformation av den kumulativa fördelningsfunktionen så att ett linjärt samband hittas mellan den kumulativa sannolikheten och värdena på data, som också kan behöva transformeras, beroende på den valda sannolikhetsfördelningen. I denna metod måste den kumulativa sannolikheten uppskattas av plottningspositionen.

Till exempel kan den kumulativa Gumbel-fördelningen linjäriseras till $Y=aX+b$ , där $X$ är datavariabel och $Y=-\ln(-\ln P)$ , där $P$ är den kumulativa sannolikheten, dvs sannolikheten att datavärdet är mindre än $X$ . Med hjälp av plottningspositionen för $P$ hittar man alltså parametrarna $a$ och $b$ från en linjär regression av $Y$ på $X$ , och Gumbel-fördelningen är helt definierad.

Generalisering av distributioner

Det är vanligt att transformera data logaritmiskt för att passa symmetriska fördelningar (som normala och logistiska ) till data som följer en fördelning som är positivt sned (dvs skev åt höger, med medelvärde > läge , och med en högersvans som är längre än vänster svans), se lognormalfördelning och den logistiska fördelningen . En liknande effekt kan uppnås genom att ta kvadratroten av data.

För att anpassa en symmetrisk fördelning till data som följer en negativt sned fördelning (dvs. sned åt vänster, med medelvärde < mode , och med en höger svans är detta kortare än den vänstra svansen) kan man använda de kvadrerade värdena på data för att åstadkomma passningen.

Mer generellt kan man höja data till en potens p för att anpassa symmetriska fördelningar till data som följer en fördelning av eventuell skevhet, varvid p < 1 när skevheten är positiv och p > 1 när skevheten är negativ. Det optimala värdet av p kan hittas med en numerisk metod . Den numeriska metoden kan bestå av att anta ett intervall av p- värden, sedan tillämpa fördelningsanpassningsproceduren upprepade gånger för alla antagna p -värden, och slutligen välja värdet av p för vilket summan av kvadrater av avvikelser av beräknade sannolikheter från uppmätta frekvenser ( chi kvadrat ) är minimum, som görs i CumFreq .

Generaliseringen ökar flexibiliteten för sannolikhetsfördelningar och ökar deras tillämpbarhet vid fördelningsanpassning.

Generaliseringens mångsidighet gör det till exempel möjligt att anpassa ungefär normalfördelade datamängder till ett stort antal olika sannolikhetsfördelningar, medan negativa snedfördelningar kan anpassas till kvadratiska normala och spegelvända Gumbelfördelningar.

Inversion av skevhet

(A) Gumbels sannolikhetsfördelning skev åt höger och (B) Gumbel spegelvänd skevhet åt vänster

Skeva fördelningar kan inverteras (eller speglas) genom att i det matematiska uttrycket av den kumulativa fördelningsfunktionen (F) ersättas med dess komplement: F'=1-F, erhåller den komplementära fördelningsfunktionen (även kallad överlevnadsfunktion ) som ger en spegelbild . På detta sätt omvandlas en fördelning som är sned åt höger till en fördelning som är sned åt vänster och vice versa.

Exempel . F-uttrycket för den positivt sneda Gumbel-fördelningen är: F=exp[-exp{-( X - u )/0,78 s }], där u är läget (dvs det värde som förekommer oftast) och s är standardavvikelsen . Gumbel-fördelningen kan transformeras med F'=1-exp[-exp{-( x - u )/0,78 s }] . Denna transformation ger den omvända, speglade eller komplementära Gumbel-fördelningen som kan passa en dataserie som följer en negativt skev fördelning.

Tekniken med skevhetsinvertering ökar antalet sannolikhetsfördelningar som är tillgängliga för fördelningsanpassning och förstorar fördelningsanpassningsmöjligheterna.

Förskjutning av distributioner

Vissa sannolikhetsfördelningar, som exponentialen , stöder inte datavärden ( X ) lika med eller mindre än noll. Men när negativa data finns kan sådana fördelningar fortfarande användas för att ersätta X med Y = X - Xm , där Xm är minimivärdet på X . Denna ersättning representerar en förskjutning av sannolikhetsfördelningen i positiv riktning, dvs åt höger, eftersom Xm är negativ. Efter att ha slutfört fördelningsanpassningen av Y , hittas motsvarande X -värden från X = Y + Xm , vilket representerar en bakåtförskjutning av fördelningen i negativ riktning, dvs åt vänster. Tekniken med distributionsskiftning ökar chansen att hitta en korrekt passande sannolikhetsfördelning.

Sammansatta distributioner

Komposit (diskontinuerlig) distribution med konfidensbälte

Det finns möjlighet att använda två olika sannolikhetsfördelningar, en för det lägre dataintervallet och en för det högre som till exempel Laplace- fördelningen . Områdena är åtskilda av en brytpunkt. Användningen av sådana sammansatta (diskontinuerliga) sannolikhetsfördelningar kan vara lämplig när data för det studerade fenomenet erhölls under två olika förhållanden.

Osäkerhet om förutsägelse

Osäkerhetsanalys med konfidensbälten med hjälp av binomialfördelningen

Förutsägelser av förekomst baserade på anpassade sannolikhetsfördelningar är föremål för osäkerhet , vilket uppstår från följande villkor:

Den sanna sannolikhetsfördelningen av händelser kan avvika från den anpassade fördelningen, eftersom de observerade dataserierna kanske inte är helt representativa för den verkliga sannolikheten att fenomenet inträffar på grund av slumpmässiga fel
Förekomsten av händelser i en annan situation eller i framtiden kan avvika från den anpassade fördelningen eftersom denna händelse också kan vara föremål för slumpmässiga fel
En förändring av miljöförhållandena kan orsaka en förändring av sannolikheten för att fenomenet inträffar

Variationer av nio returperiodkurvor av 50-åriga prover från en teoretisk 1000 års rekord (baslinje), data från Benson

En uppskattning av osäkerheten i det första och andra fallet kan erhållas med den binomala sannolikhetsfördelningen med användning av till exempel sannolikheten för överskridande Pe (dvs. chansen att händelsen X är större än ett referensvärde Xr av X ) och sannolikheten för icke -exceedance Pn (dvs chansen att händelsen X är mindre än eller lika med referensvärdet Xr , detta kallas även kumulativ sannolikhet ). I det här fallet finns det bara två möjligheter: antingen finns det överskridande eller icke-överskridande. Denna dualitet är anledningen till att binomialfördelningen är tillämplig.

Med binomialfördelningen kan man få ett prediktionsintervall . Ett sådant intervall uppskattar också risken för misslyckande, dvs. chansen att den förutsagda händelsen fortfarande ligger utanför konfidensintervallet. Konfidens- eller riskanalysen kan inkludera returperioden T =1/Pe som görs inom hydrologi .

Lista över sannolikhetsfördelningar rangordnade efter god passform.

Histogram och sannolikhetstäthet för en datamängd som passar GEV-fördelningen

God passform

Genom att rangordna passformen hos olika distributioner kan man få en uppfattning om vilken fördelning som är acceptabel och vilken som inte är det.

Histogram och densitetsfunktion

Från den kumulativa fördelningsfunktionen (CDF) kan man härleda ett histogram och sannolikhetstäthetsfunktionen (PDF).

Se även

Fördelningsbeslag
Översikt och metoder	Sannolikhetsplott Normal sannolikhetsplot P–P tomt Q–Q plot Plotta position L-moment Fördelningsbeslag Kumulativ frekvensanalys
programvara	CumFreq MathWorks R StatSoft