Sannolikhetsfördelningsanpassning
Sannolikhetsfördelningsanpassning eller helt enkelt fördelningsanpassning är anpassningen av en sannolikhetsfördelning till en serie data som rör upprepad mätning av ett variabelt fenomen. Syftet med distributionsanpassning är att förutsäga sannolikheten eller att förutsäga förekomstfrekvensen av fenomenets storlek i ett visst intervall .
Det finns många sannolikhetsfördelningar (se lista över sannolikhetsfördelningar ) av vilka vissa kan anpassas närmare den observerade frekvensen av data än andra, beroende på egenskaperna hos fenomenet och fördelningen. Fördelningen som ger en nära passning är tänkt att leda till goda förutsägelser. Vid distributionsanpassning måste man därför välja en distribution som passar data väl.
Val av distribution
Valet av lämplig fördelning beror på närvaron eller frånvaron av symmetri hos datamängden med avseende på den centrala tendensen .
Symmetriska fördelningar
När data är symmetriskt fördelade runt medelvärdet medan frekvensen av förekomst av data längre bort från medelvärdet minskar, kan man till exempel välja normalfördelningen , den logistiska fördelningen eller Studentens t-fördelning . De två första är väldigt lika, medan den sista, med en frihetsgrad, har "tyngre svansar" vilket innebär att värdena längre bort från medelvärdet förekommer relativt oftare (dvs. kurtosen är högre ) . Cauchy -fördelningen är också symmetrisk.
Skev distributioner till höger
När de större värdena tenderar att vara längre bort från medelvärdet än de mindre värdena, har man en skevningsfördelning till höger (dvs det finns positiv skevhet ), kan man till exempel välja log-normalfördelningen (dvs logvärdena för data är normalfördelade ), logistikfördelningen (dvs. datans logvärden följer en logistisk fördelning ), Gumbelfördelningen , exponentialfördelningen , Paretofördelningen , Weibullfördelningen , Burrfördelningen , eller Fréchetfördelningen . De fyra sista fördelningarna är avgränsade till vänster.
Skev distributioner åt vänster
När de mindre värdena tenderar att vara längre bort från medelvärdet än de större värdena har man en snedfördelning till vänster (dvs det finns negativ skevhet), man kan till exempel välja kvadrat-normalfördelningen (dvs normalfördelningen som tillämpas på kvadraten på datavärdena), den inverterade (spegelvända) Gumbel-fördelningen, Dagum-fördelningen (spegelvänd Burr-fördelning) eller Gompertz-fördelningen , som är avgränsad till vänster.
Tekniker för montering
Följande tekniker för distributionsanpassning finns:
- Parametriska metoder , genom vilka fördelningens parametrar beräknas från dataserien. De parametriska metoderna är:
Till exempel kan parametern förväntningen ( ) uppskattas med medelvärdet av data och parametern ( variansen ) kan uppskattas från standarden avvikelse från uppgifterna. Medelvärdet hittas som , där är datavärdet och antalet data, medan standardavvikelsen beräknas som . Med dessa parametrar är många fördelningar, t.ex. normalfördelningen, helt definierade.
- Plotta position plus regressionsanalys , med hjälp av en transformation av den kumulativa fördelningsfunktionen så att ett linjärt samband hittas mellan den kumulativa sannolikheten och värdena på data, som också kan behöva transformeras, beroende på den valda sannolikhetsfördelningen. I denna metod måste den kumulativa sannolikheten uppskattas av plottningspositionen.
Till exempel kan den kumulativa Gumbel-fördelningen linjäriseras till , där är datavariabel och , där är den kumulativa sannolikheten, dvs sannolikheten att datavärdet är mindre än . Med hjälp av plottningspositionen för hittar man alltså parametrarna och från en linjär regression av på , och Gumbel-fördelningen är helt definierad.
Generalisering av distributioner
Det är vanligt att transformera data logaritmiskt för att passa symmetriska fördelningar (som normala och logistiska ) till data som följer en fördelning som är positivt sned (dvs skev åt höger, med medelvärde > läge , och med en högersvans som är längre än vänster svans), se lognormalfördelning och den logistiska fördelningen . En liknande effekt kan uppnås genom att ta kvadratroten av data.
För att anpassa en symmetrisk fördelning till data som följer en negativt sned fördelning (dvs. sned åt vänster, med medelvärde < mode , och med en höger svans är detta kortare än den vänstra svansen) kan man använda de kvadrerade värdena på data för att åstadkomma passningen.
Mer generellt kan man höja data till en potens p för att anpassa symmetriska fördelningar till data som följer en fördelning av eventuell skevhet, varvid p < 1 när skevheten är positiv och p > 1 när skevheten är negativ. Det optimala värdet av p kan hittas med en numerisk metod . Den numeriska metoden kan bestå av att anta ett intervall av p- värden, sedan tillämpa fördelningsanpassningsproceduren upprepade gånger för alla antagna p -värden, och slutligen välja värdet av p för vilket summan av kvadrater av avvikelser av beräknade sannolikheter från uppmätta frekvenser ( chi kvadrat ) är minimum, som görs i CumFreq .
Generaliseringen ökar flexibiliteten för sannolikhetsfördelningar och ökar deras tillämpbarhet vid fördelningsanpassning.
Generaliseringens mångsidighet gör det till exempel möjligt att anpassa ungefär normalfördelade datamängder till ett stort antal olika sannolikhetsfördelningar, medan negativa snedfördelningar kan anpassas till kvadratiska normala och spegelvända Gumbelfördelningar.
Inversion av skevhet
Skeva fördelningar kan inverteras (eller speglas) genom att i det matematiska uttrycket av den kumulativa fördelningsfunktionen (F) ersättas med dess komplement: F'=1-F, erhåller den komplementära fördelningsfunktionen (även kallad överlevnadsfunktion ) som ger en spegelbild . På detta sätt omvandlas en fördelning som är sned åt höger till en fördelning som är sned åt vänster och vice versa.
Exempel . F-uttrycket för den positivt sneda Gumbel-fördelningen är: F=exp[-exp{-( X - u )/0,78 s }], där u är läget (dvs det värde som förekommer oftast) och s är standardavvikelsen . Gumbel-fördelningen kan transformeras med F'=1-exp[-exp{-( x - u )/0,78 s }] . Denna transformation ger den omvända, speglade eller komplementära Gumbel-fördelningen som kan passa en dataserie som följer en negativt skev fördelning.
Tekniken med skevhetsinvertering ökar antalet sannolikhetsfördelningar som är tillgängliga för fördelningsanpassning och förstorar fördelningsanpassningsmöjligheterna.
Förskjutning av distributioner
Vissa sannolikhetsfördelningar, som exponentialen , stöder inte datavärden ( X ) lika med eller mindre än noll. Men när negativa data finns kan sådana fördelningar fortfarande användas för att ersätta X med Y = X - Xm , där Xm är minimivärdet på X . Denna ersättning representerar en förskjutning av sannolikhetsfördelningen i positiv riktning, dvs åt höger, eftersom Xm är negativ. Efter att ha slutfört fördelningsanpassningen av Y , hittas motsvarande X -värden från X = Y + Xm , vilket representerar en bakåtförskjutning av fördelningen i negativ riktning, dvs åt vänster. Tekniken med distributionsskiftning ökar chansen att hitta en korrekt passande sannolikhetsfördelning.
Sammansatta distributioner
Det finns möjlighet att använda två olika sannolikhetsfördelningar, en för det lägre dataintervallet och en för det högre som till exempel Laplace- fördelningen . Områdena är åtskilda av en brytpunkt. Användningen av sådana sammansatta (diskontinuerliga) sannolikhetsfördelningar kan vara lämplig när data för det studerade fenomenet erhölls under två olika förhållanden.
Osäkerhet om förutsägelse
Förutsägelser av förekomst baserade på anpassade sannolikhetsfördelningar är föremål för osäkerhet , vilket uppstår från följande villkor:
- Den sanna sannolikhetsfördelningen av händelser kan avvika från den anpassade fördelningen, eftersom de observerade dataserierna kanske inte är helt representativa för den verkliga sannolikheten att fenomenet inträffar på grund av slumpmässiga fel
- Förekomsten av händelser i en annan situation eller i framtiden kan avvika från den anpassade fördelningen eftersom denna händelse också kan vara föremål för slumpmässiga fel
- En förändring av miljöförhållandena kan orsaka en förändring av sannolikheten för att fenomenet inträffar
En uppskattning av osäkerheten i det första och andra fallet kan erhållas med den binomala sannolikhetsfördelningen med användning av till exempel sannolikheten för överskridande Pe (dvs. chansen att händelsen X är större än ett referensvärde Xr av X ) och sannolikheten för icke -exceedance Pn (dvs chansen att händelsen X är mindre än eller lika med referensvärdet Xr , detta kallas även kumulativ sannolikhet ). I det här fallet finns det bara två möjligheter: antingen finns det överskridande eller icke-överskridande. Denna dualitet är anledningen till att binomialfördelningen är tillämplig.
Med binomialfördelningen kan man få ett prediktionsintervall . Ett sådant intervall uppskattar också risken för misslyckande, dvs. chansen att den förutsagda händelsen fortfarande ligger utanför konfidensintervallet. Konfidens- eller riskanalysen kan inkludera returperioden T =1/Pe som görs inom hydrologi .
God passform
Genom att rangordna passformen hos olika distributioner kan man få en uppfattning om vilken fördelning som är acceptabel och vilken som inte är det.
Histogram och densitetsfunktion
Från den kumulativa fördelningsfunktionen (CDF) kan man härleda ett histogram och sannolikhetstäthetsfunktionen (PDF).