Metalog distribution
Metalogfördelningen är en flexibel kontinuerlig sannolikhetsfördelning utformad för enkel användning i praktiken . Tillsammans med sina transformationer är metalogfamiljen av kontinuerliga distributioner unik eftersom den förkroppsligar alla följande egenskaper: praktiskt taget obegränsad formflexibilitet; ett val mellan obundna, semi-bounded och bounded distributioner; enkel anpassning till data med linjära minsta kvadrater; kvantilfunktionsekvationer i sluten form (invers CDF ) som underlättar simulering ; en enkel, sluten PDF ; och Bayesiansk uppdatering i sluten form i ljuset av nya data. Dessutom, precis som en Taylor-serie , kan metalogdistributioner ha valfritt antal termer, beroende på graden av önskad formflexibilitet och andra applikationsbehov.
Tillämpningar där metalogfördelningar kan vara användbara involverar typiskt anpassning av empiriska data, simulerade data eller expertframkallade kvantiler för att jämna, kontinuerliga sannolikhetsfördelningar. Användningsområdena är omfattande och inkluderar ekonomi, vetenskap, teknik och många andra områden. Metalog-distributionerna, även kända som Keelin-distributionerna, publicerades först 2016 av Tom Keelin.
Historia
Sannolikhetsfördelningarnas historia kan delvis ses som en utveckling av utvecklingen mot större flexibilitet i form och gränser vid anpassning till data . Normalfördelningen publicerades första gången 1756, och Bayes sats 1763. Normalfördelningen lade grunden för mycket av den klassiska statistikens utveckling . Däremot lade Bayes teorem grunden för informationstillståndet, trosbaserade sannolikhetsrepresentationer. Eftersom trosbaserade sannolikheter kan anta vilken form som helst och kan ha naturliga gränser, behövdes sannolikhetsfördelningar som var tillräckligt flexibla för att rymma båda. Dessutom uppvisade många empiriska och experimentella datamängder former som inte kunde matchas väl av normala eller andra kontinuerliga distributioner . Så började sökandet efter kontinuerliga sannolikhetsfördelningar med flexibla former och gränser.
Tidigt på 1900-talet uppstod Pearson- familjen av distributioner, som inkluderar normal , beta , uniform , gamma , student-t , chi-square , F och fem andra, som ett stort framsteg i formflexibilitet. Dessa följdes av Johnson- utdelningarna. Båda familjerna kan representera de första fyra momenten av data ( medelvärde , varians , skevhet och kurtos ) med jämna kontinuerliga kurvor. Däremot har de ingen förmåga att matcha ögonblick av femte eller högre ordningen. Dessutom, för en given skevhet och kurtosis finns det inget val av gränser. Till exempel kan matchning av de första fyra momenten i en datamängd ge en fördelning med en negativ nedre gräns, även om det kan vara känt att kvantiteten i fråga inte kan vara negativ. Slutligen inkluderar deras ekvationer svårlösta integraler och komplexa statistiska funktioner, så att anpassning till data vanligtvis kräver iterativa metoder.
Tidigt på 2000-talet började beslutsanalytiker arbeta med att utveckla kontinuerliga sannolikhetsfördelningar som exakt skulle passa alla specificerade tre punkter på den kumulativa fördelningsfunktionen för en osäker kvantitet (t.ex. expertutlöst och kvantiler). Pearson- och Johnson-familjens distributioner var i allmänhet otillräckliga för detta ändamål. Dessutom sökte beslutsanalytiker också sannolikhetsfördelningar som skulle vara lätta att parametrisera med data (t.ex. genom att använda linjära minsta kvadrater eller motsvarande multipel linjär regression ). Introducerad 2011, uppnådde klassen av kvantilparameteriserade distributioner (QPD) båda målen. Även om det var ett betydande framsteg av denna anledning, användes QPD ursprungligen för att illustrera denna klass av distributioner, Simple Q-Normal-fördelningen, hade mindre formflexibilitet än Pearson- och Johnson-familjerna och saknade förmågan att representera semi-bounded och bounded distributions . Kort därefter utvecklade Keelin familjen av metalogdistributioner, en annan instans av QPD-klassen, som är mer formflexibel än Pearson- och Johnson-familjerna, erbjuder ett val av begränsning, har sluten formekvationer som kan anpassas till data med linjär kvantilfunktioner i sluten form, vilket underlättar Monte Carlo-simulering .
Definition och kvantilfunktion
Metalogdistributionen är en generalisering av den logistiska distributionen , där termen "metalog" är en förkortning för "metalogistisk". Börjar med den logistiska kvantilfunktionen , , Keelin ersatte potensserieexpansionerna i kumulativ sannolikhet för och parametrarna , som styr plats respektive skala.
Keelins motivering för detta utbyte var femfaldigt. För det första skulle den resulterande kvantilfunktionen ha betydande formflexibilitet, styrd av koefficienterna . För det andra skulle det ha en enkel sluten form som är linjär i dessa koefficienter, vilket antyder att de lätt kan bestämmas från CDF- data genom linjära minsta kvadrater . För det tredje skulle den resulterande kvantilfunktionen vara jämn, differentierbar och analytisk , vilket säkerställer att en jämn, sluten PDF -fil är tillgänglig. För det fjärde simulering underlättas av den resulterande inversa CDF i sluten form . För det femte, som en Taylor-serie , kan valfritt antal termer användas, beroende på graden av önskad formflexibilitet och andra applikationsbehov.
Observera att sänkningarna av -koefficienterna är sådana att och är i expansionen och finns i -expansionen, och abonnemang växlar därefter. Denna ordning valdes så att de två första termerna i den resulterande metalogkvantilfunktionen exakt motsvarar den logistiska fördelningen; tredje term med justerar skevhet; lägga till fjärde term med justerar kurtos primärt; och att lägga till efterföljande termer som inte är noll ger mer nyanserade formförfinningar.
Att skriva om den logistiska kvantilfunktionen för att införliva ovanstående ersättningar för och ger metalog- kvantilfunktionen , för kumulativ sannolikhet .
På motsvarande sätt kan metalog-kvantilfunktionen uttryckas i termer av basfunktioner: , där metalogbasfunktionerna är och varje efterföljande definieras som uttrycket som multipliceras med i ekvationen för ovan. Observera att koefficienten är medianen eftersom alla andra termer är lika med noll när . Specialfall av metalog-kvantilfunktionen är den logistiska fördelningen ( ) och den enhetliga fördelningen ( annars).
Sannolikhetstäthetsfunktion
Att differentiera med avseende på ger kvantildensitetsfunktionen . Det ömsesidiga av denna kvantitet, , är sannolikhetstäthetsfunktionen uttryckt som en p-PDF,
som kan uttryckas likvärdigt i termer av basfunktioner som
- where .
Observera att denna PDF uttrycks som en funktion av kumulativ sannolikhet, , snarare än variabel av intresse, . För att plotta PDF-filen (t.ex. som visas i figurerna på denna sida), kan man variera parametriskt, och sedan plotta på den horisontella axeln och på den vertikala axeln.
Baserat på ovanstående ekvationer och följande transformationer som möjliggör val av gränser, består familjen av metalogfördelningar av obundna, semibounded och bounded metalogs, tillsammans med deras symmetrisk-percentile triplett (SPT) specialfall.
Ogränsade, semi-bounded och bounded metalogdistributioner
Som definierats ovan är metalogfördelningen obegränsad, förutom i det ovanliga specialfallet där för alla termer som innehåller . Men många applikationer kräver flexibla sannolikhetsfördelningar som har en nedre gräns , en övre gräns , eller båda. För att möta detta behov använde Keelin transformationer för att härleda semi-bounded och bounded metalog distributioner. Sådana transformationer styrs av en allmän egenskap hos kvantilfunktioner: för valfri kvantilfunktion och ökande funktion är också en kvantilfunktion . Till exempel är kvantilfunktionen för normalfördelningen ; eftersom den naturliga logaritmen, , är en ökande funktion, är kvantilfunktionen för lognormalfördelningen . Analogt, applicering av denna egenskap på metalog-kvantilfunktionen med hjälp av transformationerna nedan ger de semi-bounded och bounded medlemmarna av metalog-familjen Genom att betrakta som metalogfördelad, uppfyller alla medlemmar av metalogfamiljen Keelin och Powleys definition av en kvantilparameteriserad fördelning och har därmed egenskaperna därav.
Observera att antalet formparametrar i metalogfamiljen ökar linjärt med antalet termer . Därför kan vilken som helst av ovanstående metaloger ha vilket antal formparametrar som helst. Däremot är Pearson- och Johnson-familjerna av distributioner begränsade till två formparametrar.
SPT metalog distributioner
Metalogfördelningarna med symmetrisk-percentil-triplett (SPT) är en treterm specialfall av de obundna, semi-bounded och bounded metalog-fördelningarna. Dessa parametriseras av de tre punkterna utanför CDF-kurvan , av formen , , och , där . SPT metalogs är användbara när, till exempel, kvantiler som motsvarar CDF-sannolikheterna (t.ex. ) framkallas från en expert och används för att parametrisera de tre termiga metalogfördelningarna. Som noteras nedan förenklas vissa matematiska egenskaper genom SPT-parameterisering.
Egenskaper
Metalogfamiljen av sannolikhetsfördelningar har följande egenskaper.
Genomförbarhet
En funktion av formen av eller någon av dess transformationer ovan är en möjlig sannolikhetsfördelning om och endast om dess PDF är större än noll för alla Detta innebär en genomförbarhetsbegränsning på uppsättningen av koefficienter ,
- för alla .
I praktiska tillämpningar måste genomförbarheten generellt kontrolleras snarare än antas. För säkerställer displaystyle För (inklusive SPT metalogs), är genomförbarhetsvillkoret och . För har en liknande sluten form härletts. För kontrolleras genomförbarheten vanligtvis grafiskt eller numeriskt.
Den obegränsade metalogen och dess transformationer ovan delar samma uppsättning möjliga koefficienter. Därför, för en given uppsättning koefficienter, bekräftar att för alla räcker oavsett vilken transformation som används.
Konvexitet
Uppsättningen av möjliga metalogkoefficienter för all är konvex . Eftersom konvexa optimeringsproblem kräver konvexa genomförbara uppsättningar, kan den här egenskapen förenkla optimeringsproblem som involverar metalogs. Dessutom garanterar den här egenskapen att varje konvex kombination av vektorerna för genomförbara metaloger är genomförbar, vilket är användbart till exempel när man kombinerar åsikter från flera experter eller interpolerar mellan genomförbara metaloger. Underförstått är varje probabilistisk blandning av metalogfördelningar i sig en metalog.
Anpassning till data
Koefficienterna kan bestämmas från data genom linjära minsta kvadrater . Givet datapunkter som är avsedda att karakterisera en metalog CDF, och en matris vars element består av basfunktionerna , sedan så länge som är inverterbar, kolumnvektorn av koefficienterna ges av , där och kolumnvektor . Om reduceras denna ekvation till , där den resulterande metalogen CDF kör igenom alla datapunkter exakt. För SPT-metaloger reduceras det ytterligare till uttryck i termer av de tre punkterna direkt.
En alternativ anpassningsmetod, implementerad som ett linjärt program, bestämmer koefficienterna genom att minimera summan av absoluta avstånd mellan CDF och data, med förbehåll för genomförbarhetsbegränsningar.
Formflexibilitet
Enligt metalogens flexibilitetssats kan varje sannolikhetsfördelning med en kontinuerlig kvantilfunktion approximeras godtyckligt noggrant av en metalog. Dessutom visade Keelin i den ursprungliga artikeln att tiotermsmetalogfördelningar parametriserade med 105 CDF-poäng från 30 traditionella källfördelningar (inklusive normal-, student-t-, lognormal-, gamma-, beta- och extremvärdesfördelningar) approximerar varje sådan källa distribution inom ett KS- avstånd på 0,001 eller mindre. Sålunda är metalogformflexibiliteten praktiskt taget obegränsad.
Den animerade figuren till höger illustrerar detta för standardnormalfördelningen, där metaloger med olika antal termer parametriseras av samma uppsättning av 105 punkter från standardnormal CDF. Metalog PDF konvergerar till den vanliga normala PDF-filen när antalet termer ökar. Med två termer approximerar metalogen normalen med en logistisk fördelning. Med varje ökning i antal termer kommer passformen närmare. Med 10 termer är metalog PDF och standard normal PDF visuellt omöjliga att skilja.
På liknande sätt är nio-terms semi-bounded metalog PDF-filer med visuellt omöjliga att skilja från en rad Weibull-distributioner . De sex fallen som visas till höger motsvarar Weibulls formparametrar 0.5, 0.8, 1.0, 1.5, 2 och 4. I varje fall parametriseras metalogen av de nio x {\displaystyle x} Weibull CDF som motsvarar de kumulativa sannolikheterna .
Sådan konvergens är inte unik för normal- och Weibull-fördelningarna. Keelin visade ursprungligen analoga resultat för ett brett utbud av distributioner och har sedan dess tillhandahållit ytterligare illustrationer.
Median
Medianen för varje distribution i metalogfamiljen har en enkel sluten form. Observera att definierar medianen, och (eftersom alla efterföljande termer är noll för ). Det följer att medianerna för de obegränsade metalog-, log-metalog-, negativ-log metalog- och logit-metalog-fördelningarna är , , och respektive.
Ögonblick
Momentet för den obundna metalogfördelningen, är ett specialfall av den mer allmänna formeln för QPD. För den obegränsade metalogen utvärderas sådana integraler till moment i sluten form som är ordningens polynom i koefficienterna . De fyra första centrala momenten i den fyra termiska ogränsade metalogen är:
Moment för färre termer ingår i dessa ekvationer. Till exempel kan moment av tretermmetalogen erhållas genom att ställa in till noll. Moment för metalogs med fler termer och högre ordningens moment ( ), är också tillgängliga. Moment för semi-bounded och bounded metalogs är inte tillgängliga i sluten form.
Parametrering med moment
Tre-term unbounded metalogs kan parametriseras i sluten form med sina tre första centrala moment . Låt och vara medelvärdet, variansen och skevheten, och låt vara den standardiserade skevheten, . Ekvivalenta uttryck för momenten i termer av koefficienter och koefficienter i termer av moment, är följande:
Ekvivalensen för dessa två uppsättningar uttryck kan härledas genom att notera att momentekvationerna till vänster bestämmer ett kubiskt polynom i termer av koefficienterna och , som kan lösas i sluten form som funktioner av och . Dessutom är denna lösning unik. När det gäller moment är genomförbarhetsvillkoret vilket kan visas vara ekvivalent med följande genomförbarhetsvillkor vad gäller koefficienterna: ; och .
Den här egenskapen kan till exempel användas för att representera summan av oberoende, icke-identiskt fördelade slumpvariabler . Baserat på kumulanter är det känt att för varje uppsättning oberoende slumpvariabler är medelvärdet, variansen och skevheten för summan summan av respektive medelvärde, varianser och skevheter. Parametrering av en tre-term metalog med dessa centrala moment ger en kontinuerlig fördelning som exakt bevarar dessa tre moment, och ger följaktligen en rimlig approximation till formen av fördelningen av summan av oberoende slumpvariabler.
Simulering
Eftersom deras kvantilfunktioner uttrycks i sluten form, underlättar metalogs Monte Carlo-simulering . Genom att ersätta enhetligt fördelade slumpmässiga sampel av i Metalog- kvantilfunktionen (invers CDF) produceras slumpmässiga sampel av i sluten form, vilket eliminerar behovet av att invertera en CDF. Se nedan för simuleringsapplikationer.
Framkalla och kombinera expertutlåtanden
På grund av sin formflexibilitet kan metalogdistributioner vara ett attraktivt val för att framkalla och representera expertutlåtanden. Dessutom, om åsikterna från flera experter uttrycks som -term metalogs, kan konsensusuppfattningen beräknas som en -term metalog i sluten form, där a -koefficienter för konsensusmetallogen är helt enkelt ett viktat medelvärde av de individuella experternas. Detta resultat följer av Vincentization , där konsensuskvantilfunktionen är ett viktat medelvärde av individuella kvantilfunktioner.
Bayesiansk uppdatering i stängd form
I en klassisk artikel visar Howard (1970) hur beta-binomialfördelningen kan användas för att uppdatera, enligt Bayes regel i sluten form, osäkerheten över långtidsfrekvensen för en myntkastning som kommer upp "huvuden" i ljuset av nya myntkastningsdata. Däremot, om osäkerheten av intresse som ska uppdateras inte definieras av en skalär sannolikhet över en diskret händelse (som resultatet av ett myntkast) utan av en sannolikhetstäthetsfunktion över en kontinuerlig variabel, kan metalog Bayesian uppdatering användas. Under vissa förhållanden kan metalog-kvantilparametrar och -koefficienter uppdateras i sluten form i ljuset av nya data enligt Bayes regel .
Ansökningar
På grund av deras flexibilitet i form och gränser, kan metalogs användas för att representera empiriska eller andra data i praktiskt taget alla områden av mänsklig strävan.
- Astronomi . Metalogs användes för att bedöma riskerna för asteroidpåverkan.
- Cybersäkerhet . Metalogs användes vid riskbedömning av cybersäkerhet.
- Framkalla och kombinera expertutlåtanden . Statistics Canada fick fram expertutlåtanden om framtida kanadensiska fertilitetstal från 18 experter, vilket inkluderade användningen av kalkylbladsbaserad realtids-PDF-feedback baserad på fem-terms metalogs. De enskilda expertutlåtandena viktades sedan och kombinerades till en övergripande metalogbaserad prognos.
- Empirisk datautforskning och visualisering . Inom fiskbiologi passade en 10-terms log metalog-fördelning (avgränsad nedan vid 0) till vikten av 3 474 steelhead-öringar som fångats och släppts ut på Babine River i British Columbia under 2006–2010. Bimodaliteten i den resulterande utbredningen har tillskrivits närvaron av både förstagångs- och andragångslek i floden, av vilka de senare tenderar att väga mer.
- Hydrologi . En 10-terms semi-bounded metalog användes för att modellera sannolikhetsfördelningen av årliga flodspårhöjder.
- Oljefältsproduktion . Semi-bounded SPT metalogs användes för att analysera fördomar i projektioner av oljefältsproduktion jämfört med observerad produktion i efterhand.
- Portföljförvaltning . SPT metalogs har använts för att modellera kommersiellt värde för nya produkter och produktportföljer.
- Simuleringsingångsfördelningar . För att stödja ett anbudsbeslut representerades osäkerheten om det framtida värdet av var och en av 259 finansiella tillgångar som en SPT-metallog. En simulering av det totala portföljvärdet visade sig ge mer realistiska resultat än en motsvarande simulering baserad på diskreta låga, median- och höga värden för varje tillgång.
- Simuleringsutgångsfördelningar . Metalogs har också använts för att anpassa utdata från simuleringar för att representera dessa utdata som kontinuerliga distributioner i sluten form (både CDF och PDF). Används på detta sätt är de vanligtvis mer stabila och jämnare än histogram.
- Summor av lognormaler . Metalogs möjliggör en representation i sluten form av kända distributioner vars CDF:er inte har något uttryck i sluten form. Keelin et al. (2019) tillämpar detta på summan av oberoende identiskt fördelade lognormalfördelningar, där kvantiler av summan kan bestämmas genom ett stort antal simuleringar. Nio sådana kvantiler används för att parametrisera en semi-bounded metalogdistribution som går igenom var och en av dessa nio kvantiler exakt. Kvantilparametrar lagras i en tabell, som sedan kan interpoleras för att ge mellanliggande värden; dessa värden är garanterat genomförbara av konvexitetsegenskapen ovan.
Välj antal termer
För en given applikation och datamängd beror valet av antalet metalogtermer på sammanhanget och kan kräva bedömning. För expertinlärning räcker vanligtvis tre till fem termer. För datautforskning och matchning av andra sannolikhetsfördelningar som summan av lognormaler räcker det vanligtvis med åtta till 12 termer. En metalog-panel, som visar metalog-PDF-filerna som motsvarar olika antal termer för en given datamängd, kan hjälpa denna bedömning. Till exempel, i metalog-panelen med stålhuvudvikt, är användning av mindre än sju termer utan tvekan underpassad data genom att dölja datas inneboende bimodalitet. Att använda mer än 11 termer är onödigt och kan i princip överpassa data. Fallet med 16 termer är omöjligt för denna datauppsättning, vilket indikeras av den tomma cellen i metalogpanelen. Andra verktyg (som regularisering , Akaike-informationskriterium och Bayesianskt informationskriterium ) kan också vara användbara. Till exempel, när den tillämpas på stålhuvudviktsdata, identifierar AIC-rankningen av metalogfördelningar från 2-16 termer tillsammans med ett brett utbud av klassiska distributioner den 11-termiga logmetallogen som den bästa passformen till dessa data. En liknande BIC-rankning identifierar 10-term log metalogen som den bästa passformen. Keelin (2016) ger ytterligare perspektiv på distributionsvalet inom metalogfamiljen.
Relaterade distributioner
Metalogfördelningarna tillhör gruppen av fördelningar som definieras i termer av kvantilfunktionen, som inkluderar de kvantilparameteriserade fördelningarna , Tukey lambda-fördelningen , dess generalisering, GLD, Govindarajulu-fördelningen och andra. Följande distributioner ingår i metalogfamiljen:
- Den logistiska fördelningen är ett specialfall av den obegränsade metalogen där för alla .
- Den enhetliga fördelningen är ett specialfall av: 1) den obegränsade metalogen där , , och annars; och 2) den avgränsade metalogen där , , , och annars.
- Log -logistikfördelningen , även känd som Fisk-fördelningen inom ekonomi, är ett specialfall av stockmetallogen där och för alla .
- Den log-likformiga fördelningen är ett specialfall av logmetalog där , a och annars.
- Logit-logistic distribution är ett specialfall av logit metalog där för alla .
programvara
Fritt tillgängliga mjukvaruverktyg kan användas för att arbeta med metalog-distributioner:
- Excel-arbetsböcker. Genom att klistra in eller skriva in CDF-data, visas metalogs (med val av gränser) omedelbart.
- SPT metalogs arbetsbok beräknar 2–3 term metalogs bestämt av tre CDF-data.
- Metalogs arbetsbok beräknar 2–16 termer metalogs (inklusive metalog panel) bestämt av 2-10 000 CDF-data.
- ELD (lika troliga data) Metalog-arbetsböcker beräknar 2–16 termmetaloger bestämt av 2–10 000 CDF-data, där s och metalog panel beräknas automatiskt.
- R. rmetalog (på Complehensive R Archive Network, CRAN ) .
- Pytonorm. Pymetalog återspeglar nära R-paketet. Metalogistic drar fördel av SciPy -plattformen.
- Webbläsare . MakeDistribution.com underlättar experiment med metalogs parametriserade av flera CDF-datapunkter. SPT metalog-kalkylatorn, metalog-kalkylatorn och ELD metalog-kalkylatorn är onlineversioner av Excel-arbetsböckerna.
- SIPmath Modeler Tools stöder metalog-distributioner i ett Excel-tillägg för simulering.
- Luminas programvara Analytica Free 101 för modellering och hjälp med svåra beslut.
- BayesFusions Metalog Builder möjliggör interaktiv uppbyggnad av metalogdistributioner. BayesFusions GeNIe (akademisk version av programvaran är gratis för akademisk forskning och undervisning) implementerar metalogdistributionerna.
Kommersiellt tillgängliga paket stöder också användningen av metalogdistributioner:
- FrontLine Solvers: Analytic Solver, RASON och Solver SDK, programvara för optimering. Anpassar automatiskt användardata till hela spektrumet av (avgränsade och obegränsade, multi-term) metalog-distributioner och ger möjlighet att jämföra metalog-distributioner med klassiska distributioner baserat på användarvalda godhetskriterier.
- Lone Star Analysis: TruNavigator och AnalyticsOS programvara för prediktiv och preskriptiv analys.
externa länkar
- Metalog Distributions webbplats, www.metalogs.org
- Metalog Distributions YouTube-kanal, utbildningsvideor