Sannolikhetsbox
En sannolikhetsbox (eller p-box ) är en karakterisering av osäkra tal bestående av både aleatoriska och epistemiska osäkerheter som ofta används i riskanalys eller kvantitativ osäkerhetsmodellering där numeriska beräkningar måste utföras. Sannolikhetsgränsanalys används för att göra aritmetiska och logiska beräkningar med p-rutor.
Ett exempel p-ruta visas i figuren till höger för ett osäkert tal x som består av en vänster (övre) gräns och en höger (nedre) gräns på sannolikhetsfördelningen för x . Gränserna är sammanfallande för värden på x under 0 och över 24. Gränserna kan ha nästan vilken form som helst, inklusive stegfunktioner, så länge de är monotont ökande och inte korsar varandra. En p-box används för att samtidigt uttrycka osäkerhet (epistemisk osäkerhet), som representeras av bredden mellan vänster och höger kant av p-rutan, och variabilitet (aleatorisk osäkerhet), som representeras av den övergripande lutningen av p -låda.
Tolkning
Det finns dubbla tolkningar av en p-box. Det kan förstås som gränser för den kumulativa sannolikheten associerad med vilket x -värde som helst. Till exempel, i p-rutan som visas till höger är sannolikheten att värdet blir 2,5 eller mindre mellan 4 % och 36 %. En p-box kan också förstås som gränser för x -värdet på vilken viss sannolikhetsnivå som helst. I exemplet är den 95:e percentilen säker på att vara mellan 9 och 16.
Om de vänstra och högra gränserna för en p-box säkerligen omsluter den okända fördelningen, sägs gränserna vara rigorösa eller absoluta. Gränserna kan också vara de snästa möjliga sådana gränserna för distributionsfunktionen givet tillgänglig information om den, i vilket fall gränserna därför sägs vara bäst möjliga . Det kan dock ofta vara så att inte varje fördelning som ligger inom dessa gränser är en möjlig fördelning för det osäkra antalet, även när gränserna är rigorösa och bäst möjliga.
Matematisk definition
P-rutor specificeras av vänster och höger gränser på fördelningsfunktionen ( eller, ekvivalent, överlevnadsfunktionen ) för en kvantitet och, valfritt, ytterligare information som begränsar kvantitetens medelvärde och varians till specificerade intervall, och specificerade begränsningar för dess fördelningsform ( familj, unimodalitet , symmetri, etc.). En p-box representerar en klass av sannolikhetsfördelningar som överensstämmer med dessa begränsningar.
En fördelningsfunktion på de reella talen , är en funktion för vilken D ( x ) ≤ D ( y ) när x < y , och gränsen för D vid +∞ är 1 och gränsen vid −∞ är 0. En p-box är en uppsättning fördelningsfunktioner F som uppfyller följande begränsningar, för specificerade fördelningsfunktioner F F , och specificerade gränser m 1 ≤ m 2 på fördelningens förväntade värde och specificerade gränser v 1 ≤ v 2 på fördelningens varians .
där integraler av formen är Riemann–Stieltjes-integraler .
Följaktligen är begränsningarna att fördelningsfunktionen F faller inom föreskrivna gränser, fördelningens medelvärde ligger i intervallet m , fördelningens varians är i intervallet v och fördelningen ligger inom någon tillåten klass av fördelningar F . Riemann–Stieltjes-integralerna är inte beroende av differentierbarheten hos F .
P-boxar tjänar samma roll för slumpvariabler som övre och nedre sannolikheter tjänar för händelser . I robust Bayes-analys är en p-box också känd som ett distributionsband. En p-box kan konstrueras som ett slutet område av en distribution under Kolmogorov , Lévy eller Wasserstein-metriken . En p-box är en grov men beräkningsmässigt bekväm typ av credal set . Medan en credal-uppsättning definieras enbart i termer av begränsningen F som en konvex uppsättning fördelningar (som automatiskt bestämmer F , F , m och v , men ofta är mycket svåra att beräkna med), har en p-box vanligtvis en löst begränsande specifikation av F , eller till och med ingen begränsning så att F = . Beräkningar med p-boxar är, till skillnad från credal sets, ofta ganska effektiva, och algoritmer för alla matematiska standardfunktioner är kända.
En p-box specificeras minimalt av dess vänstra och högra gränser, i vilket fall de andra restriktionerna förstås vara vakuum som Även när dessa underordnade begränsningar är tomma, kan det fortfarande finnas icke-triviala gränser för medelvärdet och variansen som kan härledas från vänster och höger kant av p-boxen.
Var p-boxar kommer ifrån
P-boxar kan uppstå från en mängd olika typer av ofullständig information om en kvantitet, och det finns flera sätt att få fram p-boxar från data och analytisk bedömning.
Fördelnings-p-boxar
När en sannolikhetsfördelning är känd för att ha en viss form (t.ex. normal, enhetlig, beta, Weibull, etc.) men dess parametrar bara kan specificeras oprecist som intervall, kallas resultatet en fördelningsp-box, eller ibland en parametrisk p-låda. En sådan p-box är vanligtvis lätt att få genom att omsluta extrema distributioner givet de möjliga parametrarna. Till exempel, om en kvantitet är känd för att vara normal med medelvärde någonstans i intervallet [7,8] och standardavvikelse inom intervallet [1,2], kan den vänstra och högra kanten av p-boxen hittas genom att omsluta fördelningsfunktioner av fyra sannolikhetsfördelningar, nämligen normal(7,1), normal(8,1), normal(7,2) och normal(8,2), där normal(μ,σ) representerar en normalfördelning med medelvärde μ och standardavvikelse σ. Alla sannolikhetsfördelningar som är normala och har medelvärden och standardavvikelser inom dessa respektive intervall kommer att ha fördelningsfunktioner som faller helt inom denna p-box. De vänstra och högra gränserna omsluter många icke-normala fördelningar, men dessa skulle uteslutas från p-rutan genom att specificera normalitet som fördelningsfamiljen.
Distributionsfria p-boxar
Även om parametrarna som medelvärde och varians för en fördelning är kända exakt, kan fördelningen inte specificeras exakt om distributionsfamiljen är okänd. I sådana situationer kan envelopper av alla distributioner som matchar givna moment konstrueras från ojämlikheter som de som beror på Markov , Chebyshev , Cantelli eller Rowe som omsluter alla distributionsfunktioner med specificerade parametrar. Dessa definierar distributionsfria p-boxar eftersom de inte gör något som helst antagande om familjen eller formen på den osäkra fördelningen. När kvalitativ information finns tillgänglig, som att fördelningen är unimodal , kan p-boxarna ofta dras åt rejält.
P-boxar från oprecisa mått
När alla medlemmar i en population kan mätas, eller när slumpmässiga urvalsdata är rikliga, använder analytiker ofta en empirisk fördelning för att sammanfatta värdena. När dessa data har en icke försumbar mätosäkerhet representerad av intervallområden kring varje provvärde, kan en empirisk fördelning generaliseras till en p-box. En sådan p-box kan specificeras genom att kumulera de nedre ändpunkterna för alla intervallmätningar till en kumulativ fördelning som bildar den vänstra kanten av p-boxen, och kumulera de övre ändpunkterna för att bilda den högra kanten. Ju bredare mätosäkerheten är, desto bredare blir p-boxen.
Intervallmätningar kan också användas för att generalisera fördelningsuppskattningar baserat på metoden för matchning av moment eller maximal sannolikhet , som gör formantaganden såsom normalitet eller lognormalitet, etc. Även om mätosäkerheten kan behandlas noggrant, kommer den resulterande distributions-p-boxen i allmänhet att inte vara rigorös när det är en provuppskattning baserad på endast ett delprov av de möjliga värdena. Men eftersom dessa beräkningar tar hänsyn till beroendet mellan fördelningens parametrar, kommer de ofta att ge snävare p-boxar än vad som kunde erhållas genom att behandla intervalluppskattningarna av parametrarna som orelaterade som görs för fördelningsp-boxar.
Förtroendeband
Det kan finnas osäkerhet om formen på en sannolikhetsfördelning eftersom urvalsstorleken på de empiriska data som kännetecknar den är liten. Flera metoder i traditionell statistik har föreslagits för att ta hänsyn till denna urvalsosäkerhet om fördelningsformen, inklusive Kolmogorov–Smirnov och liknande konfidensband , som är distributionsfria i den meningen att de inte gör några antaganden om formen på den underliggande fördelningen. Det finns relaterade konfidensbandsmetoder som gör antaganden om formen eller familjen av den underliggande distributionen, vilket ofta kan resultera i snävare konfidensband. Att konstruera konfidensband kräver att man väljer den sannolikhet som definierar konfidensnivån, som vanligtvis måste vara mindre än 100 % för att resultatet ska vara icke-vakuöst. Konfidensband på (1 − α) % konfidensnivå definieras så att (1 − α) % av tiden de är konstruerade, kommer de att helt omsluta fördelningen från vilken data togs slumpmässigt. Ett konfidensband för en distributionsfunktion används ibland som en p-ruta även om det representerar statistiska snarare än rigorösa eller säkra gränser. Denna användning förutsätter implicit att den sanna fördelningen, vad den än är, är inuti p-rutan.
En analog Bayesiansk struktur kallas en Bayesiansk p-box, som omsluter alla distributioner som har parametrar inom en delmängd av parameterutrymme som motsvarar någon specificerad sannolikhetsnivå från en Bayesiansk analys av data. Denna delmängd är den trovärdiga regionen för parametrarna som ges data, vilket skulle kunna definieras som den högsta bakre sannolikhetsdensitetsregionen, eller den lägsta bakre förlustregionen, eller på något annat lämpligt sätt. För att konstruera en Bayesiansk p-box måste man välja en tidigare distribution, förutom att specificera trovärdighetsnivån (analogt med en konfidensnivå).
C-boxar
C-boxar (eller konfidensstrukturer) är estimatorer av fasta, verkligt värderade kvantiteter som beror på slumpmässiga urvalsdata och kodar Neymans konfidensintervall på alla konfidensnivåer. De karaktäriserar den inferentiella osäkerheten om skattningen i form av en samling fokalintervall (eller uppsättningar), var och en med tillhörande konfidens (sannolikhet) massa. Denna samling kan avbildas som en p-box och kan projicera konfidenstolkningen genom sannolikhetsgränsanalys .
Till skillnad från traditionella konfidensintervall som vanligtvis inte kan spridas genom matematiska beräkningar, kan c-boxar användas i beräkningar på sätt som bevarar möjligheten att erhålla godtyckliga konfidensintervall för resultaten. Till exempel kan de användas för att beräkna sannolikhetsrutor för både förutsägelse- och toleransfördelningar.
C-boxar kan beräknas på en mängd olika sätt direkt från slumpmässiga urvalsdata. Det finns konfidensrutor för både parametriska problem där familjen av den underliggande fördelningen från vilken data genererades slumpmässigt är känd (inklusive normal, lognormal, exponentiell, Bernoulli, binomial, Poisson), och icke-parametriska problem där formen på den underliggande fördelningen är okänd. Konfidensrutor redogör för osäkerheten om en parameter som kommer från slutsatsen från observationer, inklusive effekten av liten urvalsstorlek, men också potentiellt effekterna av oprecisitet i data och demografisk osäkerhet som uppstår när man försöker karakterisera en kontinuerlig parameter från diskreta data observationer.
C-boxar är nära besläktade med flera andra koncept. De är jämförbara med bootstrap-distributioner och är oprecisa generaliseringar av traditionella konfidensfördelningar som Students t -distribution . Liksom det kodar c-boxar frekventistiska konfidensintervall för parametrar av intresse på varje konfidensnivå. De är analoga med Bayesianska posteriora distributioner genom att de karakteriserar den inferentiella osäkerheten om statistiska parametrar uppskattade från glesa eller oprecisa provdata, men de kan ha en rent frekventistisk tolkning som gör dem användbara inom teknik eftersom de erbjuder en garanti för statistisk prestanda genom upprepad användning . När det gäller Bernoulli- eller binomialhastighetsparametern är c-boxen matematiskt ekvivalent med Walleys oprecisa betamodell med parametern s =1, vilket är ett specialfall av den oprecisa Dirichlet-processen , en central idé i robust Bayes-analys .
Till skillnad från konfidensband som är konfidensgränser för en hel distributionsfunktion på någon speciell konfidensnivå, kodar c-boxar konfidensintervall om en fast kvantitet vid alla möjliga konfidensnivåer samtidigt.
Kuvert med möjliga distributioner
När det finns flera möjliga sannolikhetsfördelningar som kan beskriva en variabel, och en analytiker inte kan diskontera någon av dem baserat på tillgänglig information, kan en p-ruta konstrueras som enveloppen för de olika kumulativa fördelningarna. Det är också möjligt att redogöra för osäkerheten om vilken fördelning som är den korrekta med en känslighetsstudie, men sådana studier blir mer komplexa när antalet möjliga distributioner växer, och kombinatoriskt mer komplexa som antalet variabler som det kan finnas flera om. fördelningarna ökar. Ett omslutande tillvägagångssätt är mer konservativt när det gäller denna osäkerhet än olika alternativa tillvägagångssätt för att hantera osäkerheten som ger ett medelvärde av fördelningar i stokastiska blandningsmodeller eller Bayesianska modellmedelvärden. Den okända sanna fördelningen är sannolikt inom klassen av distributioner som omfattas av p-boxen. Om man däremot antar att den sanna fördelningen är en av fördelningarna som medelvärdesbildas, är medelfördelningen säkerligen olik den okända sanna fördelningen.
P-rutor från beräkningsresultat
P-boxar kan uppstå från beräkningar som involverar sannolikhetsfördelningar, eller involverar både en sannolikhetsfördelning och ett intervall, eller involverar andra p-boxar. Till exempel kommer summan av en storhet representerad av en sannolikhetsfördelning och en storhet representerad av ett intervall i allmänhet att karakteriseras av en p-ruta. Summan av två slumpvariabler som kännetecknas av välspecificerade sannolikhetsfördelningar är en annan exakt sannolikhetsfördelning, vanligtvis endast när kopulan ( beroendefunktionen ) mellan de två summorna är fullständigt specificerad. När deras beroende är okänt eller endast delvis specificerat, kommer summan att representeras mer lämpligt av en p-ruta eftersom olika beroenderelationer leder till många olika fördelningar för summan. Kolmogorov frågade ursprungligen vilka gränser som kunde sättas för fördelningen av en summa när inget är känt om beroendet mellan fördelningarna av tilläggen. Frågan besvarades först i början av 1980-talet. Sedan dess har formler och algoritmer för summor generaliserats och utvidgats till skillnader, produkter, kvoter och andra binära och unära funktioner under olika beroendeantaganden.
Dessa metoder, gemensamt kallade sannolikhetsgränsanalys , tillhandahåller algoritmer för att utvärdera matematiska uttryck när det finns osäkerhet om ingångsvärdena, deras beroenden eller till och med själva formen av matematiska uttryck. Beräkningarna ger resultat som garanterat omsluter alla möjliga fördelningar av utdatavariabeln om de ingående p-boxarna också var säkra på att omsluta sina respektive fördelningar. I vissa fall kommer en beräknad p-box också att vara bäst möjlig i den meningen att endast möjliga distributioner finns inom p-boxen, men detta är inte alltid garanterat. Till exempel är uppsättningen sannolikhetsfördelningar som kan bli resultatet av att addera slumpmässiga värden utan oberoendeantagandet från två (exakta) distributioner i allmänhet en riktig delmängd av alla fördelningar som tillåts av den beräknade p-boxen. Det vill säga att det finns distributioner inom utdata-p-boxen som inte skulle kunna uppstå under något beroende mellan de två ingångsfördelningarna. Utdata-p-boxen kommer dock alltid att innehålla alla distributioner som är möjliga, så länge som ingångs-p-boxarna var säker på att omsluta sina respektive underliggande distributioner. Denna egenskap räcker ofta för användning i riskanalys .
Speciella fall
Exakta sannolikhetsfördelningar och intervall är specialfall av p-boxar, liksom reella värden och heltal . Eftersom en sannolikhetsfördelning uttrycker variabilitet och saknar osäkerhet, är de vänstra och högra gränserna för dess p-box sammanfallande för alla x -värden vid värdet av den kumulativa fördelningsfunktionen (som är en icke-minskande funktion från noll till ett). Matematiskt är en sannolikhetsfördelning F den degenererade p-rutan { F , F , E( F ), V( F ), F }, där E och V betecknar förväntans- och variansoperatorerna. Ett intervall uttrycker endast osäkerhet. Dess p-box ser ut som en rektangulär ruta vars övre och nedre gränser hoppar från noll till ett vid intervallets slutpunkter. motsvarar ett intervall [ a , b ] den degenererade p-rutan {H( a ), H( b ), [ a , b ], [0, ( b – a ) 2 /4], }, där H betecknar Heaviside-stegfunktionen . Ett exakt skalärt tal c saknar båda typerna av osäkerhet. Dess p-box är bara en stegfunktion från 0 till 1 vid värdet c ; matematiskt är detta {H( c ), H( c ), c , 0, H( c )}.
Ansökningar
P-boxar och sannolikhetsgränsanalys har använts i många tillämpningar som spänner över många discipliner inom ingenjörs- och miljövetenskap, inklusive:
- Ingenjörsdesign
- Expert framkallande
- Analys av artkänslighetsfördelningar
- Känslighetsanalys inom flyg- och rymdteknik av bucklingsbelastningen på frontkjolen på Ariane 5- raketen
- ODE- modeller av kemisk reaktordynamik
- Farmakokinetisk variation hos inhalerade flyktiga organiska föreningar
- Grundvattenmodellering
- Begränsande felsannolikhet för seriesystem
- Tungmetallförorening i jord vid ett järnbruksbruntfält
- Osäkerhetsutbredning för salthaltsriskmodeller
- Säkerhetsbedömning av strömförsörjningssystemet
- Riskbedömning för förorenad mark
- Konstruerade system för behandling av dricksvatten
- Beräkna nivåer för markscreening
- Människors hälsa och ekologisk riskanalys av US EPA av PCB- kontamination på Housatonic River Superfund- platsen
- Miljöbedömning för webbplatsen Calcasieu Estuary Superfund
- Flygteknik för överljudsmunstyckeskraft _
- Verifiering och validering i vetenskaplig beräkning för tekniska problem
- Toxicitet för små däggdjur av miljöförorening med kvicksilver
- Modellering av restid för föroreningar i grundvatten
- Tillförlitlighetsanalys
- utrotningshotade arter för återinförande av Leadbeaters possum
- Exponering av insektsätande fåglar för ett jordbruksbekämpningsmedel
- Klimatförändringsprognoser _
- Väntetid i kösystem
- utrotningsrisk för fläckuggla på den olympiska halvön
- Biosäkerhet mot introduktion av invasiva arter eller jordbruksskadegörare
- Finita element strukturanalys
- Kostnadsberäkningar
- Certifiering av kärnkraftslager
- Fracking risker för vattenföroreningar
Kritik
Ingen intern struktur . Eftersom en p-box behåller lite information om någon intern struktur inom gränserna, klargör den inte vilka fördelningar inom p-boxen som är mest sannolika, inte heller om kanterna representerar mycket osannolika eller distinkt sannolika scenarier. Detta kan i vissa fall komplicera beslut om en kant på en p-box omsluter en beslutströskel.
Tappar information . För att uppnå beräkningseffektivitet förlorar p-boxar information jämfört med mer komplexa Dempster–Shafer-strukturer eller credal-uppsättningar . I synnerhet förlorar p-boxar information om läget (mest troligt värde) för en kvantitet. Denna information kan vara användbar att behålla, särskilt i situationer där kvantiteten är ett okänt men fast värde.
Traditionell sannolikhet tillräcklig . Vissa kritiker av p-boxar hävdar att exakt specificerade sannolikhetsfördelningar är tillräckliga för att karakterisera osäkerhet av alla slag. Till exempel Lindley hävdat: "Oavsett sätt att närma sig osäkerhet, är sannolikhet det enda sunda sättet att tänka på det." Dessa kritiker menar att det är meningslöst att tala om 'osäkerhet om sannolikhet' och att traditionell sannolikhet är en komplett teori som är tillräcklig för att karakterisera alla former av osäkerhet. Under denna kritik har användare av p-boxar helt enkelt inte gjort den ansträngning som krävs för att identifiera lämpliga exakt specificerade distributionsfunktioner.
Möjlighetsteori kan göra bättre . Vissa kritiker hävdar att det är vettigt i vissa fall att arbeta med en möjlighetsfördelning snarare än att arbeta separat med vänster och höger kant av p-boxar. De hävdar att uppsättningen av sannolikhetsfördelningar som induceras av en möjlighetsfördelning är en delmängd av de som omges av en analog p-boxs kanter. Andra gör ett motargument att man inte kan göra det bättre med en möjlighetsfördelning än med en p-box.
Se även
- osäkert antal
- intervall
- kumulativ sannolikhetsfördelning
- övre och nedre sannolikheter
- credal set
- riskanalys
- spridning av osäkerhet
- analys av sannolikhetsgränser
- Dempster–Shafer teori och avsnittet om Dempster–Shafer struktur
- oprecis sannolikhet
- samtidiga konfidensband för distribution och överlevnadsfunktioner med hjälp av sannolikhetskvoter
- punktvisa binomiala konfidensintervall för F ( X ) för ett givet X
- programvara för spridning av osäkerhet
Ytterligare referenser
- Baudrit, C. och D. Dubois (2006). Praktiska representationer av ofullständig probabilistisk kunskap . Computational Statistics & Data Analysis 51 : 86–108.
- Baudrit, C., D. Dubois, D. Guyonnet (2006). Gemensam spridning och utnyttjande av probabilistisk och possibilistisk information vid riskbedömning . IEEE Transactions on Fuzzy Systems 14 : 593–608.
- Bernardini, A. och F. Tonon (2009). Extrema sannolikhetsfördelningar av slumpmässiga/fuzzy uppsättningar och p-boxar . International Journal of Reliability and Safety 3 : 57–78. (alternativ länk)
- Destercke, S., D. Dubois och E. Chojnacki (2008). Förenande praktiska osäkerhetsrepresentationer – I: Generaliserade p-rutor . International Journal of Approximate Reasoning 49 : 649–663.
- Dubois, D. (2010). (Kommentar) Representations-, spridnings- och beslutsfrågor i riskanalys under ofullständig probabilistisk information. Riskanalys 30 : 361–368. doi : 10.1111/j.1539-6924.2010.01359.x .
- Dubois, D. och D. Guyonnet (2011). Riskinformerat beslutsfattande i närvaro av epistemisk osäkerhet. International Journal of General Systems 40 : 145–167.
- Guyonnet, D., F. Blanchard, C. Harpet, Y. Ménard, B. Côme och C. Baudrit (2005). Projet IREA—Traitement des incertitudes en évaluation des risks d'exposition . Rapport BRGM/RP-54099-FR, Bureau de Recherches Géologiques et Minières, Frankrike.