P–P tomt

Probability-Probability plot, quality characteristic data.png

I statistik är en P–P-plot ( sannolikhet–sannolikhetsplot eller procent–procentplot eller P-värdeplot ) en sannolikhetsplot för att bedöma hur nära två datamängder överensstämmer, eller för att bedöma hur nära en datauppsättning passar en viss modell. Det fungerar genom att plotta de två kumulativa fördelningsfunktionerna mot varandra; om de liknar varandra kommer uppgifterna att se ut att vara nästan en rak linje. Detta beteende liknar det för den mer allmänt använda Q–Q-plotten , som den ofta förväxlas med.

Definition

AP–P plottar två kumulativa fördelningsfunktioner (cdfs) mot varandra: givet två sannolikhetsfördelningar, med cdfs " F " och " G ", plottar den eftersom z sträcker sig från till Eftersom en cdf har intervall [0,1], är domänen för denna parametriska graf och intervallet är enhetskvadraten

Sålunda för ingång z är utmatningen det talpar som anger vilken procentandel av f och vilken procentandel av g som faller vid eller under z.

Jämförelselinjen är 45°-linjen från (0,0) till (1,1), och fördelningarna är lika om och endast om plotten faller på denna linje. Graden av avvikelse gör det enkelt att visuellt identifiera hur olika fördelningarna är, men på grund av provtagningsfel kommer inte ens stickprov från identiska fördelningar att se identiska ut.

Exempel

Som ett exempel, om de två fördelningarna inte överlappar varandra, säg att F är under G, kommer P–P-diagrammet att flyttas från vänster till höger längs botten av kvadraten – när z rör sig genom stödet för F, cdf för F går från 0 till 1, medan cdf för G stannar vid 0 - och sedan flyttas upp på höger sida av kvadraten - cdf för F är nu 1, eftersom alla punkter i F ligger under alla punkter i G, och nu cdf av G flyttas från 0 till 1 när z rör sig genom stödet för G. (behöver en graf för detta stycke)

Använda sig av

Som exemplet ovan illustrerar, om två fördelningar är separerade i rymden, kommer P–P-diagrammet att ge väldigt lite data – det är bara användbart för att jämföra sannolikhetsfördelningar som har närliggande eller lika läge. Noterbart kommer den att passera genom punkten (1/2, 1/2) om och bara om de två distributionerna har samma median .

P–P-plots är ibland begränsade till jämförelser mellan två prov, snarare än jämförelse av ett urval till en teoretisk modellfördelning. De är dock av allmän användning, särskilt där observationer inte alla modelleras med samma fördelning.

Det har dock funnit någon användning för att jämföra en sampelfördelning från en känd teoretisk fördelning: givet n sampel skulle plottning av den kontinuerliga teoretiska cdf:en mot den empiriska cdf:en ge ett trappsteg (ett steg när z träffar ett urval) och skulle träffa toppen av kvadraten när den senaste datapunkten träffades. Istället plottar man bara punkter och plottar de observerade k: te observerade punkterna (i ordning: formellt den observerade k: te ordningens statistik) mot k /( n + 1) kvantilen för den teoretiska fördelningen. Detta val av "plottingposition" (val av kvantil för den teoretiska fördelningen) har orsakat mindre kontroverser än valet för Q–Q-plots. Den resulterande goda passformen för 45°-linjen ger ett mått på skillnaden mellan en provuppsättning och den teoretiska fördelningen.

AP–P-plot kan användas som ett grafiskt komplement till ett test av anpassningen av sannolikhetsfördelningar, med ytterligare linjer inkluderade på plotten för att indikera antingen specifika acceptansregioner eller intervallet för förväntad avvikelse från 1:1-linjen. En förbättrad version av P–P-plotten, kallad SP eller S–P-plotten, finns tillgänglig, som använder sig av en variansstabiliserande transformation för att skapa en plot där variationerna kring 1:1-linjen ska vara desamma vid alla platser.

Se även

Citat

Källor