Chauvenets kriterium
I statistisk teori är Chauvenets kriterium (uppkallat efter William Chauvenet ) ett sätt att bedöma om en del av experimentella data - en extremvärde - från en uppsättning observationer sannolikt är falsk.
Härledning
Tanken bakom Chauvenets kriterium är att hitta ett sannolikhetsband, centrerat på medelvärdet av en normalfördelning , som rimligen borde innehålla alla n sampel av en datamängd. Genom att göra detta kan alla datapunkter från de n stickproven som ligger utanför detta sannolikhetsband betraktas som extremvärden, tas bort från datamängden och ett nytt medelvärde och standardavvikelse baserat på de återstående värdena och ny urvalsstorlek kan beräknas. Denna identifiering av extremvärdena kommer att uppnås genom att hitta antalet standardavvikelser som motsvarar gränserna för sannolikhetsbandet runt medelvärdet ( och jämföra det värdet med det absoluta värdet av skillnaden mellan de misstänkta extremvärdena och medelvärdet dividerat med provets standardavvikelse (Ekv.1).
-
()
var
- är den maximala tillåtna avvikelsen,
- är det absoluta värdet,
- är värdet på misstänkt extremvärde,
- är exempelmedelvärde och
- är exempel på standardavvikelse.
För att anses inkludera alla observationer i urvalet, måste sannolikhetsbandet (centrerat på medelvärdet) endast stå för sampel (om måste endast 2,5 av stickproven tas med i sannolikhetsbandet). I verkligheten kan vi inte ha partiella sampel så (2.5 för ) är ungefär . Allt mindre än är ungefär (2 om ) och är inte giltigt eftersom vi vill hitta sannolikhetsbandet som innehåller observationer, inte sampel. Kort sagt, vi letar efter sannolikheten, , som är lika med av sampel (Ekv. 2).
-
()
var
- är sannolikhetsbandet centrerat på urvalsmedelvärdet och
- är provstorleken.
Kvantiteten motsvarar den kombinerade sannolikheten representerad av de två svansarna av normalfördelningen som faller utanför sannolikhetsbandet . För att hitta standardavvikelsenivån associerad med behöver endast sannolikheten för en av normalfördelningens svansar analyseras på grund av dess symmetri (Eq.3).
-
()
var
- är sannolikhet representerad av en svans av normalfördelningen och
- = provstorlek.
Ekv.1 är analog med -poängekvationen (Ekv.4).
-
()
var
- är -poängen,
- är exempelvärdet,
- är medelvärdet av standardnormalfördelning, och
- är standardavvikelsen för standardnormalfördelningen.
Baserat på ekv.4, för att hitta (Ekv.1) hitta z-poängen som motsvarar i ett -poängtabell. är lika med poängen för . Med den här metoden bestämmas för vilken provstorlek som helst. I Excel hittas med följande formel: =ABS(NORM.S.INV(1/(4 n ))).
Beräkning
För att tillämpa Chauvenets kriterium, beräkna först medelvärdet och standardavvikelsen för de observerade data. Baserat på hur mycket det misstänkta datumet skiljer sig från medelvärdet, använd normalfördelningsfunktionen (eller en tabell därav) för att bestämma sannolikheten för att en given datapunkt kommer att vara vid värdet av den misstänkta datapunkten. Multiplicera denna sannolikhet med antalet tagna datapunkter. Om resultatet är mindre än 0,5 kan den misstänkta datapunkten kasseras, dvs en avläsning kan avvisas om sannolikheten för att erhålla den specifika avvikelsen från medelvärdet är mindre än 1 2 n {\displaystyle { . [ citat behövs ]
Exempel
Anta till exempel att ett värde mäts experimentellt i flera försök som 9, 10, 10, 10, 11 och 50, och vi vill ta reda på om 50 är en extremvärde.
Först hittar vi .
Sedan hittar vi genom att koppla in i Quantile Function .
Sedan hittar vi z-poängen 50.
Därifrån ser vi att och kan dra slutsatsen att 50 är en outlier enligt Chauvenets kriterium.
Peirces kriterium
En annan metod för att eliminera falska data kallas Peirces kriterium . Det utvecklades några år innan Chauvenets kriterium publicerades, och det är ett mer rigoröst tillvägagångssätt för rationell radering av extremdata. Andra metoder som Grubbs test för extremvärden nämns under listningen för extremvärde . [ citat behövs ]
Kritik
Radering av extremdata är en kontroversiell praxis som många forskare och vetenskapsinstruktörer ogillar; medan Chauvenets kriterium tillhandahåller en objektiv och kvantitativ metod för dataavvisning, gör det inte praktiken mer vetenskapligt eller metodologiskt sund, särskilt i små uppsättningar eller där en normalfördelning inte kan antas. Avvisande av extremvärden är mer acceptabelt inom områden där den underliggande modellen för processen som mäts och den vanliga fördelningen av mätfel är säkert kända.
Bibliografi
- Taylor, John R. En introduktion till felanalys . 2:a upplagan. Sausalito, Kalifornien: University Science Books, 1997. s 166–8.
- Barnett, Vic och Lewis, Toby. "Outliers i statistiska data". 3:e upplagan. Chichester: J.Wiley and Sons, 1994. ISBN 0-471-93094-6 .
- Aicha Zerbet, Mikhail Nikulin. En ny statistik för att upptäcka extremvärden i exponentiellt fall, Communications in Statistics: Theory and Methods, 2003, v.32, s. 573–584.