Kuipers test

Kuipers test används i statistik för att testa huruvida en given distribution , eller familj av distributioner, motsägs av bevis från ett urval av data. Den är uppkallad efter den holländska matematikern Nicolaas Kuiper .

Kuipers test är nära besläktat med det mer kända Kolmogorov–Smirnov-testet (eller KS-testet som det ofta kallas). Liksom med KS-testet representerar diskrepansstatistiken D + och D − den absoluta storleken på de mest positiva och mest negativa skillnaderna mellan de två kumulativa fördelningsfunktionerna som jämförs. Tricket med Kuipers test är att använda kvantiteten D + + D som teststatistik. Denna lilla förändring gör Kuipers test lika känsligt i svansarna som vid medianen och gör det också invariant under cykliska transformationer av den oberoende variabeln. Anderson –Darling-testet är ett annat test som ger samma känslighet vid svansarna som medianen, men det ger inte den cykliska invariansen.

Denna invarians under cykliska transformationer gör Kuipers test ovärderligt när man testar för cykliska variationer efter tid på året eller veckodag eller tid på dagen, och mer allmänt för att testa passformen och skillnaderna mellan cirkulära sannolikhetsfördelningar .

Definition

Illustration av Kuiper-teststatistiken med två urval. Röda och blå linjer motsvarar vardera en empirisk fördelningsfunktion, och de svarta pilarna visar punktavstånden som summerar till Kuiperstatistiken.

Teststatistiken, V , för Kuipers test definieras enligt följande. Låt F vara den kontinuerliga kumulativa fördelningsfunktionen som ska vara nollhypotesen . Beteckna urvalet av data som är oberoende realisationer av slumpvariabler , med F som sin fördelningsfunktion, med x i ( i =1,..., n ). Definiera sedan

och slutligen,

Tabeller för de kritiska punkterna i teststatistiken finns tillgängliga, och dessa inkluderar vissa fall där fördelningen som testas inte är helt känd, så att parametrar för familjen av distributioner uppskattas .

Exempel

Vi skulle kunna testa hypotesen att datorer misslyckas mer under vissa tider på året än andra. För att testa detta skulle vi samla in datumen då testuppsättningen av datorer hade misslyckats och bygga en empirisk distributionsfunktion . Nollhypotesen är att misslyckandena är jämnt fördelade . Kuipers statistik förändras inte om vi ändrar början av året och kräver inte att vi slänger in misslyckanden i månader eller liknande. En annan teststatistik som har denna egenskap är Watson-statistiken, som är relaterad till Cramér–von Mises-testet .

Men om misslyckanden sker mestadels på helger skulle många likfördelningstester som KS och Kuiper missa detta, eftersom helgerna är spridda över året. Denna oförmåga att särskilja fördelningar med en kamliknande form från kontinuerliga enhetliga fördelningar är ett nyckelproblem med all statistik baserad på en variant av KS-testet. Kuipers test, applicerat på händelsen gånger modulo en vecka, kan upptäcka ett sådant mönster. Att använda händelsetider som har modulerats med KS-testet kan resultera i olika resultat beroende på hur data fasas. I det här exemplet kan KS-testet upptäcka olikformigheten om data är inställd på att börja veckan på lördag, men misslyckas med att upptäcka olikformigheten om veckan börjar på onsdag.

Se även