U-statistik

I statistisk teori är en U-statistik en klass av statistik som är särskilt viktig i skattningsteori ; bokstaven "U" står för opartisk. I elementär statistik uppstår U-statistik naturligt för att producera opartiska skattare med minimal varians .

Teorin för U-statistik tillåter att en opartisk skattare med minimal varians kan härledas från varje opartisk skattare av en skattbar parameter (alternativt statistisk funktionell ) för stora klasser av sannolikhetsfördelningar . En skattbar parameter är en mätbar funktion av populationens kumulativa sannolikhetsfördelning : Till exempel, för varje sannolikhetsfördelning är populationsmedianen en skattbar parameter. Teorin för U-statistik gäller allmänna klasser av sannolikhetsfördelningar.

Historia

Många statistik som ursprungligen härleddes för särskilda parametriska familjer har erkänts som U-statistik för allmänna fördelningar. I icke-parametrisk statistik används teorin för U-statistik för att fastställa för statistiska procedurer (som estimatorer och tester) och estimatorer som hänför sig till den asymptotiska normaliteten och till variansen (i finita urval) av sådana kvantiteter. Teorin har använts för att studera mer generell statistik såväl som stokastiska processer , såsom slumpmässiga grafer .

Antag att ett problem involverar oberoende och identiskt fördelade slumpvariabler och att uppskattning av en viss parameter krävs. Antag att en enkel opartisk uppskattning kan konstrueras baserat på endast ett fåtal observationer: detta definierar den grundläggande skattaren baserat på ett givet antal observationer. Till exempel är en enskild observation i sig själv en opartisk uppskattning av medelvärdet och ett par observationer kan användas för att härleda en opartisk uppskattning av variansen. U-statistiken baserad på denna estimator definieras som medelvärdet (över alla kombinatoriska urval av den givna storleken från hela uppsättningen av observationer) av den grundläggande estimatorn som tillämpas på delproven.

Sen (1992) ger en genomgång av artikeln av Wassily Hoeffding (1948), som introducerade U-statistik och redogjorde för teorin som hänför sig till dem, och Sen skisserar därvid betydelsen av U-statistik i statistisk teori. Sen säger, "Inverkan av Hoeffding (1948) är överväldigande för närvarande och kommer mycket troligt att fortsätta under de kommande åren." Observera att teorin för U-statistik inte är begränsad till fallet med oberoende och identiskt fördelade slumpvariabler eller till skalära slumpvariabler.

Definition

Termen U-statistik, på grund av Hoeffding (1948), definieras enligt följande.

Låt vara antingen de reella eller komplexa talen, och låt vara ett -värderad funktion av -dimensionella variabler. För varje tillhörande U-statistik definieras som medelvärdet av värdena över set av -tupler av index från med distinkta poster. Formellt,

.

I synnerhet om är symmetrisk förenklas ovanstående till

,

där nu betecknar delmängden av av ökande tupler.

Varje U-statistik är nödvändigtvis en symmetrisk funktion .

U-statistik är mycket naturligt i statistiskt arbete, särskilt i Hoeffdings sammanhang med oberoende och identiskt fördelade slumpvariabler , eller mer allmänt för utbytbara sekvenser, såsom i enkla slumpmässiga urval från en ändlig population, där den definierande egenskapen kallas 'arv på genomsnitt'.

Fishers k -statistik och Tukeys polykays är exempel på homogen polynom U-statistik (Fisher, 1929; Tukey, 1950).

För ett enkelt slumpmässigt urval φ av storlek n taget från en population av storlek N , har U-statistiken egenskapen att medelvärdet över urvalsvärdena ƒ n ( ) är exakt lika med populationsvärdet ƒ N ( x ). [ förtydligande behövs ]

Exempel

Några exempel: Om är U-statistiken är exempelmedelvärdet.

Om U-statistiken är den genomsnittliga parvisa avvikelsen , definierad för .

Om , U-statistiken är urvalsvariansen f med divisor , definierad för .

Den tredje -statistik provskevheten definierad för , är en U-statistik.

Följande fall belyser en viktig punkt. Om är medianen för tre värden, är inte medianen för -värden. Det är dock en opartisk minimivarians uppskattning av det förväntade värdet av medianen av tre värden, inte medianen för populationen. Liknande uppskattningar spelar en central roll där parametrarna för en familj av sannolikhetsfördelningar uppskattas av sannolikhetsvägda moment eller L-moment .

Se även

Anteckningar