Variansfunktion

I statistik är variansfunktionen en jämn funktion som visar variansen av en slumpmässig storhet som en funktion av dess medelvärde . Variansfunktionen är ett mått på heteroskedasticitet och spelar en stor roll i många sammanhang av statistisk modellering. Det är en huvudingrediens i den generaliserade linjära modellramen och ett verktyg som används i icke-parametrisk regression, semiparametrisk regression och funktionell dataanalys . I parametrisk modellering tar variansfunktioner en parametrisk form och beskriver explicit förhållandet mellan variansen och medelvärdet av en slumpmässig storhet. I en icke-parametrisk inställning antas variansfunktionen vara en jämn funktion .

Intuition

I en regressionsmodellinställning är målet att fastställa om det finns ett samband mellan en svarsvariabel och en uppsättning prediktorvariabler eller inte. Vidare, om ett förhållande existerar, är målet att kunna beskriva detta förhållande så bra som möjligt. Ett huvudantagande i linjär regression är konstant varians eller (homoskedasticitet), vilket betyder att olika svarsvariabler har samma varians i sina fel, på varje prediktornivå. Detta antagande fungerar bra när svarsvariabeln och prediktorvariabeln är gemensamt Normala, se Normalfördelning . Som vi kommer att se senare är variansfunktionen i normalinställningen konstant, men vi måste hitta ett sätt att kvantifiera heteroskedasticitet (icke-konstant varians) i frånvaro av gemensam normalitet.

När det är troligt att svaret följer en fördelning som är en medlem av den exponentiella familjen, kan en generaliserad linjär modell vara mer lämplig att använda, och dessutom, när vi inte vill tvinga en parametrisk modell på våra data, en icke-parametrisk modell . regressionsmetod kan vara användbart. Vikten av att kunna modellera variansen som en funktion av medelvärdet ligger i förbättrad inferens (i en parametrisk miljö), och uppskattning av regressionsfunktionen i allmänhet, för vilken miljö som helst.

Variansfunktioner spelar en mycket viktig roll vid parameteruppskattning och inferens. I allmänhet kräver maximal sannolikhetsuppskattning att en sannolikhetsfunktion definieras. Detta krav innebär då att man först måste specificera fördelningen av de observerade svarsvariablerna. Men för att definiera en kvasi-sannolikhet behöver man bara specificera ett samband mellan medelvärdet och variansen av observationerna för att sedan kunna använda kvasi-sannolikhetsfunktionen för uppskattning. Kvasi-sannolikhetsuppskattning är särskilt användbar när det finns överdispersion . Överspridning uppstår när det finns mer variation i uppgifterna än vad man annars borde förvänta sig enligt den antagna fördelningen av uppgifterna.

Sammanfattningsvis, för att säkerställa effektiv slutledning av regressionsparametrarna och regressionsfunktionen måste heteroskedasticiteten beaktas. Variansfunktioner kvantifierar förhållandet mellan variansen och medelvärdet av de observerade data och spelar därför en betydande roll vid regressionsuppskattning och slutledning.

Typer

Variansfunktionen och dess tillämpningar kommer upp inom många områden av statistisk analys. En mycket viktig användning av denna funktion är inom ramen för generaliserade linjära modeller och icke-parametrisk regression .

Generaliserad linjär modell

När en medlem av den exponentiella familjen har specificerats kan variansfunktionen lätt härledas. Den allmänna formen av variansfunktionen presenteras under den exponentiella familjekontexten, såväl som specifika former för Normal, Bernoulli, Poisson och Gamma. Dessutom beskriver vi applikationerna och användningen av variansfunktioner i maximal sannolikhetsuppskattning och kvasi-sannolikhetsuppskattning.

Härledning

Den generaliserade linjära modellen (GLM) , är en generalisering av vanlig regressionsanalys som sträcker sig till alla medlemmar av den exponentiella familjen . Det är särskilt användbart när svarsvariabeln är kategorisk, binär eller föremål för en begränsning (t.ex. bara positiva svar är meningsfulla). En snabb sammanfattning av komponenterna i en GLM sammanfattas på denna sida, men för mer detaljer och information se sidan om generaliserade linjära modeller .

En GLM består av tre huvudingredienser:

1. Slumpkomponent: en fördelning av y från exponentialfamiljen,
2. Linjär prediktor:
:

Först är det viktigt att härleda ett par nyckelegenskaper hos den exponentiella familjen.

Varje slumpvariabel i exponentialfamiljen har en sannolikhetstäthetsfunktion av formen,

med logsannolikhet,

Här är den kanoniska parametern och parametern av intresse, och är en störningsparameter som spelar en roll i variansen. Vi använder Bartletts identiteter för att härleda ett allmänt uttryck för variansfunktionen . De första och andra Bartlett-resultaten säkerställer att under lämpliga förhållanden (se Leibniz integralregel ), för en densitetsfunktion beroende på ,

Dessa identiteter leder till enkla beräkningar av förväntat värde och varians för varje slumpvariabel i exponentialfamiljen .

Förväntat värde på Y : Om vi ​​tar förstaderivatan med avseende på av loggen för tätheten i den exponentiella familjeformen som beskrivs ovan, har vi

Att sedan ta det förväntade värdet och sätta det lika med noll leder till,

Varians av Y: För att beräkna variansen använder vi den andra Bartlett-identiteten,

Vi har nu ett samband mellan och , nämligen

och som tillåter ett samband mellan och variansen,

Observera att eftersom , då är inverterbar. Vi härleder variansfunktionen för några vanliga fördelningar.

Exempel – normal

Normalfördelningen är ett specialfall där variansfunktionen är en konstant . Låt sedan sätter vi täthetsfunktionen för y i form av exponentialfamiljen som beskrivs ovan:

var

För att beräkna variansfunktionen uttrycker vi först som en funktion av . Sedan transformerar vi till en funktion av

Därför är variansfunktionen konstant.

Exempel – Bernoulli

Låt , då uttrycker vi tätheten av Bernoulli-fördelningen i exponentiell familjeform,

logit (p), vilket ger oss exit
och
p

Detta ger oss

Exempel – Poisson

Låt då uttrycker vi tätheten av Poissonfördelningen i exponentiell familjeform,

vilket ger oss
och

Detta ger oss

Här ser vi den centrala egenskapen hos Poisson-data, att variansen är lika med medelvärdet.

Exempel – Gamma

Gammafördelningen och densitetsfunktionen kan uttryckas under olika parametriseringar . Vi kommer att använda formen av gamma med parametrar

Sedan i exponentiell familjeform har vi

Och vi har

Användning – viktade minsta kvadrater

En mycket viktig tillämpning av variansfunktionen är dess användning i parameteruppskattning och inferens när svarsvariabeln är av den erforderliga exponentiella familjeformen såväl som i vissa fall när den inte är det (vilket vi kommer att diskutera i quasi-likelihood ) . Weighted least squares (WLS) är ett specialfall av generaliserade minsta kvadrater. Varje term i WLS-kriteriet inkluderar en vikt som bestämmer vilken påverkan varje observation har på de slutliga parameteruppskattningarna. Liksom i vanliga minsta kvadrater är målet att uppskatta de okända parametrarna i regressionsfunktionen genom att hitta värden för parameteruppskattningar som minimerar summan av kvadratavvikelserna mellan de observerade svaren och den funktionella delen av modellen.

Medan WLS förutsätter oberoende av observationer, antar det inte lika varians och är därför en lösning för parameteruppskattning i närvaro av heteroskedasticitet. Gauss -Markov-satsen och Aitken visar att den bästa linjära opartiska skattaren (BLÅ), den opartiska skattaren med minsta varians, har varje vikt lika med den reciproka av variansen för mätningen.

I GLM-ramverket är vårt mål att uppskatta parametrarna , där . Därför skulle vi vilja minimera och om vi definierar viktmatrisen W som

där är definierade i föregående avsnitt, tillåter det iterativt omvägda minsta kvadraters (IRLS) uppskattning av parametrar. Se avsnittet om iterativt omvägda minsta kvadrater för mer härledning och information.

Viktigt att notera är också att när viktmatrisen har den form som beskrivs här, minimerar uttrycket minimerar också Pearson-avståndet. Se Avståndskorrelation för mer.

Matrisen W faller direkt ur skattningsekvationerna för uppskattning av . Maximal sannolikhetsuppskattning för varje parameter kräver

, där är log-sannolikheten.

Ser vi på en enda observation vi har,

Detta ger oss

η
vi har att

Den hessiska matrisen bestäms på liknande sätt och kan visas vara,

Lägg märke till att Fisher Information (FI),

tillåter asymptotisk approximation av
, och följaktligen kan slutledning utföras.

Tillämpning – kvasi-sannolikhet

Eftersom de flesta funktioner i GLM bara beror på de två första momenten av distributionen, snarare än hela distributionen, kan kvasi-sannolikheten utvecklas genom att bara specificera en länkfunktion och en variansfunktion. Det vill säga vi måste specificera

  • länkfunktionen,
  • variansfunktionen, , där

Med en specificerad variansfunktion och länkfunktion kan vi som alternativ till log- likelihood -funktionen , poängfunktionen och Fisher-informationen utveckla en quasi-likelihood , en quasi-score och quasi-informationen . Detta möjliggör fullständig slutledning av .

Quasi-sannolikhet (QL)

Även om det kallas en kvasi-sannolikhet , är detta i själva verket en kvasilog- sannolikhet . QL för en observation är

Och därför är QL för alla n observationer

Från QL har vi kvasi-poängen

Kvasipoäng (QS)

Återkalla poängfunktionen , U , för data med log-sannolikhet är

Vi får kvasi-poängen på ett identiskt sätt,

Notera det, för en observation är poängen

De två första Bartlett-ekvationerna är uppfyllda för kvasi-poängen, nämligen

och

Dessutom är kvasi-poängen linjär i y .

I slutändan är målet att hitta information om parametrarna av intresse . Både QS och QL är faktiskt funktioner för . Kom ihåg att och , därför,

Kvasiinformation (QI)

Kvasiinformationen liknar Fisher - informationen ,

QL, QS, QI som funktioner av

QL, QS och QI tillhandahåller alla byggstenar för slutledning om parametrarna av intresse och därför är det viktigt att uttrycka QL, QS och QI alla som funktioner av .

När vi återigen erinrar om att härleder vi uttrycken för QL, QS och QI parametriserade under .

Kvasi-sannolikhet i ,

QS som funktion av är därför

Var,

Kvasiinformationsmatrisen i är,

Att erhålla poängfunktionen och informationen om möjliggör parameteruppskattning och slutledning på ett liknande sätt som beskrivs i Tillämpning – viktade minsta kvadrater .

Icke-parametrisk regressionsanalys

En scattor plot av år i major league mot lön (x$1000). Linjen är trenden i medelvärdet. Handlingen visar att variansen inte är konstant.
Den utjämnade villkorliga variansen mot det utjämnade villkorliga medelvärdet. Den kvadratiska formen indikerar gammafördelningen. Variansfunktionen för ett gamma är V( ) =

Icke-parametrisk uppskattning av variansfunktionen och dess betydelse har diskuterats flitigt i litteraturen I icke-parametrisk regressionsanalys är målet att uttrycka det förväntade värdet av din svarsvariabel( y ) som en funktion av dina prediktorer ( X ) . Det vill säga vi vill uppskatta en medelfunktion , utan att anta en parametrisk form. Det finns många former av icke-parametriska utjämningsmetoder som hjälper till att uppskatta funktionen . Ett intressant tillvägagångssätt är att även titta på en icke-parametrisk variansfunktion , . En icke-parametrisk variansfunktion gör att man kan titta på medelfunktionen när den relaterar till variansfunktionen och lägga märke till mönster i data.

Ett exempel är detaljerat i bilderna till höger. Målet med projektet var att avgöra (bland annat) om prediktorn, antal år i de stora ligorna (baseboll,) hade en effekt på responsen, lönen , en spelare gjorde. Ett initialt spridningsdiagram av data indikerar att det finns heteroskedasticitet i data eftersom variansen inte är konstant på varje nivå av prediktorn. Eftersom vi visuellt kan detektera den icke-konstanta variansen är det användbart nu att plotta och se om formen indikerar någon känd fördelning. Man kan uppskatta och med en allmän utjämningsmetod . Plottet för den icke-parametriska utjämnade variansfunktionen kan ge forskaren en uppfattning om sambandet mellan variansen och medelvärdet. Bilden till höger indikerar ett kvadratiskt samband mellan medelvärdet och variansen. Som vi såg ovan är Gamma-variansfunktionen kvadratisk i medelvärdet.

Anteckningar

externa länkar