Theil–Sen estimator

Theil–Sen-estimatorn för en uppsättning provpunkter med extremvärden (svart linje) jämfört med den icke-robusta vanliga minsta kvadratlinjen för samma uppsättning (blå). Den streckade gröna linjen representerar marksanningen från vilken proverna genererades.

I icke-parametrisk statistik är Theil -Sen-estimatorn en metod för att robust anpassa en linje till provpunkter i planet ( enkel linjär regression ) genom att välja medianen för lutningarna för alla linjer genom par av punkter. Den har också kallats Sens lutningsuppskattare , lutningsval , enkelmedianmetoden , Kendalls robusta linjeanpassningsmetod och Kendall–Theil robusta linje . Den är uppkallad efter Henri Theil och Pranab K. Sen , som publicerade artiklar om denna metod 1950 respektive 1968, och efter Maurice Kendall på grund av dess förhållande till Kendall tau rank korrelationskoefficienten .

Denna estimator kan beräknas effektivt och är okänslig för extremvärden . Det kan vara betydligt mer exakt än icke-robust enkel linjär regression (minsta kvadrater) för skeva och heteroskedastiska data, och konkurrerar bra mot minsta kvadrater även för normalfördelade data när det gäller statistisk styrka . Det har kallats "den mest populära icke-parametriska tekniken för att uppskatta en linjär trend".

Definition

Enligt definitionen av Theil (1950) är Theil–Sen-uppskattaren för en uppsättning tvådimensionella punkter ( x i , y i ) medianen m för sluttningarna ( y j y i )/( x j x i ) bestäms av alla par av provpunkter. Sen (1968) utökade denna definition för att hantera fallet där två datapunkter har samma x -koordinat. I Sens definition tar man medianen för sluttningarna definierade endast från par av punkter som har distinkta x -koordinater.

När väl lutningen m har bestämts kan man bestämma en linje från provpunkterna genom att sätta y - avsnittet b till medianen för värdena y i mx i . Anpassningslinjen är då linjen y = mx + b med koefficienterna m och b i lutning–skärningsform . Som Sen observerade gör detta val av lutning att Kendall tau-rankkorrelationskoefficienten blir ungefär noll, när den används för att jämföra värdena x i med deras tillhörande residualer y i mx i b . Intuitivt antyder detta att hur långt passningslinjen passerar över eller under en datapunkt inte är korrelerad med om den punkten är på vänster eller höger sida av datamängden. Valet av b påverkar inte Kendall-koefficienten, men gör att medianresten blir ungefär noll; det vill säga passningslinjen passerar över och under lika många punkter.

Ett konfidensintervall för lutningsuppskattningen kan bestämmas som intervallet som innehåller de mellersta 95 % av lutningarna av linjer som bestäms av punkterpar och kan uppskattas snabbt genom att sampla punkter av punkter och bestämma 95 %-intervallet för de samplade lutningarna. Enligt simuleringar räcker cirka 600 sampelpar för att fastställa ett korrekt konfidensintervall.

Variationer

En variant av Theil–Sen-estimatorn, den upprepade medianregressionen av Siegel (1982), bestämmer för varje provpunkt ( x i , y i ) medianen mi för sluttningarna ( y j y i )/( x j x i ) av linjer genom den punkten och bestämmer sedan den övergripande estimatorn som medianen för dessa medianer. Den kan tolerera ett större antal extremvärden än Theil–Sen-skattaren, men kända algoritmer för att beräkna det effektivt är mer komplicerade och mindre praktiska.

En annan variant parar ihop provpunkter efter rangordningen av deras x -koordinater: punkten med den minsta koordinaten paras ihop med den första punkten ovanför mediankoordinaten, den näst minsta punkten paras med nästa punkt ovanför medianen, och så på. Den beräknar sedan medianen för lutningarna på linjerna som bestäms av dessa punktpar, och ökar hastigheten genom att undersöka betydligt färre par än Theil–Sen-uppskattaren.

Variationer av Theil–Sen-estimatorn baserade på viktade medianer har också studerats, baserat på principen att par av prover vars x -koordinater skiljer sig mer mycket är mer benägna att ha en exakt lutning och därför bör få en högre vikt.

För säsongsdata kan det vara lämpligt att jämna ut säsongsvariationer i data genom att endast ta hänsyn till par av provpunkter som båda tillhör samma månad eller samma årstid, och hitta medianen för linjernas lutning bestämt av denna mer restriktiva uppsättning par.

Statistiska egenskaper

Theil–Sen-estimatorn är en opartisk skattare av den sanna lutningen i enkel linjär regression . För många distributioner av svarsfelet har denna estimator hög asymptotisk effektivitet i förhållande till minsta kvadraters estimering. Estimatorer med låg effektivitet kräver mer oberoende observationer för att uppnå samma urvalsvarians av effektiva opartiska skattare.

Theil–Sen-uppskattaren är mer robust än skattaren med minsta kvadrater eftersom den är mycket mindre känslig för extremvärden . Den har en nedbrytningspunkt av

vilket innebär att den kan tolerera godtycklig korruption av upp till 29,3 % av indatapunkterna utan försämring av dess noggrannhet. Emellertid minskar nedbrytningspunkten för högredimensionella generaliseringar av metoden. En högre nedbrytningspunkt, 50 %, gäller för en annan robust linjeanpassningsalgoritm, Siegels upprepade medianuppskattning .

Theil–Sen-estimatorn är ekvivariant under varje linjär transformation av dess svarsvariabel, vilket betyder att omvandling av data först och sedan anpassa en linje, eller att först anpassa en linje och sedan transformera den på samma sätt, båda ger samma resultat. Det är dock inte ekvivariant under affina transformationer av både prediktorn och svarsvariablerna.

Algoritmer och implementering

Medianlutningen för en uppsättning av n sampelpunkter kan beräknas exakt genom att beräkna alla O ( n 2 ) linjer genom par av punkter, och sedan tillämpa en linjär tidsmedianfyndalgoritm . Alternativt kan det uppskattas genom sampling av poängpar. Detta problem är likvärdigt, under projektiv dualitet , med problemet att hitta korsningspunkten i ett arrangemang av linjer som har median x -koordinaten bland alla sådana korsningspunkter.

Problemet med att utföra lutningsval exakt men mer effektivt än den brute force kvadratiska tidsalgoritmen har studerats omfattande i beräkningsgeometri . Flera olika metoder är kända för att beräkna Theil–Sen-estimatorn exakt i O ( n log n ) tid, antingen deterministiskt eller med hjälp av randomiserade algoritmer . Siegels upprepade median estimator kan också konstrueras i samma tidsgräns. I beräkningsmodeller där indatakoordinaterna är heltal och där bitvisa operationer på heltal tar konstant tid, kan Theil–Sen-estimatorn konstrueras ännu snabbare, i randomiserad förväntad tid .

En estimator för lutningen med ungefär medianrankning, med samma nedbrytningspunkt som Theil-Sen-estimatorn, kan bibehållas i dataströmsmodellen (där sampelpunkterna bearbetas en efter en av en algoritm som inte har tillräckligt med beständighet lagring för att representera hela datamängden) med hjälp av en algoritm baserad på ε-nets .

I R- statistikpaketet är både Theil–Sen-estimatorn och Siegels upprepade medianestimator tillgängliga via mblm -biblioteket. En gratis fristående Visual Basic- applikation för Theil–Sen-uppskattning, KTRLine , har gjorts tillgänglig av US Geological Survey . Theil–Sen-estimatorn har också implementerats i Python som en del av SciPy- och scikit-learn- biblioteken.

Ansökningar

Theil-Sen-uppskattning har tillämpats på astronomi på grund av dess förmåga att hantera censurerade regressionsmodeller . Inom biofysik föreslår Fernandes & Leblanc (2005) dess användning för fjärranalysapplikationer såsom uppskattning av bladarea från reflektansdata på grund av dess "enkelhet i beräkning, analytiska uppskattningar av konfidensintervall, robusthet mot extremvärden, testbara antaganden om rester och . .. begränsad a priori information angående mätfel". För att mäta säsongsbetonade miljödata som vattenkvalitet , har en säsongsjusterad variant av Theil–Sen-estimatorn föreslagits som att föredra framför minsta kvadratuppskattning på grund av dess höga precision i närvaro av skeva data. Inom datavetenskap har Theil-Sen-metoden använts för att uppskatta trender i mjukvarans åldrande . Inom meteorologi och klimatologi har det använts för att uppskatta de långsiktiga trenderna för vindförekomst och hastighet.

Se även

Anteckningar