Variabel kärndensitetsuppskattning

I statistik är adaptiv eller "variabel bandbredd" kärndensitetsuppskattning en form av kärndensitetsuppskattning där storleken på kärnorna som används i uppskattningen varieras beroende på antingen platsen för proven eller platsen för testpunkten. Det är en särskilt effektiv teknik när provutrymmet är flerdimensionellt.

Logisk grund

Givet en uppsättning sampel, , vill vi uppskatta densiteten, , vid en testpunkt, :

där n är antalet sampel, K är "kärnan" , h är dess bredd och D är antalet dimensioner i . Kärnan kan ses som ett enkelt linjärt filter .

Att använda en fast filterbredd kan innebära att i områden med låg densitet kommer alla prover att falla i filtrets svansar med mycket låg vikt, medan regioner med hög densitet kommer att hitta ett för stort antal prover i den centrala regionen med en vikt nära enhet. . För att åtgärda det här problemet varierar vi bredden på kärnan i olika regioner av provutrymmet. Det finns två sätt att göra detta: ballong och punktvis uppskattning. I en ballongestimator varieras kärnans bredd beroende på platsen för testpunkten. I en punktvis estimator varieras kärnans bredd beroende på platsen för provet.

För multivariata estimatorer kan parametern h generaliseras för att variera inte bara storleken utan även formen på kärnan. Detta mer komplicerade tillvägagångssätt kommer inte att behandlas här.

Ballonguppskattare

En vanlig metod för att variera kärnans bredd är att göra den omvänt proportionell mot densiteten vid testpunkten:

där k är en konstant. Om vi ​​back-substituerar den uppskattade PDF-filen och antar en Gaussisk kärnfunktion , kan vi visa att W är en konstant:

En liknande härledning gäller för alla kärnor vars normaliserande funktion är av ordningen h D , fastän med en annan konstant faktor i stället för (2 π) D/2 -termen. Detta ger en generalisering av k-närmaste granne-algoritmen . Det vill säga, en enhetlig kärnfunktion kommer att returnera KNN-tekniken.

Det finns två komponenter till felet: en variansterm och en biasterm. Varianstermen ges som:

.

Bias termen hittas genom att utvärdera den approximerade funktionen i gränsen eftersom kärnans bredd blir mycket större än sampelavståndet. Genom att använda en Taylor-expansion för den verkliga funktionen försvinner biastermen:

En optimal kärnbredd som minimerar felet för varje uppskattning kan således härledas.

Använd för statistisk klassificering

Metoden är särskilt effektiv när den tillämpas på statistisk klassificering . Det finns två sätt vi kan gå vidare: det första är att beräkna PDF-filerna för varje klass separat, med hjälp av olika bandbreddsparametrar, och sedan jämföra dem som i Taylor. Alternativt kan vi dela upp summan baserat på klassen för varje prov:

där c i är klassen för det i: te provet. Testpunktens klass kan uppskattas genom maximal sannolikhet .


externa länkar

  • akde1d.m - Matlab m-fil för endimensionell adaptiv kärndensitetsuppskattning.
  • libAGF - Ett C++- bibliotek för multivariat adaptiv kärndensitetsuppskattning.
  • akde.m - Matlab -funktion för multivariat (högdimensionell) variabel kärndensitetsuppskattning.
  1. ^ a b c D. G. Terrell; DW Scott (1992). "Variabel kärndensitetsuppskattning" . Annals of Statistics . 20 (3): 1236–1265. doi : 10.1214/aos/1176348768 .
  2. ^ a b Mills, Peter (2011). "Effektiv statistisk klassificering av satellitmätningar". International Journal of Remote Sensing . 32 (21): 6109–6132. arXiv : 1202.2194 . doi : 10.1080/01431161.2010.507795 .
  3. ^ Taylor, Charles (1997). "Klassificering och uppskattning av kärndensitet". Utsikter inom astronomi . 41 (3): 411–417. Bibcode : 1997VA.....41..411T . doi : 10.1016/s0083-6656(97)00046-9 .