Bhattacharyya avstånd

I statistiken mäter Bhattacharyya -avståndet likheten mellan två sannolikhetsfördelningar . Det är nära relaterat till Bhattacharyya-koefficienten som är ett mått på mängden överlappning mellan två statistiska urval eller populationer.

Det är inte ett mått trots namnet "avstånd", eftersom det inte lyder triangelojämlikheten.

Definition

För sannolikhetsfördelningar och på samma domän definieras Bhattacharyya-avståndet som

var

är Bhattacharyya-koefficienten för diskreta sannolikhetsfördelningar .

För kontinuerliga sannolikhetsfördelningar , med och där och är sannolikhetstäthetsfunktionerna , Bhattacharyya-koefficienten definieras som

.

Mer generellt, givet två sannolikhetsmått på ett mätbart utrymme låt vara ett ( sigma finit ) mått så att och är absolut kontinuerliga med avseende på dvs så att och för sannolikhetstäthetsfunktioner med avseende på definierad -nästan överallt. Ett sådant mått, även ett sådant sannolikhetsmått, finns alltid, t.ex. . Definiera sedan Bhattacharrya-måttet på med

Det beror inte på måttet , för om vi väljer ett mått så att och ett annat måttval är absolut kontinuerliga dvs och , då

,

och liknande för . Det har vi då

.

Vi definierar slutligen Bhattacharyya-koefficienten

.

beror inte kvantiteten , och av Cauchy-olikheten . I synnerhet om är absolut kontinuerlig i förhållande till med Radon Nikodym-derivatan sedan

Egenskaper

och .

följer inte triangelolikheten , även om Hellingeravståndet gör det.

Låt , där är normalfördelningen med medelvärde och varians , då

Och i allmänhet, givet två multivariata normalfördelningar p ,

där är ett kvadratiskt Mahalanobis-avstånd .

Ansökningar

Bhattacharyya-koefficienten kvantifierar "närheten" av två slumpmässiga statistiska urval.

Givet två sekvenser från distributionerna , placera dem i hinkar och låt frekvensen av sampel från i bucket vara , och på liknande sätt för , då är provet Bhattacharyya-koefficienten

som är en estimator av . Kvaliteten på uppskattningen beror på valet av skopor; för få hinkar skulle överskatta , medan för många skulle underskatta..

En vanlig uppgift vid klassificering är att uppskatta klassernas separerbarhet. Upp till en multiplikativ faktor är det kvadratiska Mahalanobis-avståndet ett specialfall av Bhattacharyya-avståndet när de två klasserna är normalfördelade med samma varianser. När två klasser har liknande medel men signifikant olika varianser, skulle Mahalanobis-avståndet vara nära noll, medan Bhattacharyya-avståndet inte skulle vara det.

Bhattacharyya-koefficienten används vid konstruktionen av polära koder .

Bhattacharyya-avståndet används för extrahering och urval av funktioner, bildbehandling, högtalarigenkänning och telefonklustring.

Ett "Bhattacharyya-utrymme" har föreslagits som en funktionsvalsteknik som kan tillämpas på textursegmentering.

Historia

Både Bhattacharyya-avståndet och Bhattacharyya-koefficienten är uppkallade efter Anil Kumar Bhattacharyya , en statistiker som arbetade på 1930-talet vid Indian Statistical Institute . Han utvecklade metoden för att mäta avståndet mellan två icke-normala fördelningar och illustrerade detta med de klassiska multinomiska populationerna samt sannolikhetsfördelningar som är absolut kontinuerliga med avseende på Lebesgue-måttet. Det senare arbetet dök upp delvis 1943 i Bulletin of the Calcutta Mathematical Society , medan den tidigare delen, trots att de lämnats in för publicering 1941, dök upp nästan fem år senare i Sankhya .

Se även

  • Kailath, T. (1967). "Divergensen och Bhattacharyya-avståndsmätningarna i signalval". IEEE-transaktioner på kommunikationsteknik . 15 (1): 52–60. doi : 10.1109/TCOM.1967.1089532 .

externa länkar