Bayes klassificerare

Vid statistisk klassificering minimerar Bayes -klassificeraren sannolikheten för felklassificering.

Definition

Antag att ett par tar värden i , där är klassetiketten för . Antag att den villkorliga fördelningen av X , givet att etiketten Y tar värdet r ges av

för

där " " betyder "fördelas som", och där anger en sannolikhetsfördelning.

En klassificerare är en regel som tilldelar en observation X = x en gissning eller uppskattning av vad den oobserverade etiketten Y = r faktiskt var. I teoretiska termer är en klassificerare en mätbar funktion , med tolkningen att C klassificerar punkten x till klassen C ( x ). Sannolikheten för felklassificering, eller risk , för en klassificerare C definieras som

Bayes klassificerare är

I praktiken, som i det mesta av statistik, är svårigheterna och subtiliteterna förknippade med att modellera sannolikhetsfördelningarna effektivt – i det här fallet . Bayes klassificerare är ett användbart riktmärke i statistisk klassificering .

Överrisken för en allmän klassificerare (möjligen beroende på vissa träningsdata) definieras som denna icke-negativa kvantitet viktig för att bedöma prestandan hos olika klassificeringstekniker . En klassificerare sägs vara konsekvent om överrisken konvergerar till noll eftersom storleken på träningsdatauppsättningen tenderar till oändlighet.

Om man betraktar komponenterna i som ömsesidigt oberoende, får vi den naiva bayes-klassificeraren , där

Bevis på optimalitet

Bevis på att Bayes-klassificeraren är optimal och Bayes felfrekvens är minimal intäkter enligt följande.

Definiera variablerna: Risk , Bayes risk , alla möjliga klasser till vilka punkterna kan klassificeras . Låt den bakre sannolikheten för en punkt som tillhör klass 1 vara . Definiera klassificeraren som

Då har vi följande resultat:

(a) , dvs är en Bayes-klassificerare,

(b) För varje klassificerare uppfyller överrisken [

(c)


Bevis på (a): För alla klassificerare har vi

(på grund av Fubinis sats )

Lägg märke till att minimeras genom att ta ,

Därför är den minsta möjliga risken Bayes-risken, .


Bevis på (b):


Bevis på (c):


Det allmänna fallet att Bayes-klassificeraren minimerar klassificeringsfel när varje element kan tillhöra någon av n kategorier fortsätter med höga förväntningar enligt följande.

Detta minimeras genom att samtidigt minimera alla termer av förväntan med hjälp av klassificeraren

för varje observation x .

Se även