Ordinal regression

Inom statistik är ordinal regression , även kallad ordinalklassificering , en typ av regressionsanalys som används för att förutsäga en ordinalvariabel , alltså en variabel vars värde finns på en godtycklig skala där endast den relativa ordningen mellan olika värden är signifikant. Det kan betraktas som ett mellanproblem mellan regression och klassificering . Exempel på ordinal regression är ordered logit och ordered probit . Ordinal regression dyker ofta upp inom samhällsvetenskaperna , till exempel vid modellering av mänskliga preferensnivåer (på en skala från t.ex. 1–5 för "mycket dålig" till "utmärkt"), såväl som vid informationssökning . Inom maskininlärning kan ordinal regression också kallas ranking learning .

Linjära modeller för ordinal regression

Ordinal regression kan utföras med hjälp av en generaliserad linjär modell (GLM) som passar både en koefficientvektor och en uppsättning tröskelvärden till en datauppsättning. Antag att man har en uppsättning observationer, representerade av längd- p vektorer x 1 till x n , med tillhörande svar y 1 till y n , där varje y i är en ordningsvariabel på en skala 1, ..., K . För enkelhetens skull, och utan förlust av generalitet, antar vi att y är en icke-minskande vektor, det vill säga y i y i+1 . Till dessa data passar en längd- p koefficientvektor w och en uppsättning tröskelvärden θ 1 , ..., θ K −1 med egenskapen att θ 1 < θ 2 < ... < θ K −1 . Denna uppsättning tröskelvärden delar upp den reella tallinjen i K disjunkta segment, motsvarande K- svarsnivåerna.

Modellen kan nu formuleras som

eller, den kumulativa sannolikheten för att svaret y är högst i ges av en funktion σ (den inversa länkfunktionen ) applicerad på en linjär funktion av x . Det finns flera val för σ ; logistikfunktionen _

ger den beställda logitmodellen, medan användning av probitfunktionen ger den beställda probitmodellen. Ett tredje alternativ är att använda en exponentiell funktion

som ger modellen för proportionella faror .

Latent variabel modell

Probitversionen av ovanstående modell kan motiveras genom att anta förekomsten av en verkligt värderad latent variabel (oobserverad kvantitet) y* , bestämd av

där ε är normalfördelad med noll medelvärde och enhetsvarians, betingad av x . Svarsvariabeln y är resultatet av en "ofullständig mätning" av y* , där man bara bestämmer i vilket intervall y* faller:

Genom att definiera 0 θ = -∞ och θ K = ∞ , kan ovanstående sammanfattas som y = k om och endast om θ k −1 < y * ≤ θ k .

Från dessa antaganden kan man härleda den villkorliga fördelningen av y as

där Φ är den kumulativa fördelningsfunktionen för standardnormalfördelningen och tar på sig rollen som den omvända länkfunktionen σ . Modellens log-sannolikhet för ett enstaka träningsexempel x i , y i kan nu anges som

(med Iverson-parentesen [ y i = k ] .) Log-sannolikheten för den beställda logitmodellen är analog med logistikfunktionen istället för Φ .

Alternativa modeller

Inom maskininlärning har alternativ till de latent-variabla modellerna för ordinal regression föreslagits. Ett tidigt resultat var Prank, en variant av perceptronalgoritmen som hittade flera parallella hyperplan som separerade de olika leden; dess utdata är en viktvektor w och en sorterad vektor med K −1 tröskelvärden θ , som i de ordnade logit/probit-modellerna. Förutsägelseregeln för denna modell är att mata ut den minsta rangordningen k så att wx < θ k .

Andra metoder förlitar sig på principen om inlärning med stor marginal som också ligger till grund för stödvektormaskiner .

Ett annat tillvägagångssätt ges av Rennie och Srebro, som, som inser att "inte ens bara att utvärdera sannolikheten för en prediktor är okomplicerad" i de ordnade logit- och ordnade probitmodellerna, föreslår passande ordinalregressionsmodeller genom att anpassa vanliga förlustfunktioner från klassificering ( såsom gångjärnsförlusten och stockförlusten ) till ordningsfallet.

programvara

ORCA (Ordinal Regression and Classification Algorithms) är ett Octave/MATLAB-ramverk som inkluderar en bred uppsättning ordinalregressionsmetoder.

R-paket som tillhandahåller ordinalregressionsmetoder inkluderar MASS och Ordinal.

Se även

Anteckningar

Vidare läsning