Koefficient för multipel korrelation

I statistik är koefficienten för multipelkorrelation ett mått på hur väl en given variabel kan förutsägas med hjälp av en linjär funktion av en uppsättning andra variabler. Det är korrelationen mellan variabelns värden och de bästa förutsägelserna som kan beräknas linjärt från de prediktiva variablerna.

Koefficienten för multipelkorrelation tar värden mellan 0 och 1. Högre värden indikerar högre förutsägbarhet för den beroende variabeln från de oberoende variablerna , med ett värde på 1 som indikerar att förutsägelserna är exakt korrekta och ett värde på 0 indikerar att ingen linjär kombination av oberoende variabler är en bättre prediktor än det fasta medelvärdet av den beroende variabeln.

Koefficienten för multipelkorrelation är känd som kvadratroten av bestämningskoefficienten , men under de särskilda antagandena att en skärning ingår och att bästa möjliga linjära prediktorer används, medan bestämningskoefficienten definieras för mer allmänna fall, inklusive de för icke-linjär förutsägelse och de där de förutsagda värdena inte har härletts från en modellanpassningsprocedur.

Definition

Koefficienten för multipelkorrelation, betecknad R , är en skalär som definieras som Pearson-korrelationskoefficienten mellan de förutsagda och de faktiska värdena för den beroende variabeln i en linjär regressionsmodell som inkluderar en intercept .

Beräkning

Kvadraten på koefficienten för multipelkorrelation kan beräknas med vektorn c r x mellan prediktorvariablerna (oberoende variabler) och målvariabeln (beroende variabel), och korrelationsmatrisen av korrelationer mellan prediktorvariabler. Det ges av

där är transponeringen av , och är inversen av matrisen

Om alla prediktorvariabler är okorrelerade är matrisen identitetsmatrisen och är helt enkelt lika med , summan av kvadratkorrelationerna med den beroende variabeln. Om prediktorvariablerna är korrelerade sinsemellan, står inversen av korrelationsmatrisen för detta.

Den kvadratiska koefficienten för multipelkorrelation kan också beräknas som variansdelen av den beroende variabeln som förklaras av de oberoende variablerna, som i sin tur är 1 minus den oförklarade fraktionen. Den oförklarade bråkdelen kan beräknas som summan av kvadraterna av residualer - det vill säga summan av kvadraterna av prediktionsfelen - dividerat med summan av kvadraterna av avvikelserna av värdena för den beroende variabeln från dess förväntade värde .

Egenskaper

När fler än två variabler är relaterade till varandra beror värdet på koefficienten för multipelkorrelation på valet av beroende variabel: en regression av och kommer i allmänhet att ha en annan än en regression av och . Anta till exempel att variabeln är okorrelerad med både och , medan och är linjärt relaterade till varandra. Då kommer en regression av och att ge en på noll, medan en regression av och kommer att ge en strikt positiv . Detta följer eftersom korrelationen av med dess bästa prediktor baserat på och i alla fall är minst lika stor som korrelationen av med dess bästa prediktor baserat på enbart , och i det här fallet med som inte ger någon förklaringskraft blir den exakt lika stor.

Vidare läsning

  •   Allison, Paul D. (1998). Multipel regression: A Primer . London: Sage Publications. ISBN 9780761985334
  •   Cohen, Jacob, et al. (2002). Tillämpad multipel regression: korrelationsanalys för beteendevetenskaperna . ISBN 0805822232
  •   Crown, William H. (1998). Statistiska modeller för samhälls- och beteendevetenskap: Multipel regression och begränsade beroende variabla modeller . ISBN 0275953165
  •   Edwards, Allen Louis (1985). Multipel regression och analys av varians och kovarians . ISBN 0716710811
  • Keith, Timothy (2006). Multipel regression och bortom . Boston: Pearson Education.
  •   Fred N. Kerlinger, Elazar J. Pedhazur (1973). Multipel regression i beteendeforskning. New York: Holt Rinehart Winston. ISBN 9780030862113
  • Stanton, Jeffrey M. (2001). "Galton, Pearson, and the Peas: A Brief History of Linear Regression for Statistics Instructors", Journal of Statistics Education , 9 (3).