Medelkvadrat förutsägelsefel
I statistiken är medelkvadratförutsägelsefelet eller medelkvadratfel för förutsägelserna av en utjämnings- eller kurvanpassningsprocedur det förväntade värdet på kvadratskillnaden mellan de anpassade värdena som impliceras av den förutsägande funktionen { och värdena för den (ej observerbara) funktionen g . Det är ett omvänt mått på förklaringskraften för och kan användas i processen för korsvalidering av en uppskattad modell.
Om utjämnings- eller anpassningsproceduren har projektionsmatris (dvs hattmatris) L , som mappar de observerade värdena vektor till förutsagda värden vektor då
MSPE kan delas upp i två termer: medelvärdet av kvadratiska biaser för de anpassade värdena och medelvärdet av varianserna för de anpassade värdena:
Kunskaper om g krävs för att exakt beräkna MSPE; annars kan det uppskattas.
Beräkning av MSPE över out-of-sample data
Medelkvadratförutsägelsefelet kan beräknas exakt i två sammanhang. För det första, med ett dataprov med längden n , kan dataanalytikern köra regressionen över endast q av datapunkterna (med q < n ), och hålla tillbaka de andra n – q datapunkterna med det specifika syftet att använda dem för att beräkna skattade modellens MSPE utanför urvalet (dvs. inte använda data som användes i modelluppskattningsprocessen). Eftersom regressionsprocessen är skräddarsydd för de q in-samplet-punkterna, kommer normalt MSPE i-samplet att vara mindre än den out-of-samplet som beräknas över de n – q kvarhållna punkterna. Om ökningen av MSPE utanför provet jämfört med i provet är relativt liten, resulterar det i att modellen ses positivt. Och om två modeller ska jämföras, ses den med den lägre MSPE över datapunkterna n – q utanför urvalet mer fördelaktigt, oavsett modellernas relativa prestanda i urvalet. MSPE utanför urvalet i detta sammanhang är exakt för de datapunkter utanför urvalet som det beräknades över, men är bara en uppskattning av modellens MSPE för den mestadels oobserverade populationen från vilken data hämtades.
För det andra, med tiden kan mer data bli tillgänglig för dataanalytikern, och sedan kan MSPE beräknas över dessa nya data.
Uppskattning av MSPE över befolkningen
När modellen har uppskattats över alla tillgängliga data utan att någon har hållits tillbaka, kan modellens MSPE över hela populationen av mestadels oobserverade data uppskattas enligt följande.
För modellen där man kan skriva
Med hjälp av datavärden i urvalet motsvarar den första termen på höger sida
Således,
Om är känd eller välskattad av , blir det möjligt att uppskatta MSPE med
Colin Mallows förespråkade denna metod i konstruktionen av sin modellvalsstatistik C p , som är en normaliserad version av den uppskattade MSPE:
där p antalet uppskattade parametrar p och beräknas från den version av modellen som inkluderar alla möjliga regressorer. Det avslutar detta bevis.
Se även
Vidare läsning
- Pindyck, Robert S. ; Rubinfeld, Daniel L. (1991). "Prognoser med tidsseriemodeller" . Econometric Models & Economic Forecasts (3:e upplagan). New York: McGraw-Hill. s. 516–535 . ISBN 0-07-050098-3 .