Bästa linjära opartiska förutsägelse
Inom statistik används bästa linjära opartiska förutsägelse ( BLUP ) i linjära blandade modeller för uppskattning av slumpmässiga effekter . BLUP härleddes av Charles Roy Henderson 1950 men termen "best linear unbiased predictor" (eller "prediction") verkar inte ha använts förrän 1962. "Best linear unbiased predictions" (BLUPs) av slumpmässiga effekter liknar bästa linjära opartiska uppskattningar (BLUE) (se Gauss-Markovs sats ) av fixerade effekter. Distinktionen uppstår eftersom det är konventionellt att inte tala om att uppskatta fasta effekter utan snarare om att förutsäga slumpmässiga effekter, men de två termerna är i övrigt likvärdiga. (Detta är lite konstigt eftersom de slumpmässiga effekterna redan har "förverkligats"; de finns redan. Användningen av termen "förutsägelse" kan bero på att inom djuruppfödningen där Henderson arbetade, var de slumpmässiga effekterna vanligtvis genetiska fördelar , som skulle kunna användas för att förutsäga kvaliteten på avkomman (Robinson sidan 28)). Men ekvationerna för de "fasta" effekterna och för de slumpmässiga effekterna är olika.
I praktiken är det ofta så att parametrarna förknippade med slumpmässiga effektterm(er) är okända; dessa parametrar är varianserna för de slumpmässiga effekterna och residualerna. Vanligtvis uppskattas parametrarna och kopplas in i prediktorn, vilket leder till den empiriska bästa linjära opartiska prediktorn (EBLUP). Lägg märke till att genom att helt enkelt koppla in den uppskattade parametern i prediktorn, kan ytterligare variabilitet inte redovisas, vilket leder till alltför optimistiska prediktionsvarianser för EBLUP. [ citat behövs ]
Bästa linjära opartiska förutsägelser liknar empiriska Bayes- uppskattningar av slumpmässiga effekter i linjära blandade modeller, förutom att i det senare fallet, där vikter beror på okända värden på varianskomponenter, ersätts dessa okända varianser med urvalsbaserade uppskattningar.
Exempel
Antag att modellen för observationer { Y j ; j = 1, ..., n } skrivs som
där är medelvärdet av alla observationer , och ξ j och ε j representerar den slumpmässiga effekten och observationsfelet för observation j , och antar att de är okorrelerade och har kända varianser σ ξ 2 och σ e2 , respektive. Vidare x j en vektor av oberoende variabler för den j: te observationen och är en vektor av regressionsparametrar.
BLUP-problemet med att tillhandahålla en uppskattning av det observationsfelfria värdet för den k: te observationen,
kan formuleras som att de kräver att koefficienterna för en linjär prediktor, definierad som
bör väljas för att minimera variansen av prediktionsfelet,
under förutsättning att prediktorn är opartisk,
BLUP vs BLÅ
I motsats till fallet med bästa linjära opartiska uppskattning har "kvantiteten som ska uppskattas", , inte bara ett bidrag från ett slumpmässigt element utan ett av observerade kvantiteter, specifikt som bidrar till , har också ett bidrag från samma slumpmässiga element.
I motsats till BLÅ tar BLUP hänsyn till kända eller uppskattade varianser.
BLUP:s historia i avel
Henderson utforskade avel ur en statistisk synvinkel. Hans arbete bidrog till utvecklingen av urvalsindex (SI) och Estimated Breeding Value (EBV). Dessa statistiska metoder påverkade den artificiella inseminations ranking som användes i USA. Dessa tidiga statistiska metoder förväxlas med BLUP som numera är vanlig i boskapsuppfödning.
Den faktiska termen BLUP har sitt ursprung i arbetet vid University of Guelph i Kanada av Daniel Sorensen och Brian Kennedy, där de utökade Hendersons resultat till en modell som inkluderar flera urvalscykler. Denna modell populariserades av University of Guelph inom mejeriindustrin under namnet BLUP. Ytterligare arbete av universitetet visade BLUPs överlägsenhet över EBV och SI vilket ledde till att det blev den primära genetiska prediktorn [ citat behövs ] .
Det finns således förvirring mellan BLUP-modellen som populariserats ovan med den bästa linjära opartiska statistiska prediktionsmetoden som var för teoretisk för allmän användning. Modellen levererades för användning på datorer till jordbrukare.
I Kanada rapporterar alla mejerier nationellt. Genetiken i Kanada var delad vilket gör den till den största genetiska poolen och därmed källan till förbättringar. Detta och BLUP drev en snabb ökning av holsteinsk boskapskvalitet .
Se även
Anteckningar
- Henderson, CR (1975). "Bästa linjära opartiska uppskattning och förutsägelse under en urvalsmodell". Biometri . 31 (2): 423–447. doi : 10.2307/2529430 . JSTOR 2529430 . PMID 1174616 .
- Liu, Xu-Qing; Rong, Jian-Ying; Liu, Xiu-Ying (2008). "Bästa linjära opartiska förutsägelse för linjära kombinationer i generella blandade linjära modeller" . Journal of Multivariate Analysis . 99 (8): 1503–1517. doi : 10.1016/j.jmva.2008.01.004 .