Generaliserad funktionell linjär modell
Den generaliserade funktionella linjära modellen ( GFLM ) är en förlängning av den generaliserade linjära modellen (GLM) som gör att man kan regressera univariata svar av olika typer (kontinuerliga eller diskreta) på funktionella prediktorer, som mestadels är slumpmässiga banor genererade av en kvadratintegrerbar stokastisk processer . På samma sätt som GLM relaterar en länkfunktion svarsvariabelns förväntade värde till en linjär prediktor, som i fallet med GFLM erhålls genom att bilda skalärprodukten av den slumpmässiga prediktorfunktionen X {\displaystyle X} med parameterfunktion . Funktionell linjär regression, funktionell poissonregression och funktionell binomial regression, med den viktiga funktionella logistiska regressionen inkluderad, är specialfall av GFLM. Tillämpningar av GFLM inkluderar klassificering och diskriminering av stokastiska processer och funktionella data .
Översikt
En nyckelaspekt av GFLM är uppskattning och slutledning för den jämna parameterfunktionen som vanligtvis erhålls genom dimensionsreduktion av den oändliga dimensionella funktionella prediktorn. En vanlig metod är att expandera prediktorfunktionen i en ortonormal basis av L 2 space , Hilbertrymden av kvadratintegrerbara funktioner med den samtidiga expansionen av parameterfunktionen i samma bas . Denna representation kombineras sedan med ett trunkeringssteg för att reducera bidraget från parameterfunktionen i den linjära prediktorn till ett ändligt antal regressionskoefficienter. Funktionell huvudkomponentanalys (FPCA) som använder Karhunen–Loève-expansionen är en vanlig och sparsam metod för att åstadkomma detta. Andra ortogonala expansioner, såsom Fourier-expansion och B-spline- expansion kan också användas för dimensionsreduktionssteget. Akaike informationskriteriet (AIC) kan användas för att välja antalet inkluderade komponenter. Minimering av korsvalideringsförutsägelsefel är ett annat kriterium som ofta används i klassificeringstillämpningar. När dimensionen av prediktorprocessen har reducerats, tillåter den förenklade linjära prediktorn att använda GLM och kvasi-likelihood- uppskattningstekniker för att erhålla uppskattningar av de finita dimensionella regressionskoefficienterna som i sin tur ger en uppskattning av parameterfunktionen i GFLM.
Modellkomponenter
Linjär prediktor
Prediktorfunktionerna , är typiskt kvadratiska integrerbara stokastiska processer på ett reellt intervall och den okända jämna parameterfunktionen , antas vara kvadratisk integrerbar på . Givet ett reellt mått på ges den linjära prediktorn av X är den centrerade prediktorprocessen och är en skalär som fungerar som en skärning.
Responsvariabel och variansfunktion
Utfallet är vanligtvis en slumpvariabel med reellt värde som kan vara antingen kontinuerlig eller diskret. Ofta anges den villkorliga fördelningen av givet prediktorprocessen inom den exponentiella familjen . Det räcker dock också att beakta den funktionella kvasi-sannolikheten, där man istället för fördelningen av svaret specificerar den villkorliga variansfunktionen, V som en funktion av det villkorliga medelvärdet, .
Länkfunktion
Länkfunktionen är en jämn inverterbar funktion, som relaterar det villkorliga medelvärdet av svaret med den linjära prediktorn . Sambandet ges av .
Formulering
För att implementera den nödvändiga dimensionsreduktionen utökas den centrerade prediktorprocessen och parameterfunktionen ,
där är en ortonormal bas för funktionsutrymmet så att där om och annars.
Slumpvariablerna ges av och koefficienterna som för .
och och betecknar så .
Av ortonormaliteten för basfunktionerna följer omedelbart att .
Nyckelsteget är då att approximera av vald trunkeringspunkt .
FPCA ger den mest sparsamma approximationen av den linjära prediktorn för ett givet antal basfunktioner eftersom egenfunktionsbasen förklarar mer av variationen än någon annan uppsättning basfunktioner.
För en differentierbar länkfunktion med avgränsad förstaderivata är approximationsfelet för den -trunkerade modellen, dvs den linjära prediktorn trunkerad till summan av de första -komponenterna, en konstant multipel av .
En heuristisk motivering för trunkeringsstrategin härrör från det faktum att som är en konsekvens av Cauchy–Schwarz-olikheten och genom att notera att den högra sidan av den sista olikheten konvergerar till 0 som eftersom båda och är ändliga.
För specialfallet med egenfunktionsbasen motsvarar sekvensen sekvensen av egenvärdena för kovarianskärnan .
För data med iid -observationer, inställning β och , de approximerade linjära prediktorerna kan representeras som genom .
Uppskattning
Huvudsyftet är att uppskatta parameterfunktionen .
När väl har fixerats kan standard GLM och quasi-likelihood-metoder användas för den -trunkerade modellen för att uppskatta lösa skattningsekvationen eller poängekvationen
Den vektorvärderade poängfunktionen visar sig vara som beror på till och .
löses ekvationen Newton–Raphson (NR) eller Fisher scoring (FS) eller iterativt omvägda minsta kvadrater (IWLS) till få uppskattningen av regressionskoefficienterna , vilket leder till uppskattningen av parameterfunktionen . När du använder den kanoniska länkfunktionen är dessa metoder likvärdiga.
Resultat finns tillgängliga i litteraturen av -trunkerade modeller som som ger asymptotisk slutledning för avvikelsen av den uppskattade parametriska funktionen från den sanna parametriska funktionen och även asymptotiska tester för regressionseffekter och asymptotiska konfidensregioner .
Exponentiellt familjesvar
Om svarsvariabeln , givet följer den exponentiella familjen med en parameter, då dess sannolikhetstäthetsfunktion eller sannolikhetsmassfunktion (i förekommande fall) är
för vissa funktioner och , där är den kanoniska parametern, och är en spridningsparameter som vanligtvis är antas vara positivt.
I den kanoniska uppsättningen är och från egenskaperna för exponentiell familj,
Därför fungerar som en länkfunktion och kallas den kanoniska länkfunktionen.
är motsvarande variansfunktion och dispersionsparametern.
Speciella fall
Funktionell linjär regression (FLR)
Funktionell linjär regression, ett av de mest användbara verktygen för funktionell dataanalys, är ett exempel på GFLM där svarsvariabeln är kontinuerlig och ofta antas ha en normalfördelning . Variansfunktionen är en konstant funktion och länkfunktionen är identitet. Under dessa antaganden minskar GFLM till FLR,
Utan normalitetsantagandet motiverar den konstanta variansfunktionen användningen av kvasinormala tekniker.
Funktionell binär regression
När svarsvariabeln har binära utfall, dvs 0 eller 1, väljs fördelningen vanligtvis som Bernoulli , och då . Populära länkfunktioner är exitfunktionen, som är inversen av logitfunktionen (funktionell logistisk regression) och probitfunktionen (funktionell probitregression). Varje kumulativ fördelningsfunktion F har intervallet [0,1] som är intervallet för binomialmedelvärde och kan därför väljas som en länkfunktion. En annan länkfunktion i detta sammanhang är den komplementära log–log-funktionen , som är en asymmetrisk länk. Variansfunktionen för binära data ges av där dispersionsparametern tas som 1 eller alternativt används kvasi-likelihood-metoden.
Funktionell Poisson-regression
Ett annat specialfall av GFLM inträffar när utfallen räknas, så att fördelningen av svaren antas vara Poisson . Medelvärdet är typiskt kopplat till den linjära prediktorn via en log-länk, som också är den kanoniska länken . Variansfunktionen är där spridningsparametern är 1, förutom när data kan vara överdispergerade, vilket är när kvasi-Poisson-metoden används.
Tillägg
Utvidgningar av GFLM har föreslagits för de fall där det finns flera prediktorfunktioner. En annan generalisering kallas Semi Parametric Quasi-likelihood Regression (SPQR) som tar hänsyn till situationen där länken och variansfunktionerna är okända och uppskattas icke-parametriskt från data. Denna situation kan också hanteras av enstaka eller flera indexmodeller, med till exempel Sliced Inverse Regression (SIR).
En annan förlängning inom denna domän är Functional Generalized Additive Model (FGAM)) som är en generalisering av generaliserad additiv modell (GAM) där
där är expansionskoefficienterna för den slumpmässiga prediktorfunktionen och varje är en okänd jämn funktion som måste uppskattas och där .
I allmänhet kräver uppskattning i FGAM att man kombinerar IWLS med backfitting . Men om expansionskoefficienterna erhålls som funktionella huvudkomponenter kommer de i vissa fall (t.ex. Gaussisk prediktorfunktion ), att vara oberoende i vilket fall backfitting inte behövs, och man kan använda populära utjämningsmetoder för uppskatta de okända parameterfunktionerna .
Ansökan
En populär datauppsättning som har använts för ett antal analyser inom området funktionell dataanalys består av antalet ägg som läggs dagligen fram till döden av 1000 medelhavsfruktflugor (eller kortare medflugor) [1] [ 2 ] . Handlingen här visar äggläggningsbanorna under de första 25 dagarna av livet för cirka 600 honflugor (de som har minst 20 ägg kvar under sin livstid). De rödfärgade kurvorna tillhör de flugor som kommer att lägga mindre än medianantalet kvarvarande ägg, medan de blåfärgade kurvorna tillhör flugorna som kommer att lägga mer än medianantalet kvarvarande ägg efter 25 års ålder. Ett relaterat problem med att klassificera medflugor lika långlivad eller kortlivad baserat på de initiala äggläggningsbanorna som prediktorer och flugornas efterföljande livslängd som respons har studerats med GFLM