Generaliserad linjär blandad modell

Inom statistik är en generaliserad linjär blandad modell (GLMM) en förlängning av den generaliserade linjära modellen (GLM) där den linjära prediktorn innehåller slumpmässiga effekter utöver de vanliga fasta effekterna . De ärver också från GLM:s idén att utvidga linjära blandade modeller till icke- normala data.

GLMM tillhandahåller ett brett utbud av modeller för analys av grupperade data, eftersom skillnaderna mellan grupper kan modelleras som en slumpmässig effekt. Dessa modeller är användbara vid analys av många typer av data, inklusive longitudinella data .

Modell

GLMM definieras generellt så att, beroende på de slumpmässiga effekterna , den beroende variabeln fördelas enligt den exponentiella familjen med dess förväntan relaterad till den linjära prediktorn via en länkfunktion :

.

Här är och designmatrisen för fixerade effekter respektive fixerade effekter; och är designmatrisen för slumpmässiga effekter respektive slumpmässiga effekter. För att förstå denna mycket korta definition måste du först förstå definitionen av en generaliserad linjär modell och av en blandad modell .

Generaliserade linjära blandade modeller är ett specialfall av hierarkiska generaliserade linjära modeller där de slumpmässiga effekterna är normalfördelade.

Den fullständiga sannolikheten

har ingen allmän sluten form, och att integrera över de slumpmässiga effekterna är vanligtvis extremt beräkningsintensivt. Förutom att numeriskt approximera denna integral (t.ex. via Gauss-Hermite-kvadratur ), har metoder som motiverats av Laplace-approximation föreslagits. Till exempel implementeras den bestraffade kvasi-likelihood-metoden, som i huvudsak innebär att upprepade gånger (dvs. dubbelt iterativ) anpassa en viktad normal blandad modell med en fungerande variant, av olika kommersiella statistiska program och öppen källkod.

Montering av en modell

Att anpassa GLMMs via maximal sannolikhet (som via AIC ) innebär att integrera över de slumpmässiga effekterna. I allmänhet kan dessa integraler inte uttryckas i analytisk form . Olika ungefärliga metoder har utvecklats, men ingen har bra egenskaper för alla möjliga modeller och datamängder (t.ex. ogrupperade binära data är särskilt problematiska). Av denna anledning har metoder som involverar numerisk kvadratur eller Markov-kedjan Monte Carlo ökat i användning, eftersom ökad datorkraft och framsteg inom metoder har gjort dem mer praktiska.

Akaike informationskriteriet (AIC) är ett vanligt kriterium för modellval . Uppskattningar av AIC för GLMMs baserade på vissa exponentiella familjefördelningar har nyligen erhållits.

programvara

  • Flera bidragspaket i R tillhandahåller GLMM-funktionalitet, inklusive lme4 och glmm.
  • GLMM kan monteras med SAS och SPSS
  • MATLAB tillhandahåller även en funktion som kallas "fitglme" för att passa GLMM-modeller.
  • Python - paketet Statsmodels stöder binomial- och poisson-implementering
  • Julia-paketet MixedModels.jl tillhandahåller en funktion som kallas GeneralizedLinearMixedModel som passar en GLMM till tillhandahållen data.
  • DHARMa: restdiagnostik för hierarkiska (flera nivåer/blandade) regressionsmodeller (utk.edu)

Se även