Genomisk kontroll
Genomisk kontroll (GC) är en statistisk metod som används för att kontrollera för de förvirrande effekterna av populationsstratifiering i genetiska associationsstudier. Metoden beskrevs ursprungligen av Bernie Devlin och Kathryn Roeder i ett papper från 1999. Det innebär att man använder en uppsättning anonyma genetiska markörer för att uppskatta effekten av befolkningsstrukturen på fördelningen av chi-kvadratstatistiken . Fördelningen av chi-kvadratstatistiken för en given allel som misstänks vara associerad med en given egenskap kan sedan jämföras med fördelningen av samma statistik för en allel som förväntas inte vara relaterad till egenskapen. Metoden är tänkt att innebära användning av markörer som inte är kopplade till markören som testas för en möjlig association. I teorin drar den fördel av befolkningsstrukturens tendens att orsaka överspridning av teststatistik i associationsanalyser. Den genomiska kontrollmetoden är lika robust som familjebaserad design, trots att den tillämpas på populationsbaserad data. Det har potential att leda till en minskning av den statistiska kraften för att upptäcka ett sant samband, och det kan också misslyckas med att eliminera de negativa effekterna av befolkningsskiktning. En mer robust form av den genomiska kontrollmetoden kan utföras genom att uttrycka associationen som studeras som två Cochran-Armitage-trendtester och sedan tillämpa metoden på varje test separat.
Antagandet om populationshomogenitet i associationsstudier, särskilt fall-kontrollstudier, kan lätt kränkas och kan leda till både typ I- och typ II-fel . Det är därför viktigt att de modeller som används i studien kompenserar för befolkningsstrukturen. Problemet i fallkontrollstudier är att om det finns en genetisk inblandning i sjukdomen är det mer sannolikt att fallpopulationen är släkt än individerna i kontrollpopulationen. Detta innebär att antagandet om observationers oberoende kränks. Ofta leder detta till en överskattning av betydelsen av ett samband, men det beror på hur urvalet valdes. Om det, av en slump, finns en högre allelfrekvens i en subpopulation av fallen, kommer du att hitta samband med alla egenskaper som är vanligare i fallpopulationen. Denna typ av falsk association ökar när urvalspopulationen växer, så problemet bör vara särskilt oroande i storskaliga associationsstudier när loci endast orsakar relativt små effekter på egenskapen. En metod som i vissa fall kan kompensera för ovan beskrivna problem har utvecklats av Devlin och Roeder (1999). Den använder både en frekvent och en Bayesiansk metod (det senare är lämpligt när man hanterar ett stort antal kandidatgener ).
Det frekventistiska sättet att korrigera för befolkningsstruktur fungerar genom att använda markörer som inte är kopplade till egenskapen i fråga för att korrigera för eventuell inflation av statistiken orsakad av befolkningsstrukturen. Metoden utvecklades först för binära egenskaper men har sedan dess generaliserats för kvantitativa. För den binära, som gäller att hitta genetiska skillnader mellan fall- och kontrollpopulationerna, använder Devlin och Roeder (1999) Armitages trendtest
och -testet för alleliska frekvenser
Alleler | aa | Aa | AA | total |
---|---|---|---|---|
Fall | r0 | r 1 | r 2 | R |
Kontrollera | s0 | s 1 | s 2 | S |
total | n0 | n 1 | n 2 | N |
Om befolkningen är i Hardy–Weinberg-jämvikt är de två statistikerna ungefär lika. Under nollhypotesen om ingen populationsstratifiering är trendtestet asymptotisk -fördelning med en frihetsgrad. Tanken är att statistiken blåses upp med en faktor så att där beror på effekten av stratifiering. Ovanstående metod vilar på antagandena att inflationsfaktorn är konstant, vilket betyder att loci bör ha ungefär lika mutationshastigheter, inte bör vara under olika urval i de två populationerna, och mängden Hardy– Weinbergs ojämvikt mätt i Wrights inavelskoefficient F bör inte skilja sig åt mellan de olika loci. Den sista av dessa är av största oro. Om effekten av stratifieringen är liknande över de olika loci uppskattas från de olänkade markörerna
där L är antalet olänkade markörer. Nämnaren härleds från gammafördelningen som en robust estimator av . Andra estimatorer har föreslagits, till exempel föreslog Reich och Goldstein att använda medelvärdet av statistiken istället. Detta är inte det enda sättet att uppskatta utan enligt Bacanu et al. det är en lämplig uppskattning även om några av de okopplade markörerna faktiskt är i ojämvikt med en sjukdom som orsakar locus eller själva är associerade med sjukdomen. Under nollhypotesen och när man korrigerar för stratifiering med L olänkade gener, är ungefär fördelad. Med denna korrigering bör den totala felfrekvensen av typ I vara ungefär lika med även när populationen är stratifierad. Devlin och Roeder (1999) ansåg mest situationen där ger en 95% konfidensnivå och inte mindre p-värden. Marchini et al. (2004) visar genom simulering att genomisk kontroll kan leda till ett antikonservativt p-värde om detta värde är mycket litet och de två populationerna (fall och kontroll) är extremt distinkta. Detta var särskilt ett problem om antalet olänkade markörer var i storleksordningen 50−100. Detta kan resultera i falska positiva resultat (på den signifikansnivån).