Bayesiskt verktyg för metyleringsanalys
Bayesiskt verktyg för metyleringsanalys , även känt som BATMAN , är ett statistiskt verktyg för att analysera profiler för metylerad DNA-immunoutfällning (MeDIP). Det kan appliceras på stora datamängder genererade med antingen oligonukleotidmatriser (MeDIP-chip) eller nästa generations sekvensering (MeDIP-seq), vilket ger en kvantitativ uppskattning av absolut metyleringstillstånd i en region av intresse.
Teori
MeDIP (methylated DNA immunoprecipitation) är en experimentell teknik som används för att bedöma DNA- metyleringsnivåer genom att använda en antikropp för att isolera metylerade DNA-sekvenser. De isolerade fragmenten av DNA hybridiseras antingen till ett mikroarraychip (MeDIP-chip) eller sekvenseras genom nästa generations sekvensering (MeDIP-seq). Även om detta berättar vilka områden av genomet som är metylerade, ger det inte absoluta metyleringsnivåer. Föreställ dig två olika genomiska regioner , A och B. Region A har sex CpGs (DNA-metylering i somatiska däggdjursceller sker vanligtvis vid CpG- dinukleotider ), varav tre är metylerade. Region B har tre CpGs, som alla är metylerade. Eftersom antikroppen helt enkelt känner igen metylerat DNA kommer den att binda båda dessa regioner lika och efterföljande steg kommer därför att visa lika signaler för dessa två regioner. Detta ger inte den fullständiga bilden av metylering i dessa två regioner (i region A är endast hälften av CpG:erna metylerade, medan i region B alla CpGs är metylerade). Därför, för att få den fullständiga bilden av metylering för en given region måste du normalisera signalen du får från MeDIP-experimentet till antalet CpGs i regionen, och det är vad Batman-algoritmen gör . Att analysera MeDIP-signalen i exemplet ovan skulle ge Batman-poängen 0,5 för region A (dvs regionen är 50 % metylerad) och 1 för region B (dvs regionen är 100 % metylerad). På detta sätt omvandlar Batman signalerna från MeDIP-experiment till absoluta metyleringsnivåer.
Utveckling av Batman
Kärnprincipen för Batman-algoritmen är att modellera effekterna av varierande densitet av CpG-dinukleotider, och effekten detta har på MeDIP-anrikning av DNA-fragment. Batmans grundläggande antaganden:
- Nästan all DNA-metylering hos däggdjur sker vid CpG-dinukleotider.
- De flesta CpG-fattiga regioner är konstitutivt metylerade medan de flesta CpG-rika regioner (CpG-öar) är konstitutivt ometylerade.
- Det finns inga fragmentfördomar i MeDIP-experimentet (ungefärliga DNA-fragmentstorlekar är 400–700 bp).
- Felen på mikromatrisen är normalt fördelade med precision.
- Endast metylerade CpG bidrar till den observerade signalen.
- CpG-metyleringstillstånd är i allmänhet starkt korrelerat över hundratals baser, så CpGs grupperade i 50- eller 100-bp-fönster skulle ha samma metyleringstillstånd.
Grundläggande parametrar i Batman:
- Ccp : kopplingsfaktor mellan prob p och CpG-dinukleotid c , definieras som fraktionen av DNA- molekyler som hybridiserar till prob p som innehåller CpG c .
- C tot : total CpG-påverkansparameter, definieras som summan av kopplingsfaktorer för en given sond, vilket ger ett mått på lokal CpG-densitet
- mc : metyleringsstatusen vid position c , som representerar den del av kromosomerna i provet på vilken den är metylerad . mc betraktas som en kontinuerlig variabel eftersom majoriteten av prover som används i MeDIP-studier innehåller flera celltyper.
Baserat på dessa antaganden beror signalen från MeDIP-kanalen i MeDIP-chippet eller MeDIP-seq-experimentet på graden av anrikning av DNA-fragment som överlappar den sonden, vilket i sin tur beror på mängden antikroppsbindning och därmed antalet av metylerade CpG på dessa fragment. I Batman-modellen kan den kompletta datamängden från ett MeDIP/chip-experiment, A, representeras av en statistisk modell i form av följande sannolikhetsfördelning :
där ( x | μ , σ 2 ) är en Gaussisk sannolikhetstäthetsfunktion . Standard Bayesianska tekniker kan användas för att härleda f ( m | A ), det vill säga fördelningen av sannolika metyleringstillstånd givet en eller flera uppsättningar av MeDIP-chip/MeDIP-seq-utgångar. För att lösa detta slutledningsproblem använder Batman nästlad provtagning ( http://www.inference.phy.cam.ac.uk/bayesys/ ) för att generera 100 oberoende prover från f ( m | A ) för varje sida vid sida i genomet, sammanfattar sedan det mest sannolika metyleringstillståndet i 100-bp-fönster genom att anpassa betafördelningar till dessa prover. Moden för de mest sannolika betafördelningarna användes som slutliga metyleringsanrop.
Begränsningar
Det kan vara användbart att ta hänsyn till följande punkter när du överväger att använda Batman:
- Batman är inte en mjukvara ; det är en algoritm som utförs med hjälp av kommandotolken . Som sådan är den inte särskilt användarvänlig och är en ganska beräkningsteknisk process.
- Eftersom det är icke-kommersiellt finns det väldigt lite stöd när man använder Batman utöver vad som står i manualen.
- Det är ganska tidskrävande (det kan ta flera dagar att analysera en kromosom). (Obs: I ett statligt labb tog det mindre än en timme att köra Batman på en uppsättning av 100 Agilent Human DNA Methylation Arrays (cirka 250 000 prober per array) i Agilents Genomic Workbench-programvara. Vår dator hade en 2GHz-processor, 24 GB RAM , 64-bitars Windows 7.)
- Kopieringsnummervariation (CNV) måste beaktas. Till exempel skulle poängen för en region med ett CNV-värde på 1,6 i en cancer (en förlust på 0,4 jämfört med normalt) behöva multipliceras med 1,25 (=2/1,6) för att kompensera för förlusten.
- Ett av Batmans grundläggande antaganden är att all DNA-metylering sker vid CpG-dinukleotider. Även om detta i allmänhet är fallet för från ryggradsdjur , finns det situationer där det finns en utbredd icke-CpG-metylering, såsom i växtceller och embryonala stamceller .