Encellig DNA-mallsträngssekvensering
Enkelcells-DNA-mallsträngssekvensering, eller Strand-seq , är en teknik för selektiv sekvensering av en dottercells föräldramallsträngar. Denna teknik erbjuder en mängd olika tillämpningar, inklusive identifiering av systerkromatidutbyten i föräldracellen före segregering, bedömning av icke-slumpmässig segregering av systerkromatider, identifiering av felorienterade kontiger i genomsammansättningar , de novo genomsammansättning av båda haplotyper i diploida organismer inklusive människor, helkromosom- haplotypning och identifiering av könsceller och somatisk genomisk strukturell variation , varav den senare kan detekteras robust även i enstaka celler.
Bakgrund
Strand-seq (enkelcells- och enkelsträngssekvensering) var ett av de första encellssekvenseringsprotokollen som beskrevs 2012. Denna genomiska teknik sekvenserar selektivt föräldramallsträngarna i enstaka dottercellers DNA- bibliotek . Som en proof of concept-studie visade författarna förmågan att skaffa sekvensinformation från Watson- och/eller Crick-kromosomsträngarna i ett individuellt DNA-bibliotek, beroende på sättet för kromatidsegregering; ett typiskt DNA-bibliotek kommer alltid att innehålla DNA från båda strängarna. Författarna var specifikt intresserade av att visa användbarheten av strand-seq för att detektera systerkromatidutbyten ( SCE) i hög upplösning. De identifierade framgångsrikt åtta förmodade SCE i den murina (mus) embryonala stamcellinjen (meS) med en upplösning på upp till 23 bp . Denna metod har också visat sig ha stor användbarhet i urskiljande mönster av icke-slumpmässig kromatidsegregering, särskilt i stamcellslinjer. Dessutom har SCE varit inblandade som diagnostiska indikatorer på genomstress, information som är användbar inom cancerbiologi. Den mesta forskningen om detta ämne involverar att observera sortimentet av kromosomala mallsträngar genom många cellutvecklingscykler och korrelera icke-slumpmässigt sortiment med särskilda cellöden. Encellssekvenseringsprotokoll var grundläggande i utvecklingen av denna teknik, men de skiljer sig åt i flera aspekter.
Metodik
Liknande metoder
Tidigare metoder har använts för att spåra arvsmönstren för kromatider per sträng och belysa processen för icke-slumpmässig segregation:
Pulsjakt
Pulse-chase-experiment har använts för att bestämma segregationsmönstren för kromosomer förutom att studera andra tidsberoende cellulära processer. Kortfattat tillåter puls-chase-analyser forskare att spåra radioaktivt märkta molekyler i cellen. I experiment som används för att studera icke-slumpmässigt kromosomsortiment, märks eller "pulsas" stamceller med en nukleotidanalog som är inkorporerad i de replikerade DNA-strängarna. Detta gör att de begynnande stativen kan spåras genom många omgångar av replikering . Tyvärr har denna metod visat sig ha dålig upplösning eftersom den endast kan observeras på kromatidnivå.
Kromosomorienterad fluorescens in situ hybridisering (CO-FISH)
CO-FISH, eller strängspecifik fluorescens in situ- hybridisering, underlättar strängspecifik inriktning av DNA med fluorescensmärkta prober. Den utnyttjar den enhetliga orienteringen av stora satelliter i förhållande till telomerernas riktning , vilket gör att strängar entydigt kan betecknas som "Watson" eller "Crick"-strängar. Genom att använda enkelriktade sonder som känner igen stora satellitregioner, kopplade till fluorescensmärkta färgämnen, kan enskilda strängar bindas. För att säkerställa att endast mallsträngen är märkt måste de nybildade strängarna brytas ned genom BrdU- inkorporering och fotolys . Detta protokoll erbjuder förbättrad cytogenetisk upplösning, vilket gör det möjligt för forskare att observera enstaka strängar i motsats till hela kromatider med puls-chase-experiment. Dessutom kan icke-slumpmässig segregering av kromatider analyseras direkt genom att rikta in sig på stora satellitmarkörer.
Våtlabbprotokoll
Celler av intresse odlas antingen in vivo eller in vitro. Under S-fas behandlas celler med bromodeoxiuridin (BrdU) som sedan införlivas i deras begynnande DNA, och fungerar som ett substitut för tymidin. Efter att minst en replikationshändelse har inträffat synkroniseras dottercellerna i G2-fasen och separeras individuellt genom fluorescensaktiverad cellsortering (FACS) . Cellerna sorteras direkt i lysbuffert och deras DNA extraheras. Efter att ha arresterats vid ett visst antal generationer (vanligtvis en), kan arvsmönstren för systerkromatider bedömas. Följande metoder koncentrerar sig på DNA-sekvensering av en enda dottercells DNA. Vid denna tidpunkt består kromosomerna av begynnande strängar med BrdU i stället för tymidin och de ursprungliga mallsträngarna är förberedda för beredning av DNA-sekvenseringsbibliotek. Eftersom detta protokoll publicerades 2012 är den kanoniska metoden endast väl beskriven för Illumina- sekvenseringsplattformar; protokollet skulle mycket enkelt kunna anpassas för andra sekvenseringsplattformar, beroende på applikation. Därefter inkuberas DNA:t med ett speciellt färgämne så att när BrdU-färgämneskomplexet exciteras av UV-ljus, skärs begynnande strängar av genom fotolys . Denna process inhiberar polymeraskedjereaktions (PCR) amplifiering av den begynnande strängen, vilket gör att endast de parentala mallsträngarna kan amplifieras. Bibliotekets konstruktion fortsätter som vanligt för Illumina parad-end-sekvensering. Multiplexande PCR-primrar ligeras sedan till PCR-amplikonerna med hexamer-streckkoder som identifierar vilken cell varje fragment de härrör från. Till skillnad från encellssekvenseringsprotokoll använder Strand-seq inte multipelförskjutningsamplifiering eller MALBAC för DNA-amplifiering. Snarare är det enbart beroende av PCR.
Bioinformatisk bearbetning
Majoriteten av nuvarande applikationer för Strand-seq börjar med att anpassa sekvenserade läsningar till ett referensgenom. Justering kan utföras med en mängd olika kortavlästa aligners som BWA och Bowtie. Genom att anpassa Strand-seq-läsningar från en enda cell till referensgenomet kan de ärvda mallsträngarna bestämmas. Om cellen sekvenserades efter mer än en generation kan ett mönster av kromatidsortiment fastställas för den aktuella cellinjen. The Bioinformatic Analysis of Inherited Templates (BAIT) var den första bioinformatiska programvaran för att exklusivt analysera läsningar genererade från Strand-seq-metoden. Det börjar med att anpassa läsningarna till en referenssekvens, binda genomet i sektioner och slutligen räkna antalet Watson- och Crick-läsningar som faller inom varje bin. Härifrån möjliggör BAIT identifiering av SCE-händelser, felorienterade kontiger i referensgenomet, aneuploida kromosomer och sätt för systerkromatidsegregering. Det kan också hjälpa till att sätta ihop tidigt byggda genom och tilldela föräldralösa ställningar till platser inom sent byggda genom. Efter BAIT har många bioinformatikverktyg nyligen introducerats som använder Strand-seq-data för en mängd olika applikationer (se till exempel följande avsnitt om haplotypning, de novo-genomsamling och upptäckt av strukturella variationer i enstaka celler, med hänvisning till respektive länkade artiklar).
Begränsningar
Strand-seq kräver celler som genomgår celldelning för BrdU-märkning, och är därför inte tillämpligt på formalinfixerade prover eller icke-delande celler. Men det kan appliceras på normala mitotiska celler och vävnader, organoider, såväl som leukemi- och tumörprover med färska eller frysta primärprover. Strand-seq använder Illumina-sekvensering, och applikationer som kräver sekvensinformation från olika sekvenseringsteknologier kräver nya protokoll, alternativt integrering av data som genereras med hjälp av distinkta sekvenseringsplattformar som nyligen visades.
Författare från de första artiklarna som beskrev Strand-seq visade att de kunde uppnå en 23bp-upplösning för kartläggning av SCE, och andra stora kromosomavvikelser kommer sannolikt att dela denna kartläggningsupplösning (om brytpunktsfinkartläggning utförs). Upplösning är dock beroende av en kombination av sekvenseringsplattformen som används, biblioteksförberedelseprotokoll och antalet analyserade celler samt djupet av sekvensering per cell. Det skulle dock vara vettigt om precisionen skulle öka ytterligare med sekvenseringsteknologier som inte orsakar fel i homopolymera upprepningar.
Applikationer och nytta
Identifiera systerkromatidutbyten
Strand-seq föreslogs ursprungligen som ett verktyg för att identifiera systerkromatidutbyten. Eftersom det är en process som är lokaliserad till enskilda celler, skulle DNA-sekvensering av mer än en cell naturligt sprida dessa effekter och antyda en frånvaro av SCE-händelser. Dessutom kan klassiska encellssekvenseringstekniker inte visa dessa händelser på grund av heterogena amplifieringsbiaser och dubbelsträngssekvensinformation, vilket kräver Strand-seq. Med hjälp av referensinriktningsinformationen kan forskare identifiera en SCE om riktningen hos en ärvd mallsträng ändras.
Identifiera felorienterade kontiger
Felorienterade kontiger är närvarande i referensgenom med betydande hastigheter (ex. 1 % i musens referensgenom). Strand-seq, i motsats till konventionella sekvenseringsmetoder, kan detektera dessa felorienteringar. Felorienterade contigs är närvarande där strängarv ändras från ett homozygott tillstånd till det andra (ex. WW till CC, eller CC till WW). Dessutom är denna tillståndsförändring synlig i varje Strand-seq-bibliotek, vilket förstärker närvaron av en felorienterad contig.
Identifiera icke-slumpmässig segregation av systerkromatider
Före 1960-talet antogs det att systerkromatider segregerades slumpmässigt till dotterceller. Emellertid har icke-slumpmässig segregering av systerkromatider observerats i däggdjursceller sedan dess. Det har föreslagits några hypoteser för att förklara den icke-slumpmässiga segregationen, inklusive Immortal Strand Hypothesis och Silent Sister Hypothesis, av vilka en förhoppningsvis kan verifieras med metoder som involverar Strand-seq.
''Immortal Strand Hypothesis''
Mutationer uppstår varje gång en cell delar sig. Vissa långlivade celler (ex. stamceller) kan särskilt påverkas av dessa mutationer. Den odödliga stränghypotesen föreslår att dessa celler undviker mutationsackumulering genom att konsekvent behålla parentala mallsträngar[9]. För att denna hypotes ska vara sann måste systerkromatider från varje kromosom segregera på ett icke-slumpmässigt sätt. Dessutom kommer en cell att behålla exakt samma uppsättning mallsträngar efter varje delning, vilket ger resten till de andra cellprodukterna av delningen.
''Silent Sister Hypothesis''
Denna hypotes säger att systerkromatider har olika epigenetiska signaturer, och därmed också olika uttrycksreglering. När replikering inträffar säkerställer icke-slumpmässig segregering av systerkromatider dottercellernas öden. Att bedöma giltigheten av denna hypotes skulle kräva en gemensam analys av Strand-seq och genuttrycksprofiler för båda dottercellerna.
Upptäckt av strukturella variationer och aneuploida kromosomer
Utdata från BAIT visar nedärvningen av föräldra-mallsträngar längs genomet. Normalt ärvs två mallsträngar för varje autosom, och varje avvikelse från detta nummer indikerar ett fall av aneuploidi , som kan visualiseras i enstaka celler.
Inversioner är en klass av kopietalsbalanserad strukturell variation , som leder till en förändring i strängriktning som lätt visualiseras av Strand-seq. Strand-seq kan därför användas för att lätt upptäcka polymorfa inversioner hos människor och primater, inklusive händelser i Megbase-storlek inbäddade i stora segmentella duplikationer som är kända för att vara otillgängliga för Illumina-sekvensering .
En studie publicerad online 2019 visade vidare att med Strand-seq, alla klasser av strukturell variation ≥200 kb inklusive deletioner, duplikationer, inversioner, inverterade duplikationer, balanserade translokationer, obalanserade translokationer, brytning-fusion-brocykel förmedlade komplexa DNA-omarrangemang och kromotrips . händelser detekteras känsligt i enstaka celler eller subkloner, med användning av encellig tri-kanals bearbetning (scTRIP). scTRIP fungerar via gemensam modellering av läsorientering, läsdjup och haplotypfas för att upptäcka SV:er i enstaka celler. Med hjälp av scTRIP löses strukturella varianter av kromosomlängd haplotyp som ger högre känslighet och specificitet för encellsstrukturella variantanrop än andra nuvarande teknologier. Eftersom scTRIP inte kräver läsningar (eller läspar) som överskrider gränserna (eller brytpunkterna) för strukturella varianter i enstaka celler för variantanrop, lider den inte av kända artefakter av encellsmetoder baserade på helgenomamplifiering (dvs. s.k. läs chimär) som tenderar att förvirra strukturell variationsanalys i enstaka celler.
Haplotypning, genomsamling och generering av högupplösta mänskliga genetiska variationskartor
Tidiga genomer är ganska fragmenterade, med oordnade och oorienterade kontiger. Genom att använda Strand-seq får du information om riktning som åtföljer sekvensen, vilket i slutändan hjälper till att lösa placeringen av kontiger. Contigs som finns i samma kromosom kommer att uppvisa samma riktning, förutsatt att SCE-händelser inte har inträffat. Omvänt kommer contigs som finns i olika kromosomer endast att uppvisa samma riktning i 50% av Strand-seq-biblioteken. Ställningar, på varandra följande kontiger som skärs av ett gap, kan lokaliseras på samma sätt.
Samma princip att använda strängriktning för att särskilja stora DNA-molekyler möjliggör användningen av Strand-seq som ett verktyg för att konstruera helkromosomhaplotyper av genetisk variation, från telomer till telomer.
Nya rapporter har visat att Strand-seq kan beräkningsmässigt integreras med långläst sekvenseringsteknologi, med de unika fördelarna med båda teknologierna som möjliggör generering av mycket sammanhängande haplotypupplösta de novo humana genomsammansättningar. Dessa genomiska sammansättningar integrerar alla former av genetisk variation inklusive enstaka nukleotidvarianter, indelar och strukturell variation även över komplexa genomiska loci, och har nyligen använts för att generera omfattande haplotypmedvetna kartor över strukturell variation i en mångfaldspanel av människor från distinkta anor.
Överväganden
Möjligheten att BrdU ersätts med tymin i det genomiska DNA:t kan inducera dubbelsträngade kromosomavbrott och specifikt resultera i SCE har tidigare diskuterats i litteraturen. Dessutom har BrdU-inkorporering föreslagits för att störa strängsegregeringsmönster. Om så är fallet skulle det uppstå en inflation i falskt positiva SCE som kan komma att kommenteras. Därför bör många celler analyseras med hjälp av Strand-seq-protokollet för att säkerställa att SCE faktiskt finns i befolkningen. För strukturella varianter som detekteras i enstaka celler kan detektion av samma variant (på samma haplotyp) i mer än en cell utesluta BrdU-inkorporering som en möjlig orsak.
Antalet enstaka cellsträngar som behöver sekvenseras för att en annotering ska accepteras har ännu inte föreslagits och är starkt beroende av de frågor som ställs. Eftersom Strand-seq bygger på encellssekvenseringstekniker, måste man ta hänsyn till problemen med encellssekvensering också. Dessa inkluderar de bristande standarderna för cellisolering och amplifiering. Även om tidigare Strand-seq-studier isolerade celler med hjälp av FACS, mikrofluidik också som ett attraktivt alternativ. PCR har visat sig producera mer felaktiga amplifieringsprodukter jämfört med strängförskjutningsbaserade metoder som MDA och MALBAC, medan de två sistnämnda teknikerna genererar chimära avläsningar som en biprodukt som kan resultera i felaktiga strukturella variationsanrop. MDA och MALBAC genererar också fler bortfall än Strand-seq under SV-detektering eftersom de kräver läsningar som korsar brytpunkten för en SV för att möjliggöra dess detektering (detta krävs inte för någon av de olika SV-klasserna som Strand-seq kan detektera). Strängförskjutningsamplifiering tenderar också att generera mer sekvens och längre produkter, vilket kan vara fördelaktigt för sekvenseringsteknologier för långa avläsningar.
Biblioteksresurser om encellig DNA-mallsträngssekvensering |