Tredje generationens sekvensering

Tredje generationens sekvensering (även känd som långläst sekvensering ) är en klass av DNA-sekvenseringsmetoder som för närvarande är under aktiv utveckling.

Tredje generationens sekvenseringsteknik har förmågan att producera betydligt längre läsningar än andra generationens sekvensering , även känd som nästa generations sekvensering. En sådan fördel har kritiska implikationer för både genomvetenskap och studiet av biologi i allmänhet. Tredje generationens sekvenseringsdata har dock mycket högre felfrekvenser än tidigare teknologier, vilket kan komplicera nedströms genomsammansättning och analys av de resulterande data. Dessa tekniker är under aktiv utveckling och det förväntas bli förbättringar av de höga felfrekvenserna. För applikationer som är mer toleranta mot felfrekvenser, såsom anrop av strukturella varianter, har tredje generationens sekvensering visat sig överträffa befintliga metoder, även på ett lågt djup av sekvensering.

Aktuell teknik

Sekvenseringstekniker med ett annat tillvägagångssätt än andra generationens plattformar beskrevs först som "tredje generationen" 2008–2009.

Det finns flera företag för närvarande i hjärtat av utvecklingen av tredje generationens sekvenseringsteknologi, nämligen Pacific Biosciences , Oxford Nanopore Technology , Quantapore (CA-USA) och Stratos (WA-USA). Dessa företag tar fundamentalt olika tillvägagångssätt för att sekvensera enstaka DNA-molekyler.

PacBio utvecklade sekvenseringsplattformen för enmolekyls realtidssekvensering (SMRT), baserad på egenskaperna hos nolllägesvågledare . Signaler är i form av fluorescerande ljusemission från varje nukleotid inkorporerad av ett DNA-polymeras bundet till botten av zL-brunnen.

Oxford Nanopores teknologi innebär att en DNA-molekyl passerar genom en porstruktur i nanoskala och sedan mäter förändringar i det elektriska fältet som omger poren; medan Quantapore har en annan proprietär nanopore-strategi. Stratos Genomics placerar ut DNA-baserna med polymera inlägg, " Xpandomers ", för att kringgå signal-to-brus-utmaningen från nanopore ssDNA-läsning.

Också anmärkningsvärt är Helicos enmolekylära fluorescensmetod, men företaget gick i konkurs hösten 2015 .

Fördelar

Längre läsningar

Jämfört med den nuvarande generationen av sekvenseringsteknologier har tredje generationens sekvensering den uppenbara fördelen att producera mycket längre läsningar. Det förväntas att dessa längre läslängder kommer att lindra många beräkningsutmaningar kring genomsamling, transkriptrekonstruktion och metagenomik bland andra viktiga områden inom modern biologi och medicin.

Det är välkänt att eukaryota genom inklusive primater och människor är komplexa och har ett stort antal långa upprepade regioner. Korta läsningar från andra generationens sekvensering måste tillgripa approximativa strategier för att härleda sekvenser över långa intervall för montering och genetiska variantanrop. Parslutläsningar har utnyttjats av andra generationens sekvensering för att bekämpa dessa begränsningar. Exakta fragmentlängder av parändar är dock ofta okända och måste också uppskattas. Genom att göra långa läslängder möjliga har tredje generationens sekvenseringsteknologier klara fördelar.

Epigenetik

Epigenetiska markörer är stabila och potentiellt ärftliga modifieringar av DNA-molekylen som inte finns i dess sekvens. Ett exempel är DNA-metylering vid CpG-ställen, som har visat sig påverka genuttryck. Histonmodifieringar är ett annat exempel. Den nuvarande generationen av sekvenseringsteknologier förlitar sig på laboratorietekniker som ChIP-sekvensering för detektering av epigenetiska markörer. Dessa tekniker involverar taggning av DNA-strängen, brytning och filtrering av fragment som innehåller markörer, följt av sekvensering. Tredje generationens sekvensering kan möjliggöra direkt detektering av dessa markörer på grund av deras distinkta signal från de andra fyra nukleotidbaserna.

Bärbarhet och hastighet

MinION Portable Gene Sequencer, Oxford Nanopore Technologies

Andra viktiga fördelar med tredje generationens sekvenseringsteknologier inkluderar portabilitet och sekvenseringshastighet. Eftersom minimal provförbehandling krävs i jämförelse med andra generationens sekvensering, kan mindre utrustningar utformas. Oxford Nanopore Technology har nyligen kommersialiserat MinION-sequencern . Denna sekvenseringsmaskin är ungefär lika stor som ett vanligt USB-minne och kan enkelt användas genom att ansluta till en bärbar dator. Dessutom, eftersom sekvenseringsprocessen inte är parallelliserad över regioner i genomet, kan data samlas in och analyseras i realtid. Dessa fördelar med tredje generationens sekvensering kan vara väl lämpade i sjukhusmiljöer där snabb och på plats datainsamling och analys krävs.

Utmaningar

Tredje generationens sekvensering, som den ser ut för närvarande, står inför viktiga utmaningar främst kring noggrann identifiering av nukleotidbaser; felfrekvensen är fortfarande mycket högre jämfört med andra generationens sekvensering. Detta beror i allmänhet på instabilitet hos det involverade molekylära maskineriet. Till exempel, i PacBios singelmolekylära och realtidssekvenseringsteknologi blir DNA-polymerasmolekylen alltmer skadad när sekvenseringsprocessen sker. Dessutom, eftersom processen sker snabbt, kan signalerna som avges av individuella baser bli suddiga av signaler från angränsande baser. Detta innebär en ny beräkningsutmaning för att dechiffrera signalerna och följaktligen härleda sekvensen. Metoder som Hidden Markov Models, till exempel, har utnyttjats för detta ändamål med viss framgång.

I genomsnitt delar olika individer av den mänskliga befolkningen på cirka 99,9% av sina gener. Med andra ord, ungefär bara en av tusen baser skulle skilja sig åt mellan två personer. De höga felfrekvenserna involverade i tredje generationens sekvensering är oundvikligen problematiska i syfte att karakterisera individuella skillnader som finns mellan medlemmar av samma art.

Genom montering

Genomsammansättning är rekonstruktionen av hela genomets DNA-sekvenser. Detta görs i allmänhet med två fundamentalt olika tillvägagångssätt.

Referensjustering

När ett referensgenom är tillgängligt, vilket man är i fallet med människa, skulle nysekvenserade läsningar helt enkelt kunna anpassas till referensgenomet för att karakterisera dess egenskaper. En sådan referensbaserad montering är snabb och enkel men har nackdelen att "gömma" nya sekvenser och varianter av stort antal kopior. Dessutom finns det ännu inte referensgenom för de flesta organismer.

De novo montering

De novo assembly är den alternativa genommonteringsmetoden för referensanpassning. Det hänvisar till rekonstruktionen av hela genomsekvenser helt från råsekvensläsningar. Denna metod skulle väljas när det inte finns något referensgenom, när arten av den givna organismen är okänd som i metagenomics , eller när det finns genetiska varianter av intresse som kanske inte kan detekteras genom referensgenomanpassning.

Med tanke på de korta läsningar som produceras av den nuvarande generationen av sekvenseringsteknologier är de novo-montering ett stort beräkningsproblem. Det närmar sig normalt genom en iterativ process för att hitta och koppla samman sekvensläsningar med förnuftiga överlappningar. Olika beräknings- och statistiska tekniker, såsom de bruijn-grafer och överlappande layoutkonsensusgrafer, har använts för att lösa detta problem. Icke desto mindre, på grund av den mycket repetitiva naturen hos eukaryota genom, är korrekt och fullständig rekonstruktion av genomsekvenser i de novo-montering fortfarande utmanande. Avläsningar av parslut har utsetts som en möjlig lösning, även om exakta fragmentlängder ofta är okända och måste uppskattas.

Hybridsammansättning – användning av läsningar från 3:e generationens sekvenseringsplattformar med korta läsningar från 2:a generationens plattformar – kan användas för att lösa tvetydigheter som finns i genom som tidigare satts ihop med andra generationens sekvensering. Korta andra generationens läsningar har också använts för att korrigera fel som finns i den långa tredje generationens läsningar.

Hybrid montering

Långa läslängder som erbjuds av tredje generationens sekvensering kan lindra många av de utmaningar som för närvarande står inför de novo-genomsamlingar. Till exempel, om en hel repetitiv region kan sekvenseras entydigt i en enda läsning, skulle ingen beräkningsslutledning krävas. Beräkningsmetoder har föreslagits för att lindra problemet med höga felfrekvenser. Till exempel, i en studie, visades det att de novo-sammansättning av ett mikrobiellt genom med enbart PacBio-sekvensering fungerade bättre än andra generationens sekvensering.

Tredje generationens sekvensering kan också användas i samband med andra generationens sekvensering. Detta tillvägagångssätt kallas ofta hybridsekvensering. Till exempel kan långa läsningar från tredje generationens sekvensering användas för att lösa tvetydigheter som finns i genom som tidigare satts ihop med andra generationens sekvensering. Å andra sidan har korta andra generationens läsningar använts för att korrigera fel som finns i den långa tredje generationens läsningar. I allmänhet har detta hybridtillvägagångssätt visat sig förbättra de novo-genomsamlingarna avsevärt.

Epigenetiska markörer

DNA-metylering (DNAm) – den kovalenta modifieringen av DNA vid CpG-ställen som resulterar i fästa metylgrupper – är den bäst förstådda komponenten i epigenetiskt maskineri. DNA-modifieringar och resulterande genuttryck kan variera mellan celltyper, tidsmässig utveckling, med genetiska anor, kan förändras på grund av miljöstimuli och är ärftliga. Efter upptäckten av DNAm har forskare också funnit dess samband med sjukdomar som cancer och autism . I detta sjukdomsetiologiska sammanhang är DNAm en viktig väg för vidare forskning.

Fördelar

De nuvarande vanligaste metoderna för att undersöka metyleringstillstånd kräver en analys som fragmenterar DNA före standard andra generationens sekvensering på Illumina -plattformen. Som ett resultat av kort läslängd går information om de längre mönstren av metylering förlorad. Tredje generationens sekvenseringsteknologier erbjuder möjligheten för enstaka molekylers realtidssekvensering av längre avläsningar, och detektering av DNA-modifiering utan den tidigare nämnda analysen.

PacBio SMRT-teknologi och Oxford Nanopore kan använda oförändrat DNA för att detektera metylering.

Oxford Nanopore Technologies MinION har använts för att detektera DNAm . När varje DNA-sträng passerar genom en por producerar den elektriska signaler som har visat sig vara känsliga för epigenetiska förändringar i nukleotiderna, och en dold Markov-modell (HMM) användes för att analysera MinION-data för att detektera 5-metylcytosin (5mC) DNA modifiering. Modellen tränades med hjälp av syntetiskt metylerat E. coli- DNA och de resulterande signalerna mättes med nanopore-teknologin. Sedan användes den tränade modellen för att detektera 5mC i MinION genomiska avläsningar från en mänsklig cellinje som redan hade en referensmetylom. Klassificeraren har 82 % noggrannhet i slumpmässigt samplade singleton-platser, vilket ökar till 95 % när strängare trösklar tillämpas.

Andra metoder adresserar olika typer av DNA-modifieringar med MinION-plattformen. Stoiber et al. undersökte 4-metylcytosin (4mC) och 6-metyladenin (6mA), tillsammans med 5mC, och skapade även programvara för att direkt visualisera rå MinION-data på ett människovänligt sätt. Här fann de att i E. coli , som har en känd metylom , kan händelsefönster på 5 baspar långa användas för att dela och statistiskt analysera de råa elektriska MinION-signalerna. Ett enkelt Mann-Whitney U-test kan detektera modifierade delar av E. coli- sekvensen, samt ytterligare dela upp modifieringarna i 4mC, 6mA eller 5mC regioner.

Det verkar troligt att MinION-rådata i framtiden kommer att användas för att detektera många olika epigenetiska märken i DNA.

PacBio- sekvensering har också använts för att detektera DNA-metylering. I denna plattform motsvarar pulsbredden – bredden på en fluorescerande ljuspuls – en specifik bas. 2010 visades det att interpulsavståndet i kontrollprov och metylerade prover är olika, och det finns en "signatur" pulsbredd för varje metyleringstyp. karakteriserades bindningsställena för DNA- metyltransferaser med hjälp av PacBio-plattformen. Detekteringen av N6-metylering i C Elegans visades 2015. DNA-metylering på N 6 -adenin med hjälp av PacBio-plattformen i embryonala musstamceller visades 2016.

Andra former av DNA-modifieringar – från tungmetaller, oxidation eller UV-skador – är också möjliga forskningsvägar med hjälp av Oxford Nanopore och PacBio tredje generationens sekvensering.

Nackdelar

Bearbetning av rådata – såsom normalisering till mediansignalen – behövdes på MinION rådata, vilket minskade teknikens realtidskapacitet. Konsistensen av de elektriska signalerna är fortfarande ett problem, vilket gör det svårt att exakt kalla en nukleotid. MinION har låg genomströmning; eftersom flera överlappande läsningar är svåra att erhålla, leder detta ytterligare till noggrannhetsproblem med nedströms DNA-modifieringsdetektering. Både den dolda Markov-modellen och statistiska metoder som används med MinION-rådata kräver upprepade observationer av DNA-modifieringar för detektion, vilket innebär att individuella modifierade nukleotider måste vara konsekvent närvarande i flera kopior av genomet, t.ex. i flera celler eller plasmider i provet.

Även för PacBio-plattformen, beroende på vilken metylering du förväntar dig att hitta, kan täckningsbehoven variera. Från och med mars 2017 har andra epigenetiska faktorer som histonmodifieringar inte kunnat upptäckas med hjälp av tredje generationens teknologier. Längre metyleringsmönster går ofta förlorade eftersom mindre kontiger fortfarande behöver monteras.

Transkriptomik

Transcriptomics är studiet av transkriptomet , vanligtvis genom att karakterisera de relativa mängderna av budbärar-RNA-molekyler i vävnaden som studeras. Enligt den centrala dogmen inom molekylärbiologin flödar genetisk information från dubbelsträngade DNA-molekyler till enkelsträngade mRNA-molekyler där de lätt kan översättas till funktionsproteinmolekyler. Genom att studera transkriptomet kan man få värdefull insikt i regleringen av genuttryck.

Medan uttrycksnivåer som gennivå kan avbildas mer eller mindre exakt genom andra generationens sekvensering, förblir information på transkriptnivå fortfarande en viktig utmaning. Som en konsekvens förblir rollen av alternativ splitsning i molekylärbiologin i stort sett svårfångad. Tredje generationens sekvenseringsteknologier har lovande möjligheter att lösa detta problem genom att möjliggöra sekvensering av mRNA-molekyler i deras fulla längder.

Alternativ skarvning

Alternativ splitsning (AS) är den process genom vilken en enda gen kan ge upphov till flera distinkta mRNA-transkript och följaktligen olika proteintranslationer. Vissa bevis tyder på att AS är ett allestädes närvarande fenomen och kan spela en nyckelroll för att bestämma fenotyper av organismer, särskilt i komplexa eukaryoter; alla eukaryoter innehåller gener som består av introner som kan genomgå AS. I synnerhet har det uppskattats att AS förekommer i 95 % av alla mänskliga multi-exongener. AS har obestridlig potential att påverka otaliga biologiska processer. Att avancera kunskap inom detta område har avgörande konsekvenser för studiet av biologi i allmänhet.

Transkriptionsrekonstruktion

Den nuvarande generationen av sekvenseringsteknologier producerar endast korta läsningar, vilket sätter enorma begränsningar för förmågan att upptäcka distinkta transkript; korta läsningar måste omvandlas till originalutskrifter som kunde ha gett upphov till de resulterande lästa observationerna. Denna uppgift kompliceras ytterligare av de mycket varierande uttrycksnivåerna över transkript, och följaktligen variabla lästäckningar över genens sekvens. Dessutom kan exoner delas mellan individuella transkript, vilket gör entydiga slutsatser i huvudsak omöjliga. Befintliga beräkningsmetoder gör slutsatser baserade på ackumulering av korta avläsningar vid olika sekvensplatser, ofta genom att göra förenklade antaganden. Manschettknappar har ett sparsamt tillvägagångssätt och försöker förklara alla läsningar med minsta möjliga antal avskrifter. Å andra sidan försöker StringTie att samtidigt uppskatta antalet transkriptioner samtidigt som läsningarna sätts ihop. Dessa metoder, även om de är rimliga, kanske inte alltid identifierar riktiga avskrifter.

En studie publicerad 2008 undersökte 25 olika befintliga transkriptrekonstruktionsprotokoll. Dess bevis antydde att befintliga metoder generellt sett är svaga vid sammansättning av transkript, även om förmågan att upptäcka individuella exoner är relativt intakta. Enligt uppskattningarna är den genomsnittliga känsligheten för att detektera exoner över de 25 protokollen 80 % för Caenorhabditis elegans- gener. I jämförelse minskar transkriptionsidentifieringskänsligheten till 65 %. För människor rapporterade studien en exondetektionskänslighet på i genomsnitt 69% och transkriptdetektionskänsligheten hade ett genomsnitt på bara 33%. Med andra ord, för människor kan befintliga metoder identifiera mindre än hälften av alla befintliga transkript.

Tredje generationens sekvenseringsteknologier har visat lovande utsikter för att lösa problemet med transkriptdetektering såväl som mRNA-överflödsuppskattning på transkriptnivå. Även om felfrekvensen är fortsatt hög, har tredje generationens sekvenseringsteknologier förmågan att producera mycket längre läslängder. Pacific Bioscience har introducerat iso-seq-plattformen och föreslår att mRNA-molekyler ska sekvenseras i full längd. Det förväntas att Oxford Nanopore kommer att lägga fram liknande teknologier. Problemet med högre felfrekvenser kan lindras genom kompletterande kortläsningar av hög kvalitet. Detta tillvägagångssätt har tidigare testats och rapporterats minska felfrekvensen med mer än 3 gånger.

Metagenomik

Metagenomics är analysen av genetiskt material som utvinns direkt från miljöprover.

Fördelar

Den största fördelen med tredje generationens sekvenseringsteknologier inom metagenomik är deras sekvenseringshastighet i jämförelse med andra generationens tekniker. Sekvenseringshastigheten är viktig till exempel i den kliniska miljön (dvs patogenidentifiering ), för att möjliggöra effektiv diagnos och snabba kliniska åtgärder.

Oxford Nanopores MinION användes 2015 för metagenomisk detektion av patogener i realtid i komplexa kliniska prover med hög bakgrund. Den första av ebolavirus (EBV) sekvenserades 44 sekunder efter datainsamling. Det var enhetlig kartläggning av läsningar till genomet; minst en läsning mappad till >88% av genomet. De relativt långa läsningarna möjliggjorde sekvensering av ett nästan komplett viralt genom med hög noggrannhet (97–99 % identitet) direkt från ett primärt kliniskt prov.

En vanlig fylogenetisk markör för mikrobiell gemenskapsdiversitetsstudier är 16S ribosomala RNA- genen. Både MinION och PacBios SMRT-plattform har använts för att sekvensera denna gen. I detta sammanhang var PacBio-felfrekvensen jämförbar med den för kortare läsningar från 454 och Illuminas MiSeq-sekvenseringsplattformar. [ citat behövs ]

Nackdelar

MinIONs höga felfrekvens (~10-40%) förhindrade identifiering av antimikrobiella resistensmarkörer , för vilka en enkel nukleotidupplösning är nödvändig. Av samma anledning identifierades inte eukaryota patogener. Lätthet att överföra kontaminering vid återanvändning av samma flödescell (standardtvättprotokoll fungerar inte) är också ett problem. Unika streckkoder kan möjliggöra mer multiplexering. Dessutom är det mycket svårt att utföra exakt artidentifiering för bakterier , svampar och parasiter , eftersom de delar en större del av genomet, och vissa skiljer sig bara med <5%.

Kostnaden för sekvensering per bas är fortfarande betydligt högre än för MiSeq. Men utsikterna att komplettera referensdatabaser med fullängdssekvenser från organismer under detektionsgränsen från Sanger -metoden; detta kan möjligen i hög grad hjälpa identifieringen av organismer i metagenomik.

Se även