Hagelgevärssekvensering

Inom genetiken är hagelgevärssekvensering en metod som används för att sekvensera slumpmässiga DNA - strängar. Den heter i analogi med den snabbt expanderande, kvasi-slumpmässiga skottgrupperingen av ett hagelgevär .

Kedjetermineringsmetoden för DNA-sekvensering ("Sanger - sekvensering") kan endast användas för korta DNA-strängar på 100 till 1000 baspar . På grund av denna storleksgräns delas längre sekvenser upp i mindre fragment som kan sekvenseras separat, och dessa sekvenser sätts samman för att ge den övergripande sekvensen.

Vid hagelgevärssekvensering bryts DNA slumpmässigt upp i många små segment, som sekvenseras med kedjeavslutningsmetoden för att erhålla läsningar . Flera överlappande avläsningar för mål-DNA erhålls genom att utföra flera omgångar av denna fragmentering och sekvensering. Datorprogram använder sedan de överlappande ändarna av olika läsningar för att sätta ihop dem i en kontinuerlig sekvens.

Hagelgevärssekvensering var en av prekursorteknologierna som var ansvarig för att möjliggöra sekvensering av hela genomet .

Exempel

Tänk till exempel på följande två omgångar med hagelgevär:

Strå Sekvens
Original AGCATGCTGCAGTCATGCTTAGGCTA
Första hagelgevärssekvensen
AGCATGCTGCAGTCATGCT------- ------------------TAGGCTA
Andra hagelgevärssekvensen
AGCATG---------------------- ------CTGCAGTCATGCTTAGGCTA
Rekonstruktion AGCATGCTGCAGTCATGCTTAGGCTA

I detta extremt förenklade exempel täcker ingen av läsningarna den ursprungliga sekvensens fulla längd, men de fyra läsningarna kan sättas ihop till den ursprungliga sekvensen genom att använda överlappningen av deras ändar för att justera och ordna dem. I verkligheten använder denna process enorma mängder information som är full av oklarheter och sekvenseringsfel. Sammansättning av komplexa genom kompliceras dessutom av det stora överflöd av repetitiva sekvenser , vilket betyder att liknande korta läsningar kan komma från helt olika delar av sekvensen.

Många överlappande läsningar för varje segment av det ursprungliga DNA:t är nödvändiga för att övervinna dessa svårigheter och korrekt sammanställa sekvensen. Till exempel, för att slutföra Human Genome Project , sekvenserades det mesta av det mänskliga genomet med 12X eller mer täckning ; det vill säga varje bas i den slutliga sekvensen var närvarande i genomsnitt i 12 olika läsningar. Ändå har nuvarande metoder misslyckats med att isolera eller sammanställa tillförlitlig sekvens för ungefär 1% av det ( eukromatiska ) mänskliga genomet, från och med 2004.

Hagelgevärssekvensering av hela genomet

Historia

Hagelgevärssekvensering av hela genomet för små (4000 till 7000 baspar) genom föreslogs först 1979. Det första genomet som sekvenserades med hagelgevärssekvensering var det från blomkålsmosaikvirus, publicerat 1981.

Parade sekvenser

En bredare tillämpning gynnades av parvis ändsekvensering , känd i vardagsspråket som dubbelpipigt hagelgevärssekvensering . När sekvenseringsprojekt började ta sig an längre och mer komplicerade DNA-sekvenser, började flera grupper inse att användbar information kunde erhållas genom att sekvensera båda ändarna av ett DNA-fragment. Även om det var mer besvärligt att sekvensera båda ändarna av samma fragment och att hålla reda på de parade datan än att sekvensera en enda ände av två distinkta fragment, vetskapen om att de två sekvenserna var orienterade i motsatta riktningar och var ungefär lika långa som ett fragment från varandra. annat var värdefullt för att rekonstruera sekvensen för det ursprungliga målfragmentet.

Historia . Den första publicerade beskrivningen av användningen av parade ändar var 1990 som en del av sekvenseringen av det mänskliga HGPRT- lokuset, även om användningen av parade ändar begränsades till att stänga luckor efter tillämpningen av en traditionell hagelgevärssekvensering. Den första teoretiska beskrivningen av en ren parvis ändsekvenseringsstrategi, med antagande av fragment av konstant längd, var 1991. Vid den tiden fanns det enighet i samhället om att den optimala fragmentlängden för parvis ändsekvensering skulle vara tre gånger sekvensens läslängd. 1995, Roach et al. introducerade innovationen att använda fragment av varierande storlek och visade att en ren parvis slutsekvenseringsstrategi skulle vara möjlig på stora mål. Strategin antogs därefter av The Institute for Genomic Research (TIGR) för att sekvensera genomet av bakterien Haemophilus influenzae 1995, och sedan av Celera Genomics för att sekvensera genomet av Drosophila melanogaster (fruktflugan) 2000, och därefter det mänskliga genomet.

Närma sig

För att tillämpa strategin klipps en DNA-sträng med hög molekylvikt till slumpmässiga fragment, storleksselekteras (vanligtvis 2, 10, 50 och 150 kb) och klonas in i en lämplig vektor . Klonerna sekvenseras sedan från båda ändarna med användning av kedjetermineringsmetoden som ger två korta sekvenser. Varje sekvens kallas för en slutläsning eller läs 1 och läs 2 och två läsningar från samma klon kallas för partnerpar . Eftersom kedjeavslutningsmetoden vanligtvis bara kan ge läsningar mellan 500 och 1000 baser långa, i alla utom de minsta klonerna, partnerpar sällan att överlappa varandra.

hopsättning

Den ursprungliga sekvensen rekonstrueras från läsningarna med hjälp av sekvensmonteringsmjukvara . Först samlas överlappande läsningar in i längre sammansatta sekvenser som kallas contigs . Contigs kan länkas samman till byggnadsställningar genom att följa anslutningar mellan kompispar . Avståndet mellan contigs kan härledas från parpositionerna om den genomsnittliga fragmentlängden för biblioteket är känd och har ett smalt avvikelsefönster. Beroende på storleken på gapet mellan contigs kan olika tekniker användas för att hitta sekvensen i luckorna. Om gapet är litet (5-20 kb) krävs användning av polymeraskedjereaktion (PCR) för att amplifiera regionen, följt av sekvensering. Om gapet är stort (>20 kb) så klonas det stora fragmentet i speciella vektorer såsom bakteriella artificiella kromosomer (BAC) följt av sekvensering av vektorn.

För-och nackdelar

Förespråkare för detta tillvägagångssätt hävdar att det är möjligt att sekvensera hela genomet på en gång med hjälp av stora arrayer av sekvenserare, vilket gör hela processen mycket effektivare än mer traditionella metoder. Belackare hävdar att även om tekniken snabbt sekvenserar stora regioner av DNA, är dess förmåga att korrekt länka dessa regioner misstänkt, särskilt för genom med upprepade regioner. När sekvensmonteringsprogrammen blir mer sofistikerade och datorkraften blir billigare, kan det vara möjligt att övervinna denna begränsning. [ citat behövs ]

Rapportering

Täckning (läs djup eller djup) är det genomsnittliga antalet avläsningar som representerar en given nukleotid i den rekonstruerade sekvensen. Det kan beräknas från längden på det ursprungliga genomet ( G ), antalet läsningar ( N ) och den genomsnittliga läslängden ( L ) som . Till exempel kommer ett hypotetiskt genom med 2 000 baspar rekonstruerat från 8 läsningar med en genomsnittlig längd på 500 nukleotider att ha 2x redundans. Denna parameter gör det också möjligt att uppskatta andra kvantiteter, såsom procentandelen av genomet som täcks av avläsningar (ibland även kallat täckning). En hög täckning i hagelgevärssekvensering är önskvärd eftersom den kan övervinna fel i basanrop och montering. Ämnet för DNA-sekvenseringsteori tar upp sambanden mellan sådana kvantiteter.

Ibland görs skillnad mellan sekvenstäckning och fysisk täckning . Sekvenstäckning är det genomsnittliga antalet gånger en bas läses (som beskrivits ovan). Fysisk täckning är det genomsnittliga antalet gånger en bas läses eller sträcks av parade avläsningar.

Hierarkisk hagelgevärssekvensering

Vid sekvensering av hagelgevär i hela genomet (överst) klipps hela genomet slumpmässigt till små fragment (lämplig storlek för sekvensering) och sätts sedan ihop igen. I hierarkisk hagelgevärssekvensering (nederst) bryts genomet först upp i större segment. Efter att ordningen för dessa segment har härletts klipps de ytterligare till fragment av lämplig storlek för sekvensering.

Även om hagelgevärssekvensering i teorin kan tillämpas på ett genom av vilken storlek som helst, var dess direkta tillämpning på sekvensering av stora genom (till exempel det mänskliga genomet ) begränsad fram till slutet av 1990-talet, då tekniska framsteg gjorde det praktiskt att hantera de stora mängderna komplexa data involverade i processen. Historiskt sett ansågs fullgenoms hagelgevärssekvensering vara begränsad av både storleken på stora genom och av komplexiteten som adderas av den höga andelen repetitivt DNA (mer än 50 % för det mänskliga genomet) som finns i stora genom. Det var inte allmänt accepterat att en fullgenom hagelgevärsekvens av ett stort genom skulle ge tillförlitliga data. Av dessa skäl måste andra strategier som sänkte beräkningsbelastningen för sekvenssammansättning användas innan hagelgevärssekvensering utfördes. fysisk karta med låg upplösning av genomet före faktisk sekvensering. Från denna karta väljs ett minimalt antal fragment som täcker hela kromosomen för sekvensering. På detta sätt krävs den minsta mängden sekvensering och montering med hög genomströmning.

Det amplifierade genomet klipps först i större bitar (50-200 kb) och klonas in i en bakterievärd med hjälp av BAC eller P1-härledda artificiella kromosomer (PAC). Eftersom flera genomkopior har klippts slumpmässigt, har fragmenten som finns i dessa kloner olika ändar, och med tillräcklig täckning (se avsnittet ovan) är det teoretiskt möjligt att hitta en ställning av BAC-kontiger som täcker hela genomet. Denna byggnadsställning kallas en kakelbana .

En BAC-kontig som täcker hela det genomiska intresseområdet utgör plattsättningsbanan.

När en kakelbana har hittats, klipps BAC:erna som bildar denna väg slumpmässigt till mindre fragment och kan sekvenseras med hjälp av hagelgevärsmetoden i mindre skala.

Även om de fullständiga sekvenserna av BAC-kontigerna inte är kända, är deras orienteringar i förhållande till varandra kända. Det finns flera metoder för att härleda denna ordning och välja de BAC som utgör en plattsättningsbana. Den allmänna strategin innefattar att identifiera klonernas positioner i förhållande till varandra och sedan välja ut de minsta klonerna som krävs för att bilda en sammanhängande ställning som täcker hela området av intresse. Ordningen på klonerna härleds genom att bestämma det sätt på vilket de överlappar varandra. Överlappande kloner kan identifieras på flera sätt. En liten radioaktivt eller kemiskt märkt sond som innehåller ett sekvensmärkt ställe (STS) kan hybridiseras till en mikromatris på vilken klonerna trycks. På så sätt identifieras alla kloner som innehåller en viss sekvens i genomet. Änden av en av dessa kloner kan sedan sekvenseras för att ge en ny sond och processen upprepas i en metod som kallas kromosomvandring.

Alternativt kan BAC-biblioteket restriktionssmältas . Två kloner som har flera fragmentstorlekar gemensamma antas överlappa eftersom de innehåller flera på liknande sätt åtskilda restriktionsställen gemensamma. Denna metod för genomisk kartläggning kallas restriktionsfingeravtryck eftersom den identifierar en uppsättning restriktionsställen som finns i varje klon. När överlappningen mellan klonerna har hittats och deras ordning i förhållande till genomet är känd, sekvenseras en byggnadsställning av en minimal undergrupp av dessa kontiger som täcker hela genomet.

Eftersom det innebär att först skapa en lågupplöst karta över genomet, är hierarkisk hagelgevärssekvensering långsammare än helgenoms hagelgevärssekvensering, men förlitar sig mindre mycket på datoralgoritmer än hagelgevärssekvensering av hela genomet. Processen med omfattande BAC-biblioteksskapande och val av beläggningsväg gör emellertid hierarkisk hagelgevärssekvensering långsam och arbetskrävande. Nu när tekniken är tillgänglig och tillförlitligheten hos data demonstrerad, har hastigheten och kostnadseffektiviteten för helgenom hagelgevärssekvensering gjort det till den primära metoden för genomsekvensering.

Nyare sekvenseringsteknik

Den klassiska hagelgevärssekvenseringen baserades på Sanger-sekvenseringsmetoden: detta var den mest avancerade tekniken för att sekvensera genom från omkring 1995–2005. Hagelgevärsstrategin tillämpas fortfarande idag, men med andra sekvenseringsteknologier, såsom kortläst sekvensering och långläst sekvensering .

Kortläst eller "nästa generations" sekvensering ger kortare läsningar (allt från 25–500 bp) men många hundratusentals eller miljoner läsningar på relativt kort tid (i storleksordningen en dag). Detta resulterar i hög täckning, men monteringsprocessen är mycket mer beräkningsintensiv. Dessa teknologier är mycket överlägsna Sanger-sekvensering på grund av den höga datavolymen och den relativt korta tid det tar att sekvensera ett helt genom.

Metagenomisk hagelgevärssekvensering

Att ha avläsningar av 400-500 baspars längd är tillräckligt för att bestämma arten eller stammen av organismen där DNA kommer ifrån, förutsatt att dess genom redan är känt, genom att till exempel använda en k-mer- baserad taxonomisk klassificeringsprogramvara . Med miljontals avläsningar från nästa generations sekvensering av ett miljöprov, är det möjligt att få en fullständig överblick över alla komplexa mikrobiom med tusentals arter, som tarmfloran . Fördelarna jämfört med 16S rRNA amplikonsekvensering är: inte begränsad till bakterier; klassificering på stamnivå där amplikonsekvensering endast får släktet; och möjligheten att extrahera hela gener och specificera deras funktion som en del av metagenomet. Känsligheten hos metagenomisk sekvensering gör den till ett attraktivt val för klinisk användning . Det understryker emellertid problemet med kontaminering av provet eller sekvenseringsrörledningen.

Se även

Vidare läsning

externa länkar

Public Domain Den här artikeln innehåller material som är allmän egendom från NCBI Handbook . Nationellt centrum för bioteknikinformation .