Byggställningar (bioinformatik)

Detta är ett exempel på en ställning.

Ställningar är en teknik som används inom bioinformatik . Den definieras enligt följande:

Länka samman en icke sammanhängande serie av genomiska sekvenser till en ställning, bestående av sekvenser separerade av luckor med känd längd. Sekvenserna som är länkade är typiskt sammanhängande sekvenser som motsvarar läsöverlappningar.

När man skapar ett utkast till genom, sätts individuella avläsningar av DNA andra ihop till contigs , som på grund av sin sammansättning har luckor mellan sig. Nästa steg är att sedan överbrygga klyftorna mellan dessa kontiger för att skapa en ställning. Detta kan göras med antingen optisk mappning eller parsekvensering.

Monteringsmjukvara

Sekvenseringen av Haemophilus influenzae -genomet markerade tillkomsten av byggnadsställningar. Det projektet genererade totalt 140 contigs, som var orienterade och länkade med hjälp av parade ändläsningar. Framgången med denna strategi föranledde skapandet av programvaran Grouper, som ingick i genomsamlare. Fram till 2001 var detta den enda ställningsmjukvaran. [ citat behövs ] Efter att Human Genome Project och Celera bevisat att det var möjligt att skapa ett stort utkast till genom, skapades flera andra liknande program. Bambus skapades 2003 och var en omskrivning av den ursprungliga grouper-mjukvaran, men gav forskare möjligheten att justera ställningsparametrar. Denna programvara möjliggjorde även valfri användning av andra länkningsdata, såsom contig order i ett referensgenom.

Algoritmer som används av assemblerprogram är mycket olika och kan klassificeras som baserade på iterativ markörordning eller grafbaserade. Grafbaserade applikationer har kapacitet att beställa och orientera över 10 000 markörer, jämfört med de maximala 3000 markörer som kan använda iterativa markörer. Algoritmer kan vidare klassificeras som giriga, icke giriga, konservativa eller icke-konservativa. Bambus använder en girig algoritm, definierad som sådan eftersom den sammanfogar med flest länkar först. Algoritmen som används av Bambus 2 tar bort repetitiva contigs innan de orienteras och ordnas i ställningar. SSPACE använder också en girig algoritm som börjar bygga sin första ställning med den längsta contig som tillhandahålls av sekvensdata. SSPACE är det mest citerade monteringsverktyget i biologipublikationer, troligtvis på grund av att det är klassat som ett betydligt mer intuitivt program att installera och köra än andra montörer.

Under de senaste åren har det skett en tillkomst av nya typer av assemblers som kan integrera länkdata från flera typer av länkkartor. ALLMAPS är det första av sådana program och kan kombinera data från genetiska kartor, skapade med hjälp av SNP eller rekombinationsdata, med fysiska kartor som optiska eller synteny-kartor.

En del mjukvara, som ABySS och SOAPdenovo, innehåller algoritmer för att fylla mellanrum som, även om de inte skapar några nya ställningar, tjänar till att minska gaplängden mellan sammansättningar av individuella ställningar. Ett fristående program, GapFiller, kan täppa till en större mängd luckor och använda mindre minne än luckfyllningsalgoritmer som finns i assemblerprogram.

Utturkar et al. undersökte nyttan av flera olika assemblerprogram i kombination med hybridsekvensdata. De drog slutsatsen att ALLPATHS-LG- och SPAdes -algoritmerna var överlägsna andra montörer när det gäller antalet, maximala längden på och N50-längden av contigs och ställningar.

Ställningar och nästa generations sekvensering

De flesta nästa generations sekvenseringsplattformar med hög genomströmning ger kortare läslängder jämfört med Sanger-sekvensering . Dessa nya plattformar kan generera stora mängder data under korta tidsperioder, men tills metoder utvecklades för de novo-sammansättning av stora genom från korta lässekvenser, förblev Sanger-sekvensering standardmetoden för att skapa ett referensgenom. Även om Illumina-plattformar nu kan generera avläsningar av kompispar med genomsnittliga längder på 150 bp, kunde de ursprungligen bara generera avläsningar på 75 bp eller mindre, vilket fick många människor inom vetenskapssamhället att tvivla på att ett tillförlitligt referensgenom någonsin skulle kunna konstrueras med kort läsa teknik. Den ökade svårigheten att montera sammansättningar och ställningar förknippade med de nya teknologierna har skapat en efterfrågan på kraftfulla nya datorprogram och algoritmer som kan förstå data.

En strategi som inkluderar nästa generations sekvensering med hög genomströmning är hybridsekvensering, där flera sekvenseringsteknologier används på olika täckningsnivåer, så att de kan komplettera varandra med sina respektive styrkor. Utgivningen av SMRT-plattformen, från Pacific Biosciences, markerade början på sekvensering av en enda molekyl och långläst teknik. Det har visat sig att 80-100X täckning med SMRT-teknik, som genererar medelavläsning med längder på 5456bp, vanligtvis är tillräckligt för att skapa en färdig de novo-sammansättning för prokaryota organismer. När medlen för den täckningsnivån inte är tillgängliga för en forskare, kan de välja att använda en hybrid metod.

Goldberg et al. utvärderade effektiviteten av att kombinera pyrosequencing med hög genomströmning med traditionell Sanger-sekvensering. De kunde kraftigt öka N50-kontiglängden och minska gaplängden och till och med stänga ett mikrobiellt genom med detta tillvägagångssätt.

Optisk kartläggning

Det har visat sig att integrering av länkkartor kan hjälpa de novo sammansättningar med lång räckvidd, kromosomskala rekombinationsdata, utan vilka sammansättningar kan vara föremål för makrobeställningsfel. Optisk kartläggning är processen att immobilisera DNA på ett objektglas och smälta det med restriktionsenzymer. Fragmentändarna märks sedan med fluorescens och sys ihop igen. Under de senaste två decennierna har optisk kartläggning varit oöverkomligt dyr, men de senaste tekniska framstegen har minskat kostnaderna avsevärt.

Se även