N50, L50 och relaterad statistik

Inom beräkningsbiologi är N50 och L50 statistik över en uppsättning sammanhängande eller ställningslängder . N50 liknar ett medelvärde eller median av längder, men har större vikt som ges till de längre contigerna . Det används flitigt i genommontering , särskilt med hänvisning till kontiglängder inom en utkast till sammansättning. Det finns också relaterade U50 , UL50 , UG50 , UG50% , N90 , NG50 och D50 statistik.

För att ge en bättre bedömning av sammansättningsutdata för virala och mikrobiella datauppsättningar bör ett nytt mått som heter U50 användas. U50 identifierar unika, målspecifika contigs genom att använda ett referensgenom som baslinje, i syfte att kringgå vissa begränsningar som är inneboende i N50 - måttet. Användningen av U50 -måttet möjliggör ett mer exakt mått på monteringsprestanda genom att endast analysera de unika, icke-överlappande kontigerna. De flesta viral och mikrobiell sekvensering har högt bakgrundsljud (dvs värd och andra icke-mål), vilket bidrar till att ha ett skevt, felaktigt representerat N50 -värde - detta korrigeras av U50 .

Definition

N50

N50-statistik definierar monteringskvalitet i termer av angränsning . Givet en uppsättning kontiger N50 som sekvenslängden för den kortaste kontigen vid 50 % av den totala monteringslängden. Det kan ses som punkten för hälften av fördelningens massa; antalet baser från alla contigs längre än N50 kommer att vara nära antalet baser från alla contigs kortare än N50 . Tänk till exempel 9 kontiger med längderna 2,3,4,5,6,7,8,9 och 10; deras summa är 54, hälften av summan är 27, och storleken på genomet råkar också vara 54. 50 % av denna sammansättning skulle vara 10 + 9 + 8 = 27 (halva längden av sekvensen). Sålunda är N50=8, vilket är storleken på contigen som tillsammans med de större contigerna innehåller hälften av sekvensen för ett visst genom. Obs: När man jämför N50-värden från olika sammansättningar måste sammansättningsstorlekarna vara av samma storlek för att N50 ska vara meningsfull.

N50 kan beskrivas som en viktad medianstatistik så att 50 % av hela sammansättningen finns i kontiger eller ställningar som är lika med eller större än detta värde.

L50

Givet en uppsättning av contigs, var och en med sin egen längd, definieras L50 som antalet minsta antal contigs vars längdsumma utgör hälften av genomstorleken. Från exemplet ovan är L50=3.

N90

N90 -statistiken är mindre än eller lika med N50 -statistiken; det är den längd för vilken samlingen av alla kontiger av den längden eller längre innehåller minst 90 % av summan av längderna av alla contigs.

NG50

Observera att N50 beräknas i samband med monteringsstorleken snarare än genomstorleken. Därför är jämförelser av N50-värden härledda från sammansättningar av signifikant olika längder vanligtvis inte informativa, även om det gäller samma genom. För att komma till rätta med detta kom författarna till Assemblathon-tävlingen på en ny åtgärd som heter NG50 . NG50 -statistiken är densamma som N50 förutom att det är 50 % av den kända eller uppskattade genomstorleken som måste vara av NG50-längden eller längre. Detta möjliggör meningsfulla jämförelser mellan olika sammansättningar. I det typiska fallet att sammansättningsstorleken inte är större än genomstorleken, kommer NG50-statistiken inte att vara mer än N50-statistiken.

D50

D50-statistiken ( även kallad D50-test ) liknar N50 -statistiken i definition även om den i allmänhet inte används för att beskriva genomsammansättningar. D50 - statistiken är det lägsta värdet d för vilket summan av längderna av de största d- längderna är minst 50 % av summan av alla längderna.

U50

U50 är längden på den minsta contig så att 50 % av summan av alla unika, målspecifika contigs finns i contigs av storlek U50 eller större.

UL50

UL50 är antalet contigs vars längdsumma ger U50.

UG50

UG50 är längden på den minsta contig så att 50 % av referensgenomet finns i unika, målspecifika contigs av storlek UG50 eller större.

UG50 %

UG50 % är den uppskattade procentuella täckningslängden för UG50 i direkt relation till referensgenomets längd. Beräkningen är (100 × (UG50/Längd på referensgenomet). UG50% , som ett procentbaserat mått, kan användas för att jämföra sammansättningsresultat från olika prover eller studier.

Exempel

Betrakta två fiktiva, mycket förenklade genomsammansättningar, A och B, som härrör från två olika arter. Sammansättning A innehåller sex kontiger med längderna 80 kbp , 70 kbp, 50 kbp, 40 kbp, 30 kbp och 20 kbp. Summan av aggregat A är 290 kbp, N50-kontiglängden är 70 kbp eftersom 80 + 70 är större än 50 % av 290, och L50-kontigantalet är 2 kontig. Kontiglängderna för montering B är desamma som för sammansättning A, förutom närvaron av två ytterligare sammansättningar med längder på 10 kbp och 5 kbp. Storleken på sammansättning B är 305 kbp, N50-kontig-längden sjunker till 50 kbp eftersom 80 + 70 + 50 är större än 50 % av 305, och L50-kontigantalet är 3 contigs. Det här exemplet illustrerar att man ibland kan öka N50-längden helt enkelt genom att ta bort några av de kortaste kontigerna eller ställningarna från en sammansättning.

Om den uppskattade eller kända storleken på genomet från den fiktiva arten A är 500 kbp så är NG50- kontiglängden 30 kbp eftersom 80 + 70 + 50 + 40 + 30 är större än 50 % av 500. Däremot om den uppskattade eller känd storlek på genomet från art B är 350 kbp, då har det en NG50 contig-längd på 50 kbp eftersom 80 + 70 + 50 är större än 50% av 350.

Alternativ beräkning

N50 kan hittas matematiskt för en lista L med positiva heltal enligt följande:

Skapa en annan lista L' , som är identisk med L , förutom att varje element n i L har ersatts med n kopior av sig själv.
Medianen för L' är N50 för L . (10% -kvantilen av L' är N90- statistiken.)

Till exempel: Om L = (2, 2, 2, 3, 3, 4, 8, 8), så består L' av sex 2:or, sex 3:or, fyra 4:or och sexton 8:or. Det vill säga, L' har dubbelt så många 2:or som L ; den har tre gånger så många 3:or som L ; den har fyra gånger så många 4:or; etc. Medianen för uppsättningen L' med 32 element är medelvärdet av det 16:e minsta elementet, 4, och 17:e minsta elementet, 8, så N50 är 6. Vi kan se att summan av alla värden i listan L som är mindre än eller lika med N50 av 6 är 16 = 2+2+2+3+3+4 och summan av alla värden i listan L som är större än eller lika med 6 är också 16 = 8+8. För jämförelse med N50 av 6, notera att medelvärdet av listan L är 4 medan medianen är 3. För att rekapitulera på ett mer visuellt sätt har vi:

Listans värden L = (2, 2, 2, 3, 3, 4, 8, 8)

Värden för den nya listan L' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 )

Rang av L'- värden = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

Arachne wiki på Broad Institute
Miller, JR; Koren, S; Sutton, G (2010). "Sammanställningsalgoritmer för nästa generations sekvenseringsdata" . Genomik . 95 (6): 315–327. doi : 10.1016/j.ygeno.2010.03.001 . PMC 2874646 . PMID 20211242 .
Earl, D; Bradnam, K; St. John, J; Älskling, A; Lin, D; Fass, J; Yu, HOK; Buffalo, V; Zerbino, DR; Diekhans, M; Nguyen, N; Ariyaratne, PN; Sung, WK; Ning, Z; Haimel, M; Simpson, JT; Fonseca, NA; Birol, I; Dockning, TR; Ho, IY; Rokhsar, DS; Chikhi, R; Lavenier, D; Chapuis, G; Naquin, D; Maillet, N; Schatz, MC; Kelly, DR; Philippy, AM; Koren, S (2011). "Assemblathon 1: En konkurrenskraftig bedömning av de novo kortläsningssammansättningsmetoder" . Genomforskning . 21 (12): 2224–2241. doi : 10.1101/gr.126599.111 . PMC 3227110 . PMID 21926179 .
L50-vs-N50 blogginlägg (07-okt-2015)

Se även

Herfindahl–Hirschman Index

externa länkar

contig_info : Ett verktyg för att uppskatta standardbeskrivande statistik från contig-sekvenser, t.ex. N(G)50 , N(G)75, N(G)90 , L(G)50 , L(G)75, L(G)90, auN ...