Phrap
Phrap är ett flitigt använt program för DNA- sekvensmontering . Det är en del av Phred -Phrap- Consed -paketet.
Historia
Phrap utvecklades ursprungligen av Prof. Phil Green för sammansättning av kosmider i storskalig kosmid-hagelgevärssekvensering inom Human Genome Project . Phrap har använts i stor utsträckning för många olika sekvensmonteringsprojekt, inklusive bakteriegenomsamlingar och EST-sammansättningar.
Phrap skrevs som ett kommandoradsprogram för enkel integration i automatiserade dataarbetsflöden i genomsekvenseringscenter. För användare som vill använda Phrap från ett grafiskt gränssnitt finns de kommersiella programmen MacVector ( endast för Mac OS X ) och CodonCode Aligner (för Mac OS X och Microsoft Windows ) tillgängliga.
Metoder
En detaljerad (om än delvis föråldrad) beskrivning av Phrap-algoritmerna finns i Phrap-dokumentationen . En återkommande tråd inom Phrap-algoritmerna är användningen av Phred-kvalitetspoäng . Phrap använde kvalitetspoäng för att mildra ett problem som andra monteringsprogram hade kämpat med i början av Human Genome Project : korrekt sammansättning av frekventa imperfekta upprepningar, särskilt Alu-sekvenser . Phrap använder kvalitetspoäng för att berätta om några observerade skillnader i upprepade regioner sannolikt beror på slumpmässiga oklarheter i sekvenseringsprocessen, eller mer sannolikt beror på att sekvenserna kommer från olika kopior av Alu-upprepningen. Vanligtvis hade Phrap inga problem med att skilja mellan de olika Alu-kopiorna i en kosmid, och att korrekt sätta ihop kosmiderna (eller, senare, BAC ). Logiken är enkel: ett basanrop med hög sannolikhet att vara korrekt bör aldrig ställas i linje med en annan högkvalitativ men annan bas. Phrap utesluter dock inte sådana anpassningar helt och hållet, och cross_match alignment gap och alignment straff som används när man letar efter lokala anpassningar är inte alltid optimala för typiska sekvenseringsfel och en sökning efter överlappande (sammanhängande) sekvenser. (Affina luckor är användbara för homologisökningar men vanligtvis inte för sekvenseringsfeljustering). Phrap försöker klassificera chimärer, vektorsekvenser och ändregioner av låg kvalitet, allt i en enda anpassning och kommer ibland att göra misstag. Dessutom har Phrap mer än en monteringsomgång internt och senare omgångar är mindre stränga - Greedy algoritm.
Dessa designval var användbara på 1990-talet när programmet ursprungligen skrevs (vid Washington University i St. Louis) men är mindre nu. Phrap verkar felbenägen i jämförelse med nyare montörer som Euler och kan inte använda partner-parinformation direkt för att styra montering och montera tidigare perfekta upprepningar. Phrap är inte fri programvara så den har inte utökats och förbättrats som mindre begränsad programvara med öppen källkod Sequence assembly .
Kvalitetsbaserade konsensussekvenser
En annan användning av Phred-kvalitetspoäng av Phrap som bidrog till programmets framgång var fastställandet av konsensussekvenser med hjälp av sekvenskvaliteter. I själva verket automatiserade Phrap ett steg som var en stor flaskhals i de tidiga faserna av Human Genome Project : att bestämma den korrekta konsensussekvensen på alla positioner där de sammansatta sekvenserna hade olika baser. Detta tillvägagångssätt hade föreslagits av Bonfield och Staden 1995 och implementerades och optimerades ytterligare i Phrap. I princip, vid alla konsensuspositioner med avvikande baser, undersöker Phrap kvalitetspoängen för de inriktade sekvenserna för att hitta den högsta kvalitetssekvensen. I processen tar Phrap hänsyn till bekräftelse av lokal sekvens genom andra läsningar, efter att ha övervägt riktning och sekvenskemi.
Matematiken för detta tillvägagångssätt var ganska enkel, eftersom Phred-kvalitetspoäng är logaritmiskt kopplade till felsannolikheter. Detta innebär att kvalitetspoängen för bekräftande läsningar helt enkelt kan läggas till, så länge felfördelningarna är tillräckligt oberoende. För att uppfylla detta oberoendekriterium måste läsningar vanligtvis vara i olika riktningar, eftersom toppmönster som orsakar basanropsfel ofta är identiska när en region sekvenseras flera gånger i samma riktning.
Om en konsensusbas täcks av både högkvalitativ sekvens och (avvikande) lågkvalitetssekvens, kommer Phraps val av den högre kvalitetssekvensen i de flesta fall att vara korrekt. Phrap tilldelar sedan den bekräftade baskvaliteten till konsensussekvensbasen. Detta gör det enkelt att (a) hitta konsensusregioner som inte täcks av högkvalitativ sekvens (som också kommer att ha låg kvalitet), och (b) att snabbt beräkna en någorlunda korrekt uppskattning av felfrekvensen för konsensussekvensen. Denna information kan sedan användas för att styra efterarbeten, till exempel omsekvensering av problemområden.
Kombinationen av exakta, basspecifika kvalitetspoäng och en kvalitetsbaserad konsensussekvens var en avgörande faktor för framgången för Human Genome Project . Phred och Phrap och liknande program som tog till sig idéerna från dessa två program, möjliggjorde sammansättningen av stora delar av det mänskliga genomet (och många andra genom) med en noggrannhet som var avsevärt högre (mindre än 1 fel på 10 000 baser) ) än den typiska noggrannheten hos noggrant handredigerade sekvenser som hade skickats till GenBank -databasen tidigare.
- ^ Bonfield JK, Staden R (1995): Tillämpningen av numeriska uppskattningar av basanropsnoggrannhet till DNA-sekvenseringsprojekt. Nucleic Acids Res. 1995 apr 25;23(8):1406-10. PMID 7753633
- ^ Krawetz SA (1989): Sekvensfel som beskrivs i GenBank: ett sätt att bestämma exaktheten av DNA-sekvenstolkningen. Nucleic Acids Res. 1989 maj 25;17(10):3951-7