T-kaffe

T-kaffe
Utvecklare	Cédric Notredame, Centro de Regulacio Genomica (CRG) - Barcelona
Stabil frisättning	13.45.0.4846264 / 15 oktober 2020 ; 2 år sedan
Förhandsgranska release	13.45.33.7d7e789 / 23 december 2020 ; 2 år sedan
Förvar	github .com /cbcrg /tcoffee ;
Operativ system	UNIX , Linux , MS-Windows , Mac OS X
Typ	Bioinformatikverktyg
Licens	GPL
Hemsida	www .tcoffee .org

T-Coffee ( Tree-based Consistency Objective Function for Alignment Evaluation ) är ett program för multipelsekvensjustering som använder ett progressivt tillvägagångssätt. Den genererar ett bibliotek av parvisa anpassningar för att styra multipelsekvensinriktningen. Den kan också kombinera flera sekvenser som erhållits tidigare och i de senaste versionerna kan den använda strukturell information från PDB- filer (3D-Coffee). Den har avancerade funktioner för att utvärdera kvaliteten på justeringarna och viss kapacitet för att identifiera förekomst av motiv (Mocca). Den producerar justering i aln-formatet ( Clustal ) som standard, men kan också producera PIR-, MSF- och FASTA-format . De vanligaste inmatningsformaten stöds ( FASTA , PIR ).

Algoritm

T-Coffee-algoritmen består av två huvudfunktioner, den första genom att använda heterogena datakällor kan den tillhandahålla enkla och flexibla sätt att generera flera anpassningar. T-kaffe kan beräkna flera justeringar med hjälp av ett bibliotek som genererades med en blandning av lokala och globala parvisa anpassningar.

Den andra är "Optimeringsmetoden", som används för att hitta den multipla anpassningen som bäst passar de parvisa anpassningarna i indatabiblioteket med hjälp av en progressiv strategi som kan jämföras med den som används i ClustalW . Optimeringsmetoden har fördelen av att vara snabb och robust. Informationen i biblioteket används för att utföra progressiva justeringar och underlättar skyldigheten att överväga anpassningarna mellan alla par samtidigt som man utför varje steg av de progressiva multipla anpassningarna.

Genererar ett primärt bibliotek av justeringar

Biblioteket inkorporerar en uppsättning parvisa anpassningar mellan alla sekvenserna som ska ställas in, det krävs inte att anpassningarna är konsekventa. Inuti biblioteket kan det finnas information om var och en av N(N-1)/2 där N är antalet sekvenser. Två inriktningskällor används för varje par av sekvenser, en av dem klassificeras som lokal och den andra som global.

Globala anpassningar konstrueras med användning av ClustalW på sekvenserna, två åt gången, och sed för att ge en fullängdsanpassning mellan varje sekvenspar. De lokala linjerna är de tio topprankade icke-korsande lokala linjerna samlade med hjälp av Lalign-programmet i FASTA -paketet.

Varje anpassning representeras i biblioteket som en lista med parvisa restmatchningar, varje par är en begränsning; vissa begränsningar är dock mer relevanta än andra. vikten av varje begränsning beror på vilken som är mer sannolikt att vara korrekt. Vid beräkning av de multipla inriktningarna ges prioritet till de mest tillförlitliga restparen genom att använda ett viktningsschema.

Kombination av biblioteken

Effektiv kombination av lokal och global anpassningsinformation är en viktig faktor för T-Coffee. Genom att använda de ClustalW och Lalign kan det uppnås med en tilläggsprocess. Alla duplicerade par mellan båda biblioteken slås samman till en enda post med vikten av den totala summan av båda paren. Annars skapas en ny post för paret. Par med vikten noll kommer inte att representeras. För varje par av inriktade rester i biblioteket är det möjligt att tilldela en vikt som hör till den grad till vilken dessa rester konsekvent anpassas. Detta kallas biblioteksförlängning.

Jämförelser med annan anpassningsprogramvara

Även om standardutdata är ett Clustal-liknande format, skiljer det sig tillräckligt mycket från utdata från ClustalW/X att många program som stöder Clustal-format inte kan läsa det; lyckligtvis kan ClustalX importera T-Coffee-utdata så den enklaste lösningen för detta problem är vanligtvis att importera T-Coffees utdata till ClustalX och sedan återexportera. En annan möjlighet är att begära det strikta Clustalw-utdataformatet med alternativet " -output=clustalw_aln " .

En viktig specificitet hos T-Coffee är dess förmåga att kombinera olika metoder och olika datatyper. I sin senaste version kan T-Coffee användas för att kombinera proteinsekvenser och strukturer, RNA-sekvenser och strukturer. Den kan också köra och kombinera utdata från de vanligaste sekvens- och strukturanpassningspaketen.

T-Coffee kommer tillsammans med ett sofistikerat sekvensomformateringsverktyg som heter seq_reformat. En omfattande dokumentation finns tillgänglig online.

Variationer

M-Coffee: ett speciellt läge för T-Coffee som gör det möjligt att kombinera utdata från de vanligaste multipelsekvensanpassningspaketen (Muscle, ClustalW, Mafft, ProbCons, etc.). De resulterande anpassningarna är något bättre än den individuella, men viktigast av allt anger programmet de anpassningsregioner där de olika paketen kommer överens. Regioner med hög enighet är vanligtvis väl anpassade.

Expresso och 3D-Coffee: dessa är speciella lägen för T-Coffee som gör det möjligt att kombinera sekvens och strukturer i en anpassning. De strukturbaserade uppriktningarna kan utföras med de vanligaste strukturella uppriktningarna som TMalign, Mustang och sap.

R-Coffee: ett speciellt sätt för T-Coffee som gör det möjligt att anpassa RNA-sekvenser samtidigt som sekundär strukturinformation används.

PSI-Coffee: justerar avlägset besläktade proteiner med hjälp av homologiförlängning (långsam och korrekt)

TM-Coffee: justerar transmembranproteiner med hjälp av homologiförlängning.

Pro-Coffee: justerar homologa promotorregioner

Exakt: kombinerar automatiskt de mest exakta lägena för DNA, RNA och proteiner (experimentellt )

Kombinera: kombinerar två (eller flera) multipla sekvensanpassningar till en enda.

Utvärdering

( T ransitive C onsistency S core) är en utökad version av T-Coffee poängschemat. Den använder T-Coffee-bibliotek med parvisa justeringar för att utvärdera eventuell tredje parts MSA. Parvisa projektioner kan produceras med snabba eller långsamma metoder, vilket möjliggör en avvägning mellan hastighet och noggrannhet. TCS har visat sig leda till betydligt bättre uppskattningar av strukturell noggrannhet och mer exakta fylogenetiska träd mot Heads-or-Tails, GUIDANCE, Gblocks och trimAl.

Se även

externa länkar