Bayesiansk slutledning i fylogeni
Klassificering | Evolutionsbiologi |
---|---|
Underklassificering | Molekylär fylogenetik |
Optimalt sökkriterier | Bayesiansk slutledning |
Bayesiansk inferens av fylogeni kombinerar informationen i den föregående och i datasannolikheten för att skapa den så kallade posteriora sannolikheten för träd, vilket är sannolikheten att trädet är korrekt givet data, prioriteten och sannolikhetsmodellen. Bayesiansk inferens introducerades i molekylär fylogenetik på 1990-talet av tre oberoende grupper: Bruce Rannala och Ziheng Yang i Berkeley, Bob Mau i Madison och Shuying Li vid University of Iowa, de två sista var doktorander vid den tiden. Metoden har blivit mycket populär sedan lanseringen av MrBayes-mjukvaran 2001, och är nu en av de mest populära metoderna inom molekylär fylogenetik.
Bayesiansk slutledning av fylogenibakgrund och baser
Bayesiansk slutledning hänvisar till en probabilistisk metod som utvecklats av pastor Thomas Bayes baserat på Bayes sats . Publicerad postumt 1763 var det det första uttrycket för invers sannolikhet och grunden för Bayesiansk slutledning. Oberoende, omedveten om Bayes arbete, utvecklade Pierre-Simon Laplace Bayes teorem 1774.
Bayesiansk inferens eller den inversa sannolikhetsmetoden var standardmetoden i statistiskt tänkande fram till början av 1900-talet innan RA Fisher utvecklade vad som nu är känt som den klassiska/frekventistiska/Fisherian inferensen. Beräkningssvårigheter och filosofiska invändningar hade förhindrat det utbredda antagandet av den Bayesianska metoden fram till 1990-talet, när Markov Chain Monte Carlo (MCMC) algoritmer revolutionerade Bayesianska beräkningar.
Den Bayesianska metoden för fylogenetisk rekonstruktion kombinerar den tidigare sannolikheten för ett träd P(A) med sannolikheten för att data (B) producerar en posterior sannolikhetsfördelning på träden P(A|B). Den bakre sannolikheten för ett träd kommer att vara sannolikheten att trädet är korrekt, givet föregående, data och sannolikhetsmodellens riktighet.
MCMC-metoder kan beskrivas i tre steg: först med hjälp av en stokastisk mekanism föreslås ett nytt tillstånd för Markov-kedjan . För det andra beräknas sannolikheten för att detta nya tillstånd är korrekt. För det tredje föreslås en ny slumpvariabel (0,1). Om detta nya värde är mindre än acceptanssannolikheten accepteras det nya tillståndet och kedjans tillstånd uppdateras. Denna process körs tusentals eller miljontals gånger. Antalet gånger ett enstaka träd besöks under kedjans gång är en approximation av dess bakre sannolikhet. Några av de vanligaste algoritmerna som används i MCMC-metoder inkluderar Metropolis-Hastings-algoritmerna, Metropolis-Coupling MCMC (MC³) och LOCAL-algoritmen för Larget och Simon.
Metropolis–Hastings algoritm
En av de vanligaste MCMC-metoderna som används är Metropolis–Hastings-algoritmen , en modifierad version av den ursprungliga Metropolis-algoritmen. Det är en mycket använd metod för att slumpmässigt ta prov från komplicerade och flerdimensionella fördelningssannolikheter. Metropolis-algoritmen beskrivs i följande steg:
- Ett initialt träd, Ti , väljs slumpmässigt.
- Ett grannträd, T j , väljs från samlingen av träd.
- Förhållandet, R, av sannolikheterna (eller sannolikhetstäthetsfunktionerna) för Tj och Ti beräknas enligt följande: R = f(Tj) / f( Ti )
- Om R ≥ 1, accepteras T j som det aktuella trädet.
- Om R < 1 accepteras T j som det aktuella trädet med sannolikhet R, annars behålls T i .
- Vid denna tidpunkt upprepas processen från steg 2 N gånger.
Algoritmen fortsätter att köras tills den når en jämviktsfördelning. Den antar också att sannolikheten för att föreslå ett nytt träd T j när vi är i det gamla trädtillståndet T i , är samma sannolikhet att föreslå T i när vi är vid T j . När så inte är fallet tillämpas Hastings-korrigeringar. Syftet med Metropolis-Hastings algoritm är att producera en samling tillstånd med en bestämd fördelning tills Markov-processen når en stationär fördelning. Algoritmen har två komponenter:
- En potentiell övergång från ett tillstånd till ett annat (i → j) med en övergångssannolikhetsfunktion q i,j
- Förflyttning av kedjan till tillstånd j med sannolikhet α i,j och förblir i i med sannolikhet 1 – α i,j .
Metropolis-kopplad MCMC
Metropolis-kopplad MCMC-algoritm (MC³) har föreslagits för att lösa ett praktiskt problem med att Markov-kedjan rör sig över toppar när målfördelningen har flera lokala toppar, åtskilda av låga dalar, som är kända för att existera i trädutrymmet. Detta är fallet under heuristisk trädsökning under kriterier för maximal sparsamhet (MP), maximal sannolikhet (ML) och minimal evolution (ME), och detsamma kan förväntas för stokastisk trädsökning med MCMC. Detta problem kommer att resultera i att prover inte närmar sig den bakre tätheten korrekt. (MC³) förbättrar blandningen av Markov-kedjor i närvaro av flera lokala toppar i den bakre densiteten. Den kör flera (m) kedjor parallellt, var och en för n iterationer och med olika stationära fördelningar j , där den första, är måldensiteten, medan , är valda för att förbättra blandningen. Till exempel kan man välja inkrementell uppvärmning av formen:
så att den första kedjan är den kalla kedjan med rätt måltäthet, medan kedjorna är uppvärmda kedjor. Observera att en höjning av densiteten till potensen med har effekten att platta ut fördelningen, liknande uppvärmning av en metall. I en sådan fördelning är det lättare att ta sig fram mellan toppar (separerade av dalar) än i den ursprungliga fördelningen. Efter varje iteration föreslås ett byte av tillstånd mellan två slumpmässigt valda kedjor genom ett steg av Metropolis-typ. Låt vara det aktuella tillståndet i kedjan , . Ett byte mellan tillstånden för kedjorna och accepteras med sannolikhet:
I slutet av körningen används endast uteffekt från den kalla kedjan, medan de från de varma kedjorna kasseras. Heuristiskt sett kommer de varma kedjorna att besöka de lokala topparna ganska lätt, och att byta tillstånd mellan kedjorna kommer att låta den kalla kedjan ibland hoppa över dalar, vilket leder till bättre blandning. Men om kommer föreslagna byten sällan att accepteras. Detta är anledningen till att använda flera kedjor som bara skiljer sig inkrementellt.
En uppenbar nackdel med algoritmen är att kedjor körs och endast en kedja används för slutledning. Av denna anledning idealiskt lämpad för implementering på parallella maskiner, eftersom varje kedja i allmänhet kommer att kräva samma mängd beräkning per iteration.
LOKAL algoritm av Larget och Simon
De LOKALA algoritmerna erbjuder en beräkningsmässig fördel jämfört med tidigare metoder och visar att en Bayesiansk metod kan bedöma osäkerhet beräkningsmässigt praktiskt i större träd. Den LOKALA algoritmen är en förbättring av den GLOBALA algoritmen som presenteras i Mau, Newton och Larget (1999) där alla grenlängder ändras i varje cykel. De LOKALA algoritmerna modifierar trädet genom att välja en intern gren av trädet slumpmässigt. Noderna i ändarna av denna gren är var och en ansluten till två andra grenar. Ett av varje par väljs slumpmässigt. Föreställ dig att ta dessa tre utvalda kanter och dra dem som en klädstreck från vänster till höger, där riktningen (vänster/höger) också väljs slumpmässigt. De två ändpunkterna för den första grenen som väljs kommer att ha ett underträd som hänger som ett klädesplagg som är uppträdt på linjen. Algoritmen fortsätter genom att multiplicera de tre utvalda grenarna med en vanlig slumpmässig mängd, som liknar att sträcka ut eller krympa klädstrecket. Slutligen kopplas det längst till vänster av de två hängande underträden bort och fästs på nytt vid klädstrecket på en plats som väljs enhetligt slumpmässigt. Detta skulle vara kandidatträdet.
Anta att vi började med att välja den interna grenen med längden som skiljer taxa och från resten. Antag också att vi har (slumpmässigt) valt grenar med längderna och från varje sida, och att vi har orienterat dessa grenar. Låt vara den aktuella längden på klädstrecket. Vi väljer att den nya längden ska vara , där är en enhetlig slumpvariabel på . Sedan för LOCAL-algoritmen kan acceptanssannolikheten beräknas till:
Bedöma konvergens
För att uppskatta en grenlängd av ett 2-taxonträd under JC, där platser är oförändrade och är variabla, anta exponentiell förfördelning med hastighet . Densiteten är . Sannolikheterna för de möjliga webbplatsmönstren är:
för ovarierade webbplatser och
Således är den onormaliserade bakre fördelningen:
eller alternativt
Uppdatera grenlängden genom att slumpmässigt välja nytt värde enhetligt från ett fönster med halv bredd centrerat på det aktuella värdet:
där är jämnt fördelad mellan och . Sannolikheten för acceptans är:
Exempel: , . Vi kommer att jämföra resultaten för två värden på , och . I varje fall börjar vi med en initial längd på och uppdaterar längden gånger.
Maximal sparsamhet och maximal sannolikhet
Det finns många metoder för att rekonstruera fylogenetiska träd, var och en med fördelar och nackdelar, och det finns inget enkelt svar på "vilken är den bästa metoden?". Maximal parsimony (MP) och maximum likelihood (ML) är traditionella metoder som ofta används för att uppskatta fylogenier och båda använder karaktärsinformation direkt, som Bayesianska metoder gör.
Maximum Parsimony återvinner ett eller flera optimala träd baserat på en matris av diskreta tecken för en viss grupp av taxa och det kräver ingen modell av evolutionär förändring. MP ger den enklaste förklaringen till en given uppsättning data, rekonstruerar ett fylogenetiskt träd som innehåller så få förändringar över sekvenserna som möjligt. Stödet av trädgrenarna representeras av bootstrap procent. Av samma anledning som den har använts flitigt, dess enkelhet, har MP också fått kritik och har trängts i bakgrunden av ML och Bayesianska metoder. MP presenterar flera problem och begränsningar. Som framgår av Felsenstein (1978), kan MP vara statistiskt inkonsekvent, vilket innebär att när mer och mer data (t.ex. sekvenslängd) ackumuleras, kan resultaten konvergera till ett felaktigt träd och leda till lång grenattraktion, ett fylogenetiskt fenomen där taxa med lång grenar (många förändringar i karaktärstillstånd) tenderar att framstå som närmare besläktade i fylogenin än vad de egentligen är. För morfologiska data tyder nya simuleringsstudier på att sparsamhet kan vara mindre exakt än träd byggda med Bayesianska metoder, potentiellt på grund av överprecision, även om detta har ifrågasatts. Studier som använder nya simuleringsmetoder har visat att skillnader mellan slutledningsmetoder beror på sökstrategin och konsensusmetoden som används, snarare än den optimering som används.
Som i maximal sparsamhet kommer maximal sannolikhet att utvärdera alternativa träd. Men den överväger sannolikheten för att varje träd förklarar de givna uppgifterna baserat på en evolutionsmodell. I det här fallet väljs trädet med störst sannolikhet att förklara data framför de andra. Med andra ord, den jämför hur olika träd förutsäger de observerade data. Införandet av en modell för evolution i ML-analyser ger en fördel jämfört med MP eftersom sannolikheten för nukleotidsubstitutioner och hastigheter för dessa substitutioner tas med i beräkningen, vilket förklarar de fylogenetiska förhållandena mellan taxa på ett mer realistiskt sätt. En viktig övervägande av denna metod är grenlängden, som sparsamhet ignorerar, där förändringar är mer sannolikt att inträffa längs långa grenar än korta. Detta tillvägagångssätt kan eliminera attraktion för långa grenar och förklara den större konsekvensen av ML över MP. Även om ML anses av många vara det bästa sättet att sluta sig till fylogenier ur en teoretisk synvinkel, är ML beräkningsintensivt och det är nästan omöjligt att utforska alla träd eftersom det finns för många. Bayesiansk slutledning innehåller också en evolutionsmodell och de främsta fördelarna jämfört med MP och ML är att den är beräkningsmässigt mer effektiv än traditionella metoder, den kvantifierar och adresserar källan till osäkerhet och kan inkorporera komplexa evolutionsmodeller.
Fallgropar och kontroverser
- Bootstrap-värden kontra posteriora sannolikheter. Det har observerats att stödvärden för bootstrap, beräknade under sparsamhet eller maximal sannolikhet, tenderar att vara lägre än de posteriora sannolikheterna som erhålls genom Bayesiansk slutledning. Detta leder till ett antal frågor som: Leder posteriora sannolikheter till övertro på resultaten? Är bootstrap-värden mer robusta än posteriora sannolikheter?
- Kontrovers om att använda tidigare sannolikheter. Att använda tidigare sannolikheter för Bayesiansk analys har av många setts som en fördel eftersom det ger ett sätt att införliva information från andra källor än de data som analyseras. Men när sådan extern information saknas tvingas man använda en prior även om det är omöjligt att använda en statistisk fördelning för att representera total okunnighet. Det är också ett bekymmer att de Bayesianska posteriora sannolikheterna kan återspegla subjektiva åsikter när prioriteten är godtycklig och subjektiv.
- Modellval. Resultaten av den Bayesianska analysen av en fylogeni är direkt korrelerade till den valda evolutionsmodellen så det är viktigt att välja en modell som passar de observerade data, annars kommer slutsatser i fylogenin att vara felaktiga. Många forskare har väckt frågor om tolkningen av Bayesiansk slutledning när modellen är okänd eller felaktig. Till exempel kan en alltför förenklad modell ge högre posteriora sannolikheter.
MrBayes programvara
MrBayes är ett gratis programvaruverktyg som utför Bayesiansk slutledning av fylogeni. Den skrevs ursprungligen av John P. Huelsenbeck och Frederik Ronquist 2001. När bayesianska metoder ökade i popularitet blev MrBayes en av de mest populära programvarorna för många molekylära fylogenetiker. Den erbjuds för Macintosh, Windows och UNIX operativsystem och den har ett kommandoradsgränssnitt. Programmet använder standard MCMC-algoritmen såväl som den Metropolis-kopplade MCMC-varianten. MrBayes läser justerade matriser av sekvenser (DNA eller aminosyror) i standardformatet NEXUS .
MrBayes använder MCMC för att approximera de bakre sannolikheterna för träd. Användaren kan ändra antaganden om substitutionsmodellen, priors och detaljerna i MC³-analysen. Det tillåter också användaren att ta bort och lägga till taxa och tecken till analysen. Programmet använder den mest standardiserade modellen för DNA-substitution, 4x4 även kallad JC69, som antar att förändringar mellan nukleotider sker med lika stor sannolikhet. Den implementerar också ett antal 20x20-modeller för aminosyrasubstitution och kodonmodeller för DNA-substitution. Den erbjuder olika metoder för att mildra antagandet om lika substitutionshastigheter över nukleotidställen. MrBayes kan också sluta sig till förfäders tillstånd som tillgodoser osäkerhet till det fylogenetiska trädet och modellparametrar.
MrBayes 3 var en helt omorganiserad och omstrukturerad version av den ursprungliga MrBayes. Den huvudsakliga nyheten var mjukvarans förmåga att ta emot heterogeniteter i datamängder. Detta nya ramverk gör det möjligt för användaren att blanda modeller och dra fördelar av effektiviteten av Bayesian MCMC-analys när de hanterar olika typer av data (t.ex. protein, nukleotid och morfologisk). Den använder Metropolis-Coupling MCMC som standard.
MrBayes 3.2 släpptes 2012. Den nya versionen låter användarna köra flera analyser parallellt. Det ger också snabbare sannolikhetsberäkningar och gör att dessa beräkningar kan delegeras till grafikprocessorer (GPU). Version 3.2 ger bredare utgångsalternativ som är kompatibla med FigTree och andra trädvisare.
Lista över fylogenetik programvara
Den här tabellen innehåller några av de vanligaste fylogenetiska programmen som används för att sluta sig till fylogenier under ett Bayesiskt ramverk. Vissa av dem använder inte uteslutande Bayesianska metoder.
namn | Beskrivning | Metod | Författare | Webbplatslänk |
---|---|---|---|---|
MrBayes | Fylogenetisk slutledning | Ett program för Bayesiansk slutledning och modellval över ett brett utbud av fylogenetiska och evolutionära modeller. | Zangh, Huelsenbeck, Der Mark, Ronquist & Teslenko | https://nbisweden.github.io/MrBayes/ |
FÄ | Bayesiansk evolutionär analys Sampling av träd | Bayesiansk slutledning, avslappnad molekylär klocka, demografisk historia | AJ Drummond, A. Rambaut & MA Suchard | https://beast.community |
BEAST 2 | En mjukvaruplattform för Bayesiansk evolutionär analys | Bayesiansk slutledning, paket , flera modeller | R Bouckaert, J Heled, D Kühnert, T Vaughan, CH Wu, D Xie, MA Suchard, A Rambaut, AJ Drummond. | http://www.beast2.org |
PhyloBayes / PhyloBayes MPI | Bayesian Monte Carlo Markov Chain (MCMC) provtagare för fylogenetisk rekonstruktion. | Icke-parametriska metoder för att modellera variationer mellan ställen i nukleotid- eller aminosyrabenägenhet. | N. Lartillot, N. Rodrigue, D. Stubbs, J. Richer | http://www.atgc-montpellier.fr/phylobayes/ |
Bali-Phy | Samtidig Bayesiansk slutledning av anpassning och fylogeni | Bayesiansk slutledning, anpassning samt trädsökning | Suchard MA, Redelings BD | http://www.bali-phy.org |
BUCKy | Bayesiansk konkordans av genträd | Bayesiansk konkordans med modifierad girig konsensus av orotade kvartetter | C. Ané, B. Larget, DA Baum, SD Smith, A. Rokas och B. Larget, SK Kotha, CN Dewey, C. Ané | http://www.stat.wisc.edu/~ane/bucky/ |
SLATTA | Bayesiansk analys av träd med intern nodgenerering | Bayesiansk slutledning, demografisk historia, befolkningsfördelning | IJ Wilson, D. Weale, D. Balding | http://www.maths.abdn.ac.uk/˜ijw [ permanent död länk ] |
Bayes Phylogenies | Bayesiansk slutledning av träd med Markov Chain Monte Carlo-metoder | Bayesiansk slutledning, flera modeller, blandningsmodell (automatisk partitionering) | M. Pagel, A. Meade | http://www.evolution.rdg.ac.uk/BayesPhy.html Arkiverad 2020-02-19 på Wayback Machine |
Armadillo arbetsflödesplattform | Arbetsflödesplattform dedikerad till fylogenetisk och allmän bioinformatisk analys | GUI-omslag runt MrBayes | E. Lord, M. Leclercq, A. Boc, AB Diallo och V. Makarenkov | https://github.com/armadilloUQAM/armadillo2/ |
Geneious (MrBayes plugin) | Geneious tillhandahåller genom- och proteomforskningsverktyg | GUI-omslag runt MrBayes | AJ Drummond, M. Suchard, V. Lefort et al. | http://www.geneious.com |
TOPALi | Fylogenetisk slutledning | GUI-omslag runt MrBayes | I. Milne, D. Lindner, et al. | http://www.topali.org |
Ansökningar
Bayesian Inference har i stor utsträckning använts av molekylära fylogenetiker för ett stort antal tillämpningar. Några av dessa inkluderar:
- Slutledning av fylogenier.
- Slutledning och utvärdering av osäkerhet i fylogenier.
- Slutledning av förfäders karaktärstillståndsutveckling.
- Slutledning av förfäders områden.
- Molekylär dateringsanalys.
- Modelldynamik för artdiversifiering och utrotning
- Belysa mönster i spridning av patogener.
- Slutledning av fenotypisk egenskapsutveckling.