K a /K s- förhållande
Inom genetik används K a / K s- kvoten , även känd som ω eller d N / d S - kvoten , för att uppskatta balansen mellan neutrala mutationer , renande selektion och fördelaktiga mutationer som verkar på en uppsättning homologa proteinkodande gener . Det beräknas som förhållandet mellan antalet icke-synonyma substitutioner per icke-synonym plats (Ka ) , under en given tidsperiod, och antalet synonyma substitutioner per synonym plats (Ks ) , under samma period. De senare antas vara neutrala, så att förhållandet indikerar nettobalansen mellan skadliga och fördelaktiga mutationer. Värden på Ka / Ks signifikant över 1 är osannolikt att inträffa utan att åtminstone några av mutationerna är fördelaktiga. Om fördelaktiga mutationer antas ge lite bidrag, så uppskattar K a / Ks graden av evolutionär begränsning .
Sammanhang
, som ofta är resultatet av mutationer i proteinkodande gener . Den genetiska koden skrivs i DNA-sekvenser som kodoner , grupper om tre nukleotider . Varje kodon representerar en enda aminosyra i en proteinkedja. Det finns dock fler kodon (64) än aminosyror som finns i proteiner (20), så många kodon är effektivt synonymer. Till exempel kodar DNA-kodonen TTT och TTC båda för aminosyran Phenylalanine , så en förändring från det tredje T till C gör ingen skillnad för det resulterande proteinet. Å andra sidan kodar kodonet GAG för glutaminsyra medan kodonet GTG kodar för valin , så en förändring från mitten A till T förändrar det resulterande proteinet, på bättre eller (mer troligt) sämre, så förändringen är inte en synonym. Dessa förändringar illustreras i tabellerna nedan.
K a /K s -förhållandet mäter de relativa frekvenserna av synonyma och icke-synonyma substitutioner på en viss plats.
Typ av struktur | Innan | Förändra | Efter | Resultat |
---|---|---|---|---|
Kodon i en DNA-sekvens | TTT |
ofarlig mutation; Synonymt utbyte |
TTC | |
↓ koder för | ↓ koder för | ↓ koder för | ||
Aminosyra i ett protein | Fenylalanin | ingen förändring | Fenylalanin | Normalt protein, normal funktion |
Typ av struktur | Innan | Förändra | Efter | Resultat |
---|---|---|---|---|
Kodon i en DNA-sekvens | GAG |
Missense mutation ; Icke synonym substitution |
GTG | |
↓ koder för | ↓ koder för | ↓ koder för | ||
Aminosyra i ett protein | Glutaminsyra | strukturell förändring | Valine |
Förändrat protein kan eller inte kan orsaka skada (t.ex. sjukdom) eller ge nya fördelar |
Metoder
Metoder för att uppskatta Ka och Ks använder en sekvensinriktning av två eller flera nukleotidsekvenser av homologa gener som kodar för proteiner (istället för att vara genetiska omkopplare, kontrollera utvecklingen eller aktivitetshastigheten för andra gener). Metoder kan klassificeras i tre grupper: ungefärliga metoder, metoder för maximal sannolikhet och räknemetoder. Såvida inte sekvenserna som ska jämföras är avlägset relaterade (i vilket fall metoder med maximal sannolikhet råder), har den klass av metod som används en minimal inverkan på de erhållna resultaten; viktigare är de antaganden som är implicita i den valda metoden.
Ungefärliga metoder
Ungefärliga metoder innefattar tre grundläggande steg: (1) räkning av antalet synonyma och icke-synonyma ställen i de två sekvenserna, eller uppskattning av detta antal genom att multiplicera sekvenslängden med andelen av varje substitutionsklass; (2) att räkna antalet synonyma och icke-synonyma substitutioner; och (3) korrigering för multipla substitutioner.
Dessa steg, särskilt de senare, kräver att förenklade antaganden görs om de ska uppnås beräkningsmässigt; av skäl som diskuteras senare är det omöjligt att exakt bestämma antalet multipla substitutioner.
Metoder för maximal sannolikhet
Maximal-likelihood-metoden använder sannolikhetsteori för att slutföra alla tre stegen samtidigt. Den uppskattar kritiska parametrar, inklusive divergensen mellan sekvenser och övergångs/transversionsförhållandet, genom att härleda de mest sannolika värdena för att producera indata.
Räknemetoder
För att kvantifiera antalet substitutioner kan man rekonstruera den förfäders sekvens och registrera de antagna förändringarna på platserna (rät räkning – sannolikt ger en underskattning); inpassa substitutionshastigheterna på platser i förutbestämda kategorier ( bayesiansk metod; dålig för små datamängder); och generering av en individuell substitutionshastighet för varje kodon (beräkningsmässigt dyrt). Givet tillräckligt med data, kommer alla dessa tre metoder att tendera till samma resultat.
Tolka resultat
Ka /Ks - förhållandet används för att sluta sig till riktningen och storleken på naturligt urval som verkar på proteinkodande gener. Ett förhållande som är större än 1 innebär positivt eller darwinistiskt urval (driver förändring); mindre än 1 innebär renande eller stabiliserande urval (agerar mot förändring); och ett förhållande på exakt 1 indikerar neutralt (dvs inget) val. En kombination av positiv och renande selektion vid olika punkter inom genen eller vid olika tidpunkter under dess utveckling kan emellertid upphäva varandra. Det resulterande medelvärdet kan maskera närvaron av ett av urvalen och sänka den skenbara storleken på ett annat urval.
Naturligtvis är det nödvändigt att utföra en statistisk analys för att avgöra om ett resultat skiljer sig signifikant från 1, eller om någon uppenbar skillnad kan uppstå som ett resultat av en begränsad datamängd. Det lämpliga statistiska testet för en approximativ metod innebär att approximera dN − dS med en normal approximation, och bestämma om 0 faller inom approximationens centrala område. Mer sofistikerade sannolikhetstekniker kan användas för att analysera resultaten av en maximal sannolikhetsanalys genom att utföra ett chi-kvadrattest för att skilja mellan en nollmodell (K a /K s = 1) och de observerade resultaten.
Verktyg
K a /K s -förhållandet är ett mer kraftfullt test av den neutrala evolutionsmodellen än många andra tillgängliga inom populationsgenetik eftersom det kräver färre antaganden.
Komplikationer
Det finns ofta en systematisk bias i frekvensen vid vilken olika nukleotider byts ut, eftersom vissa mutationer är mer sannolika än andra. Till exempel kan vissa linjer byta C mot T oftare än de byter C mot A. När det gäller aminosyran Asparagine , som kodas av kodonen AAT eller AAC, kommer en hög C->T-växlingshastighet att öka andelen av synonyma substitutioner vid detta kodon, medan en hög C→A-växelkurs kommer att öka hastigheten för icke-synonyma substitutioner. Eftersom det är ganska vanligt att övergångar (T↔C & A↔G) gynnas framför transversioner (andra förändringar), måste modellerna ta hänsyn till möjligheten för icke-homogena växelkurser. Vissa enklare ungefärliga metoder, såsom de av Miyata & Yasunaga och Nei & Gojobori, försummar att ta hänsyn till dessa, vilket genererar en snabbare beräkningstid på bekostnad av noggrannhet; dessa metoder kommer systematiskt att överskatta N och underskatta S.
Vidare kan det finnas en bias där vissa kodon föredras i en gen, eftersom en viss kombination av kodon kan förbättra translationseffektiviteten. En studie från 2022 rapporterade att synonyma mutationer i representativa jästgener för det mesta är starkt icke-neutrala, vilket ifrågasätter de antaganden som ligger till grund för användningen av K a /K s - förhållandet .
Dessutom, allt eftersom tiden går, är det möjligt för en webbplats att genomgå flera modifieringar. Till exempel kan ett kodon byta från AAA → AAC → AAT → AAA. Det finns inget sätt att upptäcka flera substitutioner på en enda plats, därför är uppskattningen av antalet substitutioner alltid en underskattning. I exemplet ovan inträffade dessutom två icke-synonyma och en synonym substitution på den tredje platsen; men eftersom substitutioner återställde den ursprungliga sekvensen finns det inga bevis för någon substitution. När divergenstiden mellan två sekvenser ökar, ökar också mängden av flera substitutioner. Sålunda kan "långa grenar" i en dN/dS-analys leda till underskattningar av både dN och dS, och ju längre grenen är, desto svårare är det att korrigera för det introducerade bruset. Naturligtvis är förfädernas sekvens vanligtvis okänd, och två linjer som jämförs kommer att ha utvecklats parallellt sedan deras senaste gemensamma förfader. Denna effekt kan mildras genom att konstruera den förfäders sekvens; noggrannheten för denna sekvens förbättras genom att ha ett stort antal sekvenser som härstammar från den gemensamma förfadern för att begränsa dess sekvens med fylogenetiska metoder.
Metoder som tar hänsyn till fördomar i kodonanvändning och övergångs-/transversionshastigheter är avsevärt mer tillförlitliga än de som inte gör det.
Begränsningar
Även om Ka / Ks -förhållandet är en bra indikator på selektivt tryck på sekvensnivå, kan evolutionär förändring ofta äga rum i den regulatoriska regionen av en gen som påverkar nivån, tidpunkten eller platsen för genuttryck . K a /K s analys kommer inte att upptäcka en sådan förändring. Det kommer bara att beräkna selektivt tryck inom proteinkodande regioner. Dessutom kan selektion som inte orsakar skillnader på en aminosyranivå - till exempel balanserande selektion - inte detekteras med dessa tekniker.
En annan fråga är att heterogenitet inom en gen kan göra ett resultat svårt att tolka. Till exempel, om Ka / Ks = 1, kan det bero på avslappnad selektion eller på en chimär av positiv och renande selektion vid platsen. En lösning på denna begränsning skulle vara att tillämpa K a /K s analys över många arter vid individuella kodon.
Ka /Ks - metoden kräver en ganska stark signal för att detektera urval. För att kunna detektera selektion mellan linjer måste selektionen, beräknad i medeltal över alla ställen i sekvensen, producera ett K a /K s större än ett - en bra prestation om regioner av genen är starkt konserverade. För att detektera urval på specifika platser måste K a /K s -förhållandet vara större än ett när det beräknas i medeltal över alla inkluderade linjer på den platsen – vilket innebär att platsen måste vara under selektivt tryck i alla samplade linjer. Denna begränsning kan modereras genom att tillåta K a /K s- hastigheten att ta flera värden över platser och över linjer; införandet av fler härstamningar ökar också kraften i ett platsbaserat tillvägagångssätt.
Vidare saknar metoden förmågan att skilja mellan positiva och negativa icke-synonyma substitutioner. Vissa aminosyror är kemiskt lika varandra, medan andra substitutioner kan placera en aminosyra med mycket olika egenskaper till dess prekursor. I de flesta situationer är det mer sannolikt att en mindre kemisk förändring låter proteinet fortsätta att fungera, och en stor kemisk förändring kommer sannolikt att störa den kemiska strukturen och orsaka att proteinet inte fungerar. Att införliva detta i en modell är dock inte okomplicerat eftersom förhållandet mellan en nukleotidsubstitution och effekterna av de modifierade kemiska egenskaperna är mycket svårt att fastställa.
Ett ytterligare bekymmer är att effekterna av tid måste inkorporeras i en analys, om de linjer som jämförs är nära besläktade; detta beror på att det kan ta ett antal generationer för naturligt urval att "sålla bort" skadliga mutationer från en population, speciellt om deras effekt på konditionen är svag. Detta begränsar användbarheten av K a /K s- kvoten för att jämföra närbesläktade populationer.
Individuell kodonmetod
Ytterligare information kan erhållas genom att bestämma Ka / Ks - förhållandet vid specifika kodoner inom en gensekvens. Till exempel kan frekvensinställningsområdet för ett opsin vara under förstärkt selektivt tryck när en art koloniserar och anpassar sig till ny miljö, medan regionen som är ansvarig för att initiera en nervsignal kan vara under renande urval. För att upptäcka sådana effekter skulle man helst beräkna K a /K s -förhållandet på varje plats. Men detta är beräkningsmässigt dyrt och i praktiken etableras ett antal K a /K s klasser, och varje plats tilldelas den bäst passande klassen.
Det första steget för att identifiera om positivt urval verkar på platser är att jämföra ett test där K a /K s- förhållandet är begränsat till att vara < 1 på alla platser med ett där det kan ta vilket värde som helst, och se om det tillåter K a / K s att överskrida 1 på vissa platser förbättrar modellens passform. Om så är fallet, kan webbplatser som passar in i klassen där K a /K s > 1 är kandidater för att uppleva positivt urval. Denna form av test kan antingen identifiera platser som ytterligare laboratorieforskning kan undersöka för att fastställa eventuellt selektivt tryck; eller, platser som tros ha funktionell betydelse kan tilldelas olika K a /K s klasser innan modellen körs.
Anteckningar
Vidare läsning
- Comeron JM (december 1995). "En metod för att uppskatta antalet synonyma och icke-synonyma substitutioner per webbplats". Journal of Molecular Evolution . 41 (6): 1152–1159. Bibcode : 1995JMolE..41.1152C . doi : 10.1007/bf00173196 . PMID 8587111 . S2CID 19262479 .
- Goldman N, Yang Z (september 1994). "En kodonbaserad modell för nukleotidsubstitution för proteinkodande DNA-sekvenser" . Molekylärbiologi och evolution . 11 (5): 725–736. doi : 10.1093/oxfordjournals.molbev.a040153 . PMID 7968486 .
- Hurst LD (september 2002). "Ka/Ks-förhållandet: diagnostisera formen av sekvensutveckling". Trender inom genetik . 18 (9): 486–487. doi : 10.1016/S0168-9525(02)02722-1 . PMID 12175810 .
- Ina Y (februari 1995). "Nya metoder för att uppskatta antalet synonyma och icke-synonyma substitutioner". Journal of Molecular Evolution . 40 (2): 190–226. Bibcode : 1995JMolE..40..190I . doi : 10.1007/bf00167113 . PMID 7699723 . S2CID 25430897 .
- Li WH (januari 1993). "Opartisk uppskattning av frekvensen av synonyma och icke-synonyma substitutioner". Journal of Molecular Evolution . 36 (1): 96–99. Bibcode : 1993JMolE..36...96L . doi : 10.1007/bf02407308 . PMID 8433381 . S2CID 21618703 .
- Li WH , Wu CI, Luo CC (mars 1985). "En ny metod för att uppskatta synonyma och icke-synonyma hastigheter för nukleotidsubstitution med tanke på den relativa sannolikheten för nukleotid- och kodonförändringar" . Molekylärbiologi och evolution . 2 (2): 150–174. doi : 10.1093/oxfordjournals.molbev.a040343 . PMID 3916709 .
- Muse SV, Gaut BS (september 1994). "En sannolikhetsmetod för att jämföra synonyma och icke-synonyma nukleotidsubstitutionshastigheter, med tillämpning på kloroplastgenomet" . Molekylärbiologi och evolution . 11 (5): 715–724. doi : 10.1093/oxfordjournals.molbev.a040152 . PMID 7968485 .
- Nei M, Gojobori T (september 1986). "Enkla metoder för att uppskatta antalet synonyma och icke-synonyma nukleotidsubstitutioner" . Molekylärbiologi och evolution . 3 (5): 418–426. doi : 10.1093/oxfordjournals.molbev.a040410 . PMID 3444411 .
- Pamilo P, Bianchi NO (mars 1993). "Evolution av Zfx- och Zfy-gener: hastigheter och ömsesidigt beroende mellan generna" . Molekylärbiologi och evolution . 10 (2): 271–281. doi : 10.1093/oxfordjournals.molbev.a040003 . PMID 8487630 .
- Yang Z (oktober 1997). "PAML: ett programpaket för fylogenetisk analys med maximal sannolikhet" . Datortillämpningar inom biovetenskaperna . 13 (5): 555–556. doi : 10.1093/bioinformatics/13.5.555 . PMID 9367129 .
- Yang Z, Nielsen R (januari 2000). "Uppskattning av synonyma och icke-synonyma substitutionshastigheter under realistiska evolutionära modeller" . Molekylärbiologi och evolution . 17 (1): 32–43. doi : 10.1093/oxfordjournals.molbev.a026236 . PMID 10666704 .
- Zhang Z, Li J, Yu J (juni 2006). "Beräkning av Ka och Ks med hänsyn till ojämlika övergångssubstitutioner" . BMC Evolutionsbiologi . 6 (1): 44. doi : 10.1186/1471-2148-6-44 . PMC 1552089 . PMID 16740169 .
- Zhang Z, Li J, Zhao XQ, Wang J, Wong GK, Yu J (november 2006). "KaKs_Calculator: beräkna Ka och Ks genom modellval och modellmedelvärde" . Genomik, proteomik och bioinformatik . 4 (4): 259–263. doi : 10.1016/S1672-0229(07)60007-2 . PMC 5054075 . PMID 17531802 .
externa länkar
- KaKs_Kalkylator
- Gratis online serververktyg som beräknar KaKs förhållanden mellan flera sekvenser
- SeqinR: Ett gratis och öppet biologiskt sekvensanalyspaket för R-språket som inkluderar KaKs-beräkning