Direktkopplingsanalys
Direktkopplingsanalys eller DCA är ett paraplybegrepp som omfattar flera metoder för att analysera sekvensdata inom beräkningsbiologi . Den vanliga idén med dessa metoder är att använda statistisk modellering för att kvantifiera styrkan i det direkta sambandet mellan två positioner i en biologisk sekvens , exklusive effekter från andra positioner. Detta kontrasterar vanliga mått på korrelation , som kan vara stora även om det inte finns något direkt samband mellan positionerna (därav namnet direktkopplingsanalys ). Ett sådant direkt samband kan till exempel vara det evolutionära trycket för två positioner för att bibehålla ömsesidig kompatibilitet i den biomolekylära strukturen av sekvensen, vilket leder till molekylär samevolution mellan de två positionerna. DCA har använts vid slutledning av proteinresterkontakter , RNA-strukturförutsägelse , slutledning av protein-proteininteraktionsnätverk , modellering av fitnesslandskap och identifiering av funktionellt relevanta restgemenskaper.
Matematisk modell och slutledning
Matematisk modell
Grunden för DCA är en statistisk modell för variabiliteten inom en uppsättning fylogenetiskt relaterade biologiska sekvenser . När den är anpassad till en multipelsekvensinriktning (MSA) av sekvenser med längden , definierar modellen en sannolikhet för alla möjliga sekvenser av samma längd. Denna sannolikhet kan tolkas som sannolikheten att sekvensen i fråga tillhör samma klass av sekvenser som de i MSA, till exempel klassen av alla proteinsekvenser som tillhör en specifik proteinfamilj .
Vi betecknar en sekvens med , med a är kategoriska variabler som representerar monomererna i sekvensen (om sekvenserna till exempel är inriktade aminosyrasekvenser av proteiner i en proteinfamilj, tar som värden något av 20 standardaminosyror ). Sannolikheten för en sekvens inom en modell definieras då som
var
- är uppsättningar av reella tal som representerar modellens parametrar (mer nedan)
- är en normaliseringskonstant (ett reellt tal) för att säkerställa
Parametrarna beror på en position och symbolen vid denna position. De kallas vanligtvis fält och representerar symbolens benägenhet att hittas på en viss position. Parametrarna beror på par av positioner och symbolerna vid dessa positioner. De brukar kallas kopplingar och representerar en interaktion, dvs en term som kvantifierar hur kompatibla symbolerna på båda positionerna är med varandra. Modellen är helt ansluten , så det finns interaktioner mellan alla par av positioner. Modellen kan ses som en generalisering av Ising-modellen , där snurrar inte bara tar två värden, utan vilket värde som helst från ett givet ändligt alfabet. Faktum är att när alfabetets storlek är 2, reduceras modellen till Ising-modellen. Eftersom den också påminner om modellen med samma namn kallas den ofta för Potts Model.
Även att känna till sannolikheterna för alla sekvenser bestämmer inte parametrarna unikt. Till exempel en enkel transformation av parametrarna
för varje uppsättning reella tal lämnar sannolikheterna desamma. Sannolikhetsfunktionen inte användas för att fixa dessa frihetsgrader (även om en tidigare parametrar kan göra det).
En konvention som ofta finns i litteraturen är att fixera dessa frihetsgrader så att Frobenius-normen för kopplingsmatrisen
minimeras (oberoende för varje positionspar och ).
Maximal entropi härledning
För att motivera Potts-modellen noteras det ofta att den kan härledas enligt en princip om maximal entropi : För en given uppsättning samvariationer och frekvenser representerar Potts-modellen fördelningen med den maximala Shannon-entropin för alla distributioner som reproducerar dessa kovarianser och frekvenser. . För en multipelsekvensinriktning definieras provets kovarianser som
- ,
där är frekvensen för att hitta symbolerna och vid positionerna och i samma sekvens i MSA, och frekvensen för att hitta symbolen vid position . Potts-modellen är då den unika fördelningen som maximerar det funktionella
Den första termen i den funktionella är fördelningens Shannon-entropi . λ är lagrangemultiplikatorer för att säkerställa , där är marginalsannolikheten för att hitta symbolerna vid positionerna . Lagrangemultiplikatorn säkerställer normalisering. Maximera denna funktionella och identifierande
leder till Potts-modellen ovan. Denna procedur ger bara Potts-modellens funktionella form, medan de numeriska värdena för Lagrange-multiplikatorerna (identifierade med parametrarna) fortfarande måste bestämmas genom att anpassa modellen till data.
Direktkopplingar och indirekt korrelation
Den centrala punkten i DCA är att tolka (som kan representeras som en matris om det finns möjliga symboler ) som direktkopplingar. Om två positioner är under gemensamt evolutionärt tryck (till exempel för att upprätthålla en strukturell bindning), kan man förvänta sig att dessa kopplingar är stora eftersom endast sekvenser med passande symbolpar bör ha en signifikant sannolikhet. Å andra sidan betyder en stor korrelation mellan två positioner inte nödvändigtvis att kopplingarna är stora, eftersom stora kopplingar mellan t.ex. positionerna och kan leda till till stora korrelationer mellan positioner och förmedlade av position . Faktum är att sådana indirekta korrelationer har varit inblandade i den höga falska positiva frekvensen när man sluter sig till proteinresterkontakter med hjälp av korrelationsmått som ömsesidig information .
Slutledning
Potts-modellens slutledning om en multipelsekvensanpassning (MSA) som använder maximal sannolikhetsuppskattning är vanligtvis beräkningsmässigt svårhanterlig, eftersom man behöver beräkna normaliseringskonstanten vilket är för sekvenslängd och möjliga symboler en summa av termer (vilket betyder till exempel för en liten proteindomänfamilj med 30 positioner termer) . Därför har många approximationer och alternativ utvecklats:
- mpDCA (slutledning baserad på meddelandeförmedling/trospridning )
- mfDCA (inferens baserad på en approximation av medelfält )
- gaussDCA (inferens baserad på en gaussisk approximation)
- plmDCA (inferens baserad på pseudo-sannolikheter )
- Adaptiv klusterexpansion
Alla dessa metoder leder till någon form av uppskattning för uppsättningen av parametrar som maximerar sannolikheten för MSA. Många av dem inkluderar legalisering eller tidigare villkor för att säkerställa ett välformulerat problem eller främja en sparsam lösning.
Ansökningar
Förutsägelse av kontakt med proteinrester
En möjlig tolkning av stora värden av kopplingar i en modell anpassad till en MSA av en proteinfamilj är förekomsten av konserverade kontakter mellan positioner (rester) i familjen. En sådan kontakt kan leda till molekylär samevolution, eftersom en mutation i en av de två resterna, utan en kompenserande mutation i den andra resten, sannolikt kommer att störa proteinstrukturen och negativt påverka proteinets kondition. Restpar för vilka det finns ett starkt selektivt tryck för att upprätthålla ömsesidig kompatibilitet förväntas därför mutera tillsammans eller inte alls. Denna idé (som var känd i litteraturen långt innan uppfattningen av DCA) har använts för att förutsäga proteinkontaktkartor , till exempel för att analysera den ömsesidiga informationen mellan proteinrester.
Inom ramen för DCA definieras ofta en poäng för styrkan av den direkta interaktionen mellan ett par rester i motsvarande kopplingsmatris och tillämpa en genomsnittlig produktkorrigering (APC):
där har definierats ovan och
- .
Denna korrigeringsterm introducerades först för ömsesidig information och används för att ta bort fördomar i specifika positioner för att producera stora . Poäng som är invarianta under parametertransformationer som inte påverkar sannolikheterna har också använts. Sortering av alla restpar efter denna poäng resulterar i en lista där toppen av listan är starkt berikad i restkontakter jämfört med proteinkontaktkartan för ett homologt protein. Högkvalitativa förutsägelser av restkontakter är värdefulla som tidigare information vid förutsägelse av proteinstruktur .
Slutsats av protein-proteininteraktion
DCA kan användas för att detektera konserverad interaktion mellan proteinfamiljer och för att förutsäga vilka restpar som bildar kontakter i ett proteinkomplex . Sådana förutsägelser kan användas när man genererar strukturella modeller för dessa komplex, eller när man drar slutsatsen mellan protein-proteininteraktionsnätverk gjorda av mer än två proteiner.
Modellering av fitnesslandskap
DCA kan användas för att modellera fitnesslandskap och för att förutsäga effekten av en mutation i ett proteins aminosyrasekvens på dess kondition.
externa länkar
Online tjänster:
Källkod:
Användbara applikationer: