Statistisk potential
I proteinstrukturförutsägelse är statistiska potentialer eller kunskapsbaserade potentialer poängfunktioner som härrör från en analys av kända proteinstrukturer i Protein Data Bank ( PDB).
Den ursprungliga metoden för att erhålla sådana potentialer är den kvasikemiska approximationen, på grund av Miyazawa och Jernigan. Den följdes senare av potentialen för medelkraft (statistisk PMF), utvecklad av Sippl. Även om de erhållna poängen ofta betraktas som approximationer av den fria energin - alltså kallad pseudoenergier - är denna fysiska tolkning felaktig. Icke desto mindre tillämpas de med framgång i många fall, eftersom de ofta korrelerar med faktiska skillnader i Gibbs fria energi .
Översikt
Möjliga egenskaper som en pseudoenergi kan tilldelas inkluderar:
- interatomära avstånd ,
- torsionsvinklar ,
- exponering för lösningsmedel ,
- eller vätebindningsgeometri .
Den klassiska tillämpningen är dock baserad på parvisa aminosyrakontakter eller avstånd, vilket ger statistiska interatomära potentialer . För parvisa aminosyrakontakter formuleras en statistisk potential som en interaktionsmatris som tilldelar ett vikt- eller energivärde till varje möjligt par av standardaminosyror . Energin för en viss strukturell modell är då den kombinerade energin av alla parvisa kontakter (definierade som två aminosyror inom ett visst avstånd från varandra) i strukturen. Energierna bestäms med hjälp av statistik över aminosyrakontakter i en databas med kända proteinstrukturer (erhållen från PDB ).
Historia
Inledande utveckling
Många läroböcker presenterar de statistiska PMFs som föreslagits av Sippl som en enkel konsekvens av Boltzmann-fördelningen , som tillämpas på parvisa avstånd mellan aminosyror. Detta är felaktigt, men en användbar start för att introducera konstruktionen av potentialen i praktiken. Boltzmann-fördelningen tillämpad på ett specifikt par av aminosyror, ges av:
där är avståndet, är Boltzmann-konstanten , är temperaturen och är partitionsfunktionen , med
Kvantiteten är den fria energin som tilldelas det parvisa systemet. Enkel omarrangering resulterar i den inversa Boltzmann-formeln , som uttrycker den fria energin som en funktion av :
För att konstruera en PMF introducerar man sedan ett så kallat referenstillstånd med en motsvarande fördelning och partitionsfunktion och beräknar följande fri energiskillnad:
Referenstillståndet härrör typiskt från ett hypotetiskt system där de specifika interaktionerna mellan aminosyrorna saknas. Den andra termen som involverar och kan ignoreras, eftersom den är en konstant.
I praktiken uppskattas från databasen med kända proteinstrukturer, medan vanligtvis är resultatet av beräkningar eller simuleringar. Till exempel vara den villkorade sannolikheten för att hitta -atomerna för en valin och en serin på ett givet avstånd från varandra, vilket ger upphov till den fria energiskillnaden . Den totala fria energiskillnaden för ett protein, påstås då vara summan av alla parvisa fria energier:
där summan löper över alla aminosyrapar (med ) och är deras motsvarande avstånd. I många studier inte beroende av aminosyrasekvensen .
Konceptuella frågor
Intuitivt är det tydligt att ett lågt värde för indikerar att uppsättningen av avstånd i en struktur är mer sannolikt i proteiner än i referenstillståndet. Den fysiska innebörden av dessa statistiska PMF har emellertid varit mycket omtvistad sedan de introducerades. Huvudfrågorna är:
- Den felaktiga tolkningen av denna "potential" som en sann, fysiskt giltig potential för medelkraft ;
- Typen av det så kallade referenstillståndet och dess optimala formulering;
- Giltigheten av generaliseringar bortom parvisa avstånd.
Kontroversiell analogi
Som svar på frågan om den fysiska giltigheten försökte Sippl den första motiveringen av statistiska PMF: er. Den baserades på en analogi med vätskors statistiska fysik. För vätskor är potentialen för medelkraft relaterad till den radiella fördelningsfunktionen som ges av:
där och är respektive sannolikhet för att hitta två partiklar på ett avstånd från varandra i vätskan och i referenstillståndet. För vätskor är referenstillståndet klart definierat; den motsvarar den ideala gasen, bestående av icke-interagerande partiklar. Tvåpartikelpotentialen för medelkraften är relaterad till med:
Enligt den reversibla arbetssatsen är tvåpartikelpotentialen för medelkraften det reversibla arbetet som krävs för att föra två partiklar i vätskan från oändlig separation till ett avstånd från varandra.
Sippl motiverade användningen av statistiska PMFs - några år efter att han introducerade dem för användning i proteinstrukturförutsägelse - genom att vädja till analogin med det reversibla arbetssatsen för vätskor. För vätskor experimentellt mätas med användning av röntgenspridning med liten vinkel ; för proteiner erhålls Men som Ben-Naim skrev i en publikation om ämnet:
[...] kvantiteterna, som kallas "statistiska potentialer", "strukturbaserade potentialer" eller "parpotentialer av medelkraft", som härleds från proteindatabanken (PDB), är varken "potentialer" eller "potentialer" av medelkraft", i vanlig mening som används i litteraturen om vätskor och lösningar.
Dessutom löser denna analogi inte frågan om hur man specificerar ett lämpligt referenstillstånd för proteiner.
Maskininlärning
I mitten av 2000-talet började författarna kombinera flera statistiska potentialer, härledda från olika strukturella egenskaper, till sammansatta poäng . För det ändamålet använde de maskininlärningstekniker , såsom stödvektormaskiner (SVM). Probabilistiska neurala nätverk (PNN) har också använts för träning av en positionsspecifik avståndsberoende statistisk potential. Under 2016 DeepMind artificiell intelligens forskningslaboratoriet att tillämpa djupinlärningstekniker för att utveckla en vridnings- och avståndsberoende statistisk potential. Den resulterande metoden, kallad AlphaFold , vann den 13:e Critical Assessment of Techniques for Protein Structure Prediction (CASP) genom att korrekt förutsäga den mest exakta strukturen för 25 av 43 fria modelleringsdomäner .
Förklaring
Bayesiansk sannolikhet
Baker och medarbetare motiverade statistiska PMF från en Bayesiansk synvinkel och använde dessa insikter i konstruktionen av den grovkorniga ROSETTA -energifunktionen. Enligt Bayesiansk sannolikhetskalkyl kan den villkorliga sannolikheten för en struktur , givet aminosyrasekvensen , vara skrivet som:
är proportionell mot produkten av sannolikheten gånger föregående . Genom att anta att sannolikheten kan approximeras som en produkt av parvisa sannolikheter, och tillämpa Bayes sats , kan sannolikheten skrivas som:
där produkten löper över alla aminosyrapar (med ), och är avståndet mellan aminosyrorna och . Uppenbarligen har det negativa av logaritmen för uttrycket samma funktionella form som de klassiska statistiska PMF:erna för parvis avstånd, där nämnaren spelar rollen som referenstillståndet. Denna förklaring har två brister: den bygger på det ogrundade antagandet att sannolikheten kan uttryckas som en produkt av parvisa sannolikheter, och den är rent kvalitativ .
Sannolikhetskinematik
Hamelryck och medarbetare gav senare en kvantitativ förklaring till de statistiska potentialerna, enligt vilken de approximerar en form av probabilistiskt resonemang på grund av Richard Jeffrey och namngav sannolikhetskinematik . Denna variant av Bayesianskt tänkande (ibland kallad " Jeffrey-konditionering ") tillåter uppdatering av en tidigare fördelning baserat på ny information om sannolikheterna för elementen i en partition med stöd av föregående. Ur denna synvinkel är (i) det inte nödvändigt att anta att databasen med proteinstrukturer – som används för att bygga potentialerna – följer en Boltzmann-fördelning, (ii) statistiska potentialer generaliserar lätt bortom parvisa skillnader, och (iii) referensen förhållandet bestäms av den tidigare fördelningen.
Referensförhållande
Uttryck som liknar statistiska PMF är naturligt ett resultat av tillämpningen av sannolikhetsteori för att lösa ett fundamentalt problem som uppstår vid förutsägelse av proteinstruktur: hur man förbättrar en imperfekt sannolikhetsfördelning över en första variabel med en sannolikhetsfördelning över en andra variabel , med . Typiskt och finkorniga respektive grovkorniga variabler. Till exempel beröra proteinets lokala struktur, medan kan avse de parvisa avstånden mellan aminosyrorna. I det fallet till exempel kunna vara en vektor av dihedriska vinklar som specificerar alla atompositioner (under antagande av idealiska bindningslängder och vinklar). För att kombinera de två fördelningarna, så att den lokala strukturen kommer att fördelas enligt medan de parvisa avstånden kommer att fördelas enligt , följande uttryck behövs:
där är fördelningen över antydd av . Förhållandet i uttrycket motsvarar PMF. Typiskt in genom sampling (vanligtvis från ett fragmentbibliotek) och utvärderas inte explicit; förhållandet, som däremot uttryckligen utvärderas, motsvarar Sippls PMF. Denna förklaring är kvantitiv och tillåter generalisering av statistiska PMF från parvisa avstånd till godtyckliga grovkorniga variabler. Det ger också en rigorös definition av referenstillståndet, vilket antyds av . Konventionella tillämpningar av statistiska PMF:er med parvis avstånd saknar vanligtvis två nödvändiga egenskaper för att göra helt rigorösa: användningen av en korrekt sannolikhetsfördelning över parvisa avstånd i proteiner, och insikten att referenstillståndet är rigoröst definierat av Q ( X ) .
Ansökningar
Statistiska potentialer används som energifunktioner i bedömningen av en ensemble av strukturella modeller framställda genom homologimodellering eller proteintrådning . Många olika parametriserade statistiska potentialer har visat sig framgångsrikt identifiera den infödda tillståndsstrukturen från en ensemble av lockbete eller icke-infödda strukturer. Statistiska potentialer används inte bara för förutsägelse av proteinstruktur , utan också för att modellera proteinveckningsvägen .
Se även
- Poängfunktioner för dockning
- Diskret optimerad proteinenergi
- CASP
- CAMEO3D
- Lennard-Jones potential
- Obligationsorderpotential