Homologimodellering

Homologimodell av DHRS7B-proteinet skapat med schweizisk modell och renderat med PyMOL

Homologimodellering , även känd som jämförande modellering av protein, hänvisar till att konstruera en atomupplösningsmodell av " mål " -proteinet från dess aminosyrasekvens och en experimentell tredimensionell struktur av ett relaterat homologt protein ("mallen" ) . Homologimodellering förlitar sig på identifieringen av en eller flera kända proteinstrukturer som sannolikt liknar strukturen hos frågesekvensen, och på produktionen av en inriktning som kartlägger rester i frågesekvensen till rester i mallsekvensen. Man har sett att proteinstrukturer är mer konserverade än proteinsekvenser bland homologer, men sekvenser som faller under en 20% sekvensidentitet kan ha mycket olika struktur.

Evolutionärt besläktade proteiner har liknande sekvenser och naturligt förekommande homologa proteiner har liknande proteinstruktur. Det har visats att tredimensionell proteinstruktur är evolutionärt mer konserverad än vad som skulle förväntas på basis av enbart sekvenskonservering.

Sekvensinriktningen och mallstrukturen används sedan för att producera en strukturell modell av målet. Eftersom proteinstrukturer är mer konserverade än DNA-sekvenser, och detekterbara nivåer av sekvenslikhet innebär vanligtvis signifikant strukturell likhet.

Kvaliteten på homologimodellen är beroende av kvaliteten på sekvensinriktningen och mallstrukturen. Tillvägagångssättet kan kompliceras av närvaron av inriktningsluckor (vanligtvis kallade indels) som indikerar en strukturell region som finns i målet men inte i mallen, och av strukturluckor i mallen som uppstår på grund av dålig upplösning i den experimentella proceduren (vanligtvis X -ray crystallography ) används för att lösa strukturen. Modellkvaliteten minskar med minskande sekvensidentitet ; en typisk modell har ~1–2 Å rotmedelkvadratavvikelse mellan de matchade C α -atomerna vid 70 % sekvensidentitet men endast 2–4 Å överensstämmelse vid 25 % sekvensidentitet. Felen är dock signifikant högre i loopregionerna, där aminosyrasekvenserna för mål- och mallproteinerna kan vara helt olika.

Områden i modellen som konstruerades utan en mall, vanligtvis genom loopmodellering , är i allmänhet mycket mindre exakta än resten av modellen. Fel i sidokedjepackning och position ökar också med minskande identitet, och variationer i dessa packningskonfigurationer har föreslagits som en huvudorsak till dålig modellkvalitet vid låg identitet. Sammantaget är dessa olika atompositionsfel betydande och hindrar användningen av homologimodeller för ändamål som kräver atomupplösningsdata, såsom läkemedelsdesign och förutsägelser om interaktion mellan protein och protein ; även den kvartära strukturen hos ett protein kan vara svår att förutsäga från homologimodeller av dess underenhet(er). Ändå kan homologimodeller vara användbara för att nå kvalitativa slutsatser om frågesekvensens biokemi, särskilt för att formulera hypoteser om varför vissa rester bevaras, vilket i sin tur kan leda till experiment för att testa dessa hypoteser. Till exempel kan det rumsliga arrangemanget av konserverade rester antyda om en viss rest är konserverad för att stabilisera veckningen, för att delta i bindning av någon liten molekyl eller för att främja association med ett annat protein eller nukleinsyra.

Homologimodellering kan producera högkvalitativa strukturella modeller när målet och mallen är nära besläktade, vilket har inspirerat bildandet av ett strukturellt genomikkonsortium dedikerat till produktion av representativa experimentella strukturer för alla klasser av proteinveck. De främsta felaktigheterna i homologimodellering, som förvärras med lägre sekvensidentitet , härrör från fel i den initiala sekvensinriktningen och från felaktigt mallval. Liksom andra metoder för strukturförutsägelse, utvärderas nuvarande praxis inom homologimodellering i ett tvåårigt storskaligt experiment känt som Critical Assessment of Techniques for Protein Structure Prediction, eller CASP .

Motiv

Metoden för homologimodellering är baserad på observationen att proteinets tertiära struktur är bättre bevarad än aminosyrasekvensen . Således kommer även proteiner som har avvikit avsevärt i sekvens men fortfarande delar detekterbar likhet också att dela gemensamma strukturella egenskaper, särskilt den övergripande veckningen. Eftersom det är svårt och tidskrävande att erhålla experimentella strukturer från metoder som röntgenkristallografi och protein-NMR för varje protein av intresse, kan homologimodellering ge användbara strukturella modeller för att generera hypoteser om ett proteins funktion och styra ytterligare experimentellt arbete.

Det finns undantag från den allmänna regeln att proteiner som delar signifikant sekvensidentitet kommer att dela en veckning. Till exempel kan en klokt vald uppsättning mutationer på mindre än 50 % av ett protein få proteinet att anta en helt annan veck. Det är dock osannolikt att en sådan massiv strukturell omarrangemang kommer att inträffa under evolutionen , särskilt eftersom proteinet vanligtvis är under begränsningen att det måste vikas ordentligt och utföra sin funktion i cellen. Följaktligen är den grovt vikta strukturen av ett protein (dess "topologi") konserverad längre än dess aminosyrasekvens och mycket längre än motsvarande DNA-sekvens; med andra ord kan två proteiner dela en liknande veck även om deras evolutionära förhållande är så avlägset att det inte kan urskiljas tillförlitligt. Som jämförelse är funktionen hos ett protein bevarad mycket mindre än proteinsekvensen, eftersom relativt få förändringar i aminosyrasekvensen krävs för att ta på sig en relaterad funktion.

Steg i modelltillverkning

Homologimodelleringsproceduren kan delas upp i fyra sekventiella steg: mallval, målmalljustering, modellkonstruktion och modellbedömning. De första två stegen utförs ofta väsentligen tillsammans, eftersom de vanligaste metoderna för att identifiera mallar är beroende av produktionen av sekvensanpassningar; Men dessa justeringar kanske inte är av tillräcklig kvalitet eftersom databassökningstekniker prioriterar hastighet framför anpassningskvalitet. Dessa processer kan utföras iterativt för att förbättra kvaliteten på den slutliga modellen, även om kvalitetsbedömningar som inte är beroende av den verkliga målstrukturen fortfarande är under utveckling.

Att optimera hastigheten och noggrannheten för dessa steg för användning i storskalig automatiserad strukturförutsägelse är en nyckelkomponent i initiativ för strukturell genomik, dels för att den resulterande datavolymen kommer att vara för stor för att bearbetas manuellt och dels för att målet med strukturgenomik kräver att tillhandahålla modeller av rimlig kvalitet till forskare som inte själva är experter på strukturprognoser.

Mallval och sekvensjustering

Det kritiska första steget i homologimodellering är identifieringen av den bästa mallstrukturen, om det verkligen finns någon tillgänglig. Den enklaste metoden för mallidentifiering bygger på seriella parvisa sekvensanpassningar med hjälp av databassökningstekniker som FASTA och BLAST . Känsligare metoder baserade på multipelsekvensanpassning – där PSI-BLAST är det vanligaste exemplet – uppdaterar iterativt sin positionsspecifika poängmatris för att successivt identifiera mer avlägset besläktade homologer. Denna familj av metoder har visat sig producera ett större antal potentiella mallar och identifiera bättre mallar för sekvenser som bara har avlägsna relationer till någon löst struktur. Proteintrådning , även känd som veckigenkänning eller 3D-1D-anpassning, kan också användas som en sökteknik för att identifiera mallar som ska användas i traditionella homologimodelleringsmetoder. Nya CASP- experiment indikerar att vissa proteintrådsmetoder som RaptorX verkligen är känsligare än rent sekvens(profil)-baserade metoder när endast avlägset relaterade mallar är tillgängliga för proteinerna under förutsägelse. När man utför en BLAST-sökning är ett tillförlitligt första tillvägagångssätt att identifiera träffar med ett tillräckligt lågt E -värde, som anses vara tillräckligt nära i utvecklingen för att skapa en pålitlig homologimodell. Andra faktorer kan tippa balansen i marginella fall; till exempel kan mallen ha en funktion som liknar den för frågesekvensen, eller så kan den tillhöra en homolog operon . En mall med dåligt E -värde bör dock i allmänhet inte väljas, även om den är den enda tillgängliga, eftersom den mycket väl kan ha en felaktig struktur, vilket leder till att en missriktad modell produceras. Ett bättre tillvägagångssätt är att skicka in den primära sekvensen till servrar för fold-igenkänning eller, ännu bättre, konsensus-metaservrar som förbättrar individuella fold-igenkänningsservrar genom att identifiera likheter (konsensus) mellan oberoende förutsägelser.

Ofta identifieras flera kandidatmallstrukturer av dessa tillvägagångssätt. Även om vissa metoder kan generera hybridmodeller med bättre noggrannhet från flera mallar, bygger de flesta metoder på en enda mall. Att välja den bästa mallen bland kandidaterna är därför ett nyckelsteg och kan påverka strukturens slutliga noggrannhet avsevärt. Detta val styrs av flera faktorer, såsom likheten mellan fråge- och mallsekvenserna, deras funktioner och den förutsagda frågan och de observerade sekundära mallstrukturerna . Kanske viktigast av allt, täckningen av de justerade regionerna: den del av frågesekvensstrukturen som kan förutsägas från mallen, och rimligheten hos den resulterande modellen. Sålunda produceras ibland flera homologimodeller för en enda frågesekvens, med den mest troliga kandidaten vald endast i det sista steget.

Det är möjligt att använda sekvensinriktningen som genereras av databassökningstekniken som bas för den efterföljande modellproduktionen; men mer sofistikerade tillvägagångssätt har också undersökts. Ett förslag genererar en ensemble av stokastiskt definierade parvisa anpassningar mellan målsekvensen och en enda identifierad mall som ett sätt att utforska "inriktningsutrymme" i sekvensregioner med låg lokal likhet. "Profil-profil" anpassningar som först genererar en sekvensprofil för målet och systematiskt jämför den med sekvensprofilerna för lösta strukturer; den grovkornighet som är inneboende i profilkonstruktionen tros reducera brus som introduceras av sekvensdrift i icke-essentiella områden av sekvensen.

Modellgenerering

Givet en mall och en inriktning måste informationen som finns däri användas för att generera en tredimensionell strukturell modell av målet, representerad som en uppsättning kartesiska koordinater för varje atom i proteinet. Tre huvudklasser av modellgenereringsmetoder har föreslagits.

Fragmentmontering

Den ursprungliga metoden för homologimodellering förlitade sig på sammansättningen av en komplett modell från konserverade strukturella fragment identifierade i närbesläktade lösta strukturer. Till exempel identifierade en modelleringsstudie av serinproteaser i däggdjur en skarp skillnad mellan "kärn"-strukturella regioner bevarade i alla experimentella strukturer i klassen, och variabla regioner som vanligtvis är belägna i slingorna där majoriteten av sekvensskillnaderna var lokaliserade. Således kunde olösta proteiner modelleras genom att först konstruera den konserverade kärnan och sedan ersätta variabla regioner från andra proteiner i uppsättningen av lösta strukturer. Nuvarande implementeringar av denna metod skiljer sig huvudsakligen i hur de hanterar regioner som inte är bevarade eller som saknar en mall. De variabla regionerna är ofta konstruerade med hjälp av fragmentbibliotek .

Segmentmatchning

Segmentmatchningsmetoden delar in målet i en serie korta segment, som vart och ett matchas till sin egen mall som är anpassad från Protein Data Bank . Således görs sekvensinriktning över segment snarare än över hela proteinet. Val av mall för varje segment baseras på sekvenslikhet, jämförelser av alfa- kolkoordinater och förutspådda steriska konflikter som uppstår från van der Waals-radierna för de divergerande atomerna mellan mål och mall.

Tillfredsställelse av rumsliga begränsningar

Den vanligaste aktuella homologimodelleringsmetoden hämtar sin inspiration från beräkningar som krävs för att konstruera en tredimensionell struktur från data genererade med NMR-spektroskopi . En eller flera mål-mall-inriktningar används för att konstruera en uppsättning geometriska kriterier som sedan omvandlas till sannolikhetstäthetsfunktioner för varje begränsning. Begränsningar som tillämpas på de interna huvudkoordinaterna för proteinet – proteinryggradsavstånd och dihedriska vinklar – fungerar som grunden för en global optimeringsprocedur som ursprungligen använde konjugatgradientenergiminimering för att iterativt förfina positionerna för alla tunga atomer i proteinet.

Denna metod hade utökats dramatiskt för att tillämpas specifikt på loopmodellering, vilket kan vara extremt svårt på grund av den höga flexibiliteten hos loopar i proteiner i vattenlösning . En nyare expansion tillämpar spatial-restraint-modellen på elektrondensitetskartor härledda från kryoelektronmikroskopistudier , som ger lågupplöst information som vanligtvis inte är tillräcklig för att generera strukturella modeller med atomupplösning. För att ta itu med problemet med felaktigheter i initial mål-mallsekvensinriktning har en iterativ procedur också införts för att förfina inriktningen på basis av den initiala strukturella passningen. Den mest använda mjukvaran inom rumslig begränsningsbaserad modellering är MODELLER och en databas som heter ModBase har etablerats för tillförlitliga modeller som genereras med den.

Loop modellering

Regioner av målsekvensen som inte är anpassade till en mall modelleras genom loopmodellering ; de är mest mottagliga för stora modelleringsfel och uppträder med högre frekvens när målet och mallen har låg sekvensidentitet. Koordinaterna för omatchade sektioner som bestäms av loopmodelleringsprogram är i allmänhet mycket mindre exakta än de som erhålls genom att helt enkelt kopiera koordinaterna för en känd struktur, särskilt om slingan är längre än 10 rester. De två första sidokedjans dihedriska vinklar 1 och χ 2 ) kan vanligtvis uppskattas inom 30° för en exakt ryggradsstruktur; dock är de senare dihedriska vinklarna som finns i längre sidokedjor såsom lysin och arginin notoriskt svåra att förutsäga. Dessutom kan små fel i χ 1 (och, i mindre utsträckning, i χ 2 ) orsaka relativt stora fel i positionerna för atomerna vid sidokedjans terminus; sådana atomer har ofta en funktionell betydelse, särskilt när de ligger nära den aktiva platsen .

Modellbedömning

Ett stort antal metoder har utvecklats för att välja en native-liknande struktur från en uppsättning modeller. Poängfunktioner har baserats på både molekylär mekaniks energifunktioner (Lazaridis och Karplus 1999; Petrey och Honig 2000; Feig och Brooks 2002; Felts et al. 2002; Lee och Duan 2004), statistiska potentialer (Sippl 1995; Melo och 1998mans; Melo 1998mans; Samudrala och Moult 1998; Rojnuckarin och Subramaniam 1999; Lu och Skolnick 2001; Wallqvist et al. 2002; Zhou och Zhou 2002), restmiljöer (Luthy et al. 1992; Eisenberg et al. 1997; Park et al. 1997; Summa 1 al. 2005), lokala sidokedjor och ryggradsinteraktioner (Fang och Shortle 2005), orienteringsberoende egenskaper (Buchete et al. 2004a,b; Hamelryck 2005), packningsuppskattningar (Berglund et al. 2004), solvatiseringsenergi (Petrey och Honig 2000, McConkey et al. 2003, Wallner och Elofsson 2003, Berglund et al. 2004), vätebindning (Kortemme et al. 2003) och geometriska egenskaper (Colovos och Yeates 1993; Kleywegt 2000; Lovell et al. 2003; Mihalek et al. 2003). Ett antal metoder kombinerar olika potentialer till en global poäng, vanligtvis med hjälp av en linjär kombination av termer (Kortemme et al. 2003; Tosatto 2005), eller med hjälp av maskininlärningstekniker, såsom neurala nätverk (Wallner och Elofsson 2003) och stöd för vektormaskiner (SVM) (Eramian et al. 2006). Jämförelser av olika globala modellkvalitetsbedömningsprogram finns i nya artiklar av Pettitt et al. (2005), Tosatto (2005) och Eramian et al. (2006).

Mindre arbete har rapporterats med den lokala kvalitetsbedömningen av modeller. Lokala poäng är viktiga i samband med modellering eftersom de kan ge en uppskattning av tillförlitligheten för olika regioner i en förutspådd struktur. Denna information kan i sin tur användas för att bestämma vilka regioner som bör förfinas, vilka som bör övervägas för modellering av flera mallar och vilka som bör förutsägas från början. Information om lokal modellkvalitet skulle också kunna användas för att minska det kombinatoriska problemet när man överväger alternativa anpassningar; till exempel, genom att poängsätta olika lokala modeller separat, skulle färre modeller behöva byggas (förutsatt att interaktionerna mellan de separata regionerna är försumbara eller kan uppskattas separat).

En av de mest använda lokala poängsättningsmetoderna är Verify3D (Luthy et al. 1992; Eisenberg et al. 1997), som kombinerar sekundär struktur, lösningsmedelstillgänglighet och polaritet hos restmiljöer. ProsaII (Sippl 1993), som bygger på en kombination av en parvis statistisk potential och en solvatiseringsterm, tillämpas också i stor utsträckning vid modellutvärdering. Andra metoder inkluderar Errat-programmet (Colovos och Yeates 1993), som överväger fördelningar av obundna atomer enligt atomtyp och avstånd, och energipåkänningsmetoden (Maiorov och Abagyan 1998), som använder skillnader från genomsnittliga restenergier i olika miljöer för att indikera vilka delar av en proteinstruktur som kan vara problematiska. Melo och Feytmans (1998) använder en atomär parvis potential och en ytbaserad solvatiseringspotential (båda kunskapsbaserade) för att utvärdera proteinstrukturer. Förutom energipåfrestningsmetoden, som är ett semiempiriskt tillvägagångssätt baserat på kraftfältet ECEPP3 (Nemethy et al. 1992), är alla de lokala metoder som listas ovan baserade på statistiska potentialer. Ett konceptuellt distinkt tillvägagångssätt är ProQres-metoden, som helt nyligen introducerades av Wallner och Elofsson (2006). ProQres är baserat på ett neuralt nätverk som kombinerar strukturella egenskaper för att skilja korrekta från felaktiga regioner. ProQres visade sig överträffa tidigare metoder baserade på statistiska metoder (Verify3D, ProsaII och Errat). Data som presenteras i Wallner och Elofssons studie tyder på att deras maskininlärningsmetod baserad på strukturella egenskaper verkligen är överlägsen statistikbaserade metoder. De kunskapsbaserade metoder som undersökts i deras arbete, Verify3D (Luthy et al. 1992; Eisenberg et al. 1997), Prosa (Sippl 1993) och Errat (Colovos och Yeates 1993), är dock inte baserade på nyare statistiska potentialer.

Benchmarking

Flera storskaliga benchmarking -ansträngningar har gjorts för att bedöma den relativa kvaliteten hos olika nuvarande homologimodelleringsmetoder. CASP är ett gemenskapsomfattande prediktionsexperiment som körs vartannat år under sommarmånaderna och utmanar prediktionsteam att skicka in strukturella modeller för ett antal sekvenser vars strukturer nyligen har lösts experimentellt men ännu inte har publicerats. Dess partner CAFASP har kört parallellt med CASP men utvärderar endast modeller producerade via helautomatiserade servrar. Kontinuerligt pågående experiment som inte har förutsägande "säsonger" fokuserar främst på benchmarking av allmänt tillgängliga webbservrar. LiveBench och EVA körs kontinuerligt för att bedöma deltagande servrars prestanda i förutsägelse av omedelbart släppta strukturer från PDB. CASP och CAFASP fungerar huvudsakligen som utvärderingar av det senaste inom modellering, medan de kontinuerliga utvärderingarna syftar till att utvärdera den modellkvalitet som skulle erhållas av en icke-expert användare som använder allmänt tillgängliga verktyg.

Noggrannhet

Noggrannheten hos de strukturer som genereras av homologimodellering är starkt beroende av sekvensidentiteten mellan mål och mall. Över 50 % sekvensidentitet tenderar modeller att vara tillförlitliga, med endast mindre fel i sidokedjepackning och rotameriskt tillstånd, och en övergripande RMSD mellan den modellerade och den experimentella strukturen som faller runt 1 Å . Detta fel är jämförbart med den typiska upplösningen för en struktur löst med NMR. Inom 30–50 % identitetsintervall kan felen vara allvarligare och ligger ofta i slingor. Under 30 % identitet uppstår allvarliga fel, ibland resulterar i att den grundläggande veckningen missförutspås. Denna region med låg identitet hänvisas ofta till som "skymningszonen" inom vilken homologimodellering är extremt svår och till vilken den möjligen är mindre lämpad än veckigenkänningsmetoder .

Vid höga sekvensidentiteter härrör den primära felkällan i homologimodellering från valet av mallen eller mallarna som modellen är baserad på, medan lägre identiteter uppvisar allvarliga fel i sekvensanpassningen som hämmar produktionen av högkvalitativa modeller. Det har föreslagits att det största hindret för kvalitetsmodellproduktion är otillräckligheter i sekvensanpassning, eftersom "optimala" strukturella anpassningar mellan två proteiner med känd struktur kan användas som input till nuvarande modelleringsmetoder för att producera ganska exakta reproduktioner av den ursprungliga experimentella strukturen.

Försök har gjorts att förbättra noggrannheten hos homologimodeller byggda med befintliga metoder genom att utsätta dem för molekylär dynamiksimulering i ett försök att förbättra deras RMSD till den experimentella strukturen. Men nuvarande kraftfältsparameteriseringar kanske inte är tillräckligt exakta för denna uppgift, eftersom homologimodeller som används som startstrukturer för molekylär dynamik tenderar att producera något sämre strukturer. Små förbättringar har observerats i de fall där betydande begränsningar användes under simuleringen.

Felkällor

De två vanligaste och mest storskaliga felkällorna vid homologimodellering är dåligt mallval och felaktigheter i målmallsekvensinriktning. Att kontrollera för dessa två faktorer genom att använda en strukturell anpassning , eller en sekvensanpassning som produceras på basis av jämförelse av två lösta strukturer, minskar dramatiskt felen i slutliga modeller; dessa "guldstandard" anpassningar kan användas som input till nuvarande modelleringsmetoder för att producera ganska exakta reproduktioner av den ursprungliga experimentella strukturen. Resultat från det senaste CASP-experimentet tyder på att "konsensus"-metoder som samlar in resultaten av multipla fold-igenkänning och multipla anpassningssökningar ökar sannolikheten för att identifiera den korrekta mallen; på samma sätt kan användningen av flera mallar i modellbyggandesteget vara sämre än användningen av den enda korrekta mallen men bättre än användningen av en enda suboptimal. Justeringsfel kan minimeras genom användning av en multipel inriktning även om endast en mall används, och genom iterativ förfining av lokala regioner med låg likhet. En mindre källa till modellfel är fel i mallstrukturen. PDBREPORT - databasen listar flera miljoner, mestadels mycket små men ibland dramatiska, fel i experimentella (mall)strukturer som har deponerats i det preliminära budgetförslaget .

Allvarliga lokala fel kan uppstå i homologimodeller där en insättnings- eller deletionsmutation eller ett gap i en löst struktur resulterar i en region av målsekvensen för vilken det inte finns någon motsvarande mall. Detta problem kan minimeras genom att använda flera mallar, men metoden kompliceras av mallarnas olika lokala strukturer runt gapet och av sannolikheten att en saknad region i en experimentell struktur också saknas i andra strukturer av samma proteinfamilj . Saknade regioner är vanligast i loopar där hög lokal flexibilitet ökar svårigheten att lösa regionen med strukturbestämningsmetoder. Även om viss vägledning tillhandahålls även med en enda mall genom placeringen av ändarna av det saknade området, ju längre gapet är, desto svårare är det att modellera. Slingor med upp till cirka 9 rester kan modelleras med måttlig noggrannhet i vissa fall om den lokala inriktningen är korrekt. Större regioner modelleras ofta individuellt med hjälp av ab initio-strukturförutsägelsetekniker , även om detta tillvägagångssätt endast har haft en isolerad framgång.

De rotameriska tillstånden hos sidokedjorna och deras interna packningsarrangemang uppvisar också svårigheter vid homologimodellering, även i mål för vilka ryggradsstrukturen är relativt lätt att förutsäga. Detta beror delvis på att många sidokedjor i kristallstrukturer inte är i sitt "optimala" rotameriska tillstånd som ett resultat av energifaktorer i den hydrofoba kärnan och i packningen av de enskilda molekylerna i en proteinkristall. En metod för att lösa detta problem kräver sökning i ett rotameriskt bibliotek för att identifiera lokala lågenergikombinationer av packningstillstånd. Det har föreslagits att en huvudorsak till att homologimodellering är så svår när målmallsekvensidentiteten ligger under 30 % är att sådana proteiner har i stort sett likartade veck men vitt divergerande sidokedjepackningsarrangemang.

Verktyg

Användning av de strukturella modellerna inkluderar förutsägelse av interaktion mellan protein och protein , dockning av protein och protein , molekylär dockning och funktionell annotering av gener identifierade i en organisms genom . Även homologimodeller med låg noggrannhet kan vara användbara för dessa ändamål, eftersom deras felaktigheter tenderar att vara lokaliserade i slingorna på proteinytan, som normalt är mer varierande även mellan närbesläktade proteiner. De funktionella regionerna av proteinet, särskilt dess aktiva ställe , tenderar att vara mer högkonserverade och därför mer exakt modellerade.

Homologimodeller kan också användas för att identifiera subtila skillnader mellan relaterade proteiner som inte alla har lösts strukturellt. Till exempel användes metoden för att identifiera katjonbindningsställen på Na + /K + ATPas och för att föreslå hypoteser om olika ATPasers bindningsaffinitet . Används i samband med simuleringar av molekylär dynamik , kan homologimodeller också generera hypoteser om kinetiken och dynamiken hos ett protein, som i studier av jonselektiviteten hos en kaliumkanal . Storskalig automatiserad modellering av alla identifierade proteinkodande regioner i ett genom har försökts för jästen Saccharomyces cerevisiae , vilket resulterat i nästan 1000 kvalitetsmodeller för proteiner vars strukturer ännu inte hade bestämts vid tidpunkten för studien, och identifiera nya samband mellan 236 jästproteiner och andra tidigare lösta strukturer.

Se även