PSIPRED

PSIPRED
Originalförfattare
  • David T. Jones
  • Daniel Buchan
  • Tim Nugent
  • Liam McGuffin
  • Federico Minneci
  • Kevin Bryson
Utvecklare University College London , Bioinformatics Group
Initial release 1999 ; 24 år sedan ( 1999 )
Stabil frisättning
4.02 / 26 september 2018 ; för 4 år sedan ( 2018-09-26 )
Skrivet i C
Operativ system Windows 2000 , Unix
Plattform x86 , Java
Storlek 14 MB
Tillgänglig i engelsk
Typ Bioinformatik sekundär struktur förutsägelse
Licens Proprietär gratis källkod
Hemsida bioinf .cs .ucl .ac .uk /psipred

PSI-blastbaserad sekundär struktur PREDiction ( PSIPRED ) är en metod som används för att undersöka proteinstruktur . Den använder maskininlärningsmetoder för artificiella neurala nätverk i sin algoritm. Det är ett på serversidan , med en webbplats som fungerar som ett front-end-gränssnitt, som kan förutsäga ett proteins sekundära struktur ( beta-ark , alfa-helixar och spolar ) från den primära sekvensen.

PSIPRED är tillgänglig som en webbtjänst och som programvara. Programvaran distribueras som källkod , licensierad tekniskt som proprietär programvara . Det tillåter modifiering, men upprätthåller gratisprogram genom att förbjuda vinstdrivande distribution av programvaran och dess resultat.

Sekundär struktur

Sekundär struktur är den allmänna tredimensionella formen av lokala segment av biopolymerer såsom proteiner och nukleinsyror ( DNA , RNA ). Den beskriver dock inte specifika atompositioner i det tredimensionella rymden, som anses vara den tertiära strukturen . Sekundär struktur kan formellt definieras av vätebindningar , såsom observeras i en atomupplösningsstruktur. I proteiner definieras den sekundära strukturen av mönstren för vätebindning mellan amino- och karboxylgrupper i ryggraden . Omvänt, för nukleinsyror, består den sekundära strukturen av vätebindningen mellan kvävebaserna . Vätebindningsmönstren kan vara avsevärt förvrängda, vilket försvårar automatisk bestämning av sekundär struktur. Ansträngningar att använda datorer för att förutsäga sekundära proteinstrukturer , baserat endast på deras givna primärstruktursekvenser , har pågått sedan 1970-talet.

Förutsägelse av sekundär struktur involverar en uppsättning metoder inom bioinformatik som syftar till att förutsäga de lokala sekundära strukturerna hos proteiner och RNA-sekvenser endast baserat på kunskap om deras primära struktur aminosyra respektive nukleotidsekvens . För proteiner består en förutsägelse av att tilldela regioner av aminosyrasekvensen som mycket sannolika alfahelixar , betasträngar (ofta betecknade som förlängda konformationer ) eller vändningar. Framgången för en förutsägelse bestäms genom att jämföra den med resultaten av DSSP-algoritmen som tillämpas på proteinets kristallstruktur; för nukleinsyror kan det bestämmas från vätebindningsmönstret. Specialiserade algoritmer har utvecklats för att detektera specifika väldefinierade mönster såsom transmembranspiraler och lindade spolar i proteiner, eller kanoniska mikro-RNA-strukturer i RNA.

Grundläggande information

Tanken med denna metod är att använda informationen från de evolutionärt relaterade proteinerna för att förutsäga den sekundära strukturen av en ny aminosyrasekvens. PSI BLAST används för att hitta relaterade sekvenser och för att bygga en positionsspecifik poängmatris. Denna matris bearbetas av ett artificiellt neuralt nätverk , som konstruerades och tränades för att förutsäga den sekundära strukturen för inmatningssekvensen; kort sagt, det är en maskininlärningsmetod .

Förutsägelsealgoritm (metod)

Förutsägelsemetoden eller algoritmen är uppdelad i tre steg: generering av en sekvensprofil , förutsägelse av initial sekundär struktur och filtrering av den förutspådda strukturen . PSIPRED arbetar för att normalisera sekvensprofilen som genereras av PSIBLAST. Sedan, genom att använda neurala nätverk, förutsägs initial sekundär struktur. För varje aminosyra i sekvensen matas det neurala nätverket med ett fönster på 15 syror. Tillagd information bifogas, som indikerar om fönstret sträcker sig över N- eller C-änden av kedjan. Detta resulterar i ett slutgiltigt indatalager på 315 indataenheter, uppdelade i 15 grupper om 21 enheter. Nätverket har ett dolt lager med 75 enheter och 3 utgångsnoder (en för varje sekundärt strukturelement: helix, ark, spole).

Ett andra neuralt nätverk används för att filtrera den förutsagda strukturen för det första nätverket. Detta nätverk matas också med ett fönster på 15 positioner. Indikatorn på fönstrets möjliga position vid en kedjeterminal skickas också vidare. Detta resulterar i 60 inmatningsenheter, uppdelade i 15 grupper om fyra. Nätverket har ett dolt lager på 60 enheter och resulterar i tre utgångsnoder (en för varje sekundärt strukturelement: helix, ark, spole).

De tre slutliga utgångsnoderna ger en poäng för varje sekundärt strukturelement för fönstrets centrala position. Genom att använda den sekundära strukturen med den högsta poängen genererar PSIPRED proteinförutsägelsen. Q3-värdet är den del av rester som förutsägs korrekt i de sekundära strukturtillstånden, nämligen helix, sträng och spole.

Se även