InterPro

InterPro
InterPro logo.png
Innehåll
Beskrivning InterPro analyserar funktionellt proteinsekvenser och klassificerar dem i proteinfamiljer samtidigt som det förutsäger närvaron av domäner och funktionella platser.
Kontakt
Forskningscenter EMBL
Laboratorium European Bioinformatics Institute
Primärt citat InterPro proteinfamiljer och domändatabasen: 20 år senare
Utgivningsdatum 1999
Tillgång
Hemsida www .ebi .ac .uk /interpro /
Ladda ner URL ftp.ebi.ac.uk/pub/databases/interpro/
Diverse
Frekvens för datautgivning
8-vecka
Version 91,0 (13 oktober 2022 ; 4 månader sedan ( 2022-10-13 ) )

InterPro är en databas med proteinfamiljer , proteindomäner och funktionella platser där identifierbara egenskaper som finns i kända proteiner kan appliceras på nya proteinsekvenser för att funktionellt karakterisera dem.

Innehållet i InterPro består av diagnostiska signaturer och de proteiner som de matchar signifikant. Signaturerna består av modeller (enkla typer, såsom reguljära uttryck eller mer komplexa, såsom Hidden Markov-modeller ) som beskriver proteinfamiljer, domäner eller platser. Modeller byggs från aminosyrasekvenserna från kända familjer eller domäner och de används därefter för att söka efter okända sekvenser (såsom de som härrör från ny genomsekvensering) för att klassificera dem. Var och en av InterPros medlemsdatabaser bidrar till en annan nisch, från strukturbaserade klassificeringar på mycket hög nivå ( SUPERFAMILY och CATH-Gene3D) till ganska specifika underfamiljsklassificeringar ( PRINTS och PANTHER ).

InterPros avsikt är att tillhandahålla en one-stop-shop för proteinklassificering, där alla signaturer som produceras av de olika medlemsdatabaserna placeras i poster i InterPro-databasen. Signaturer som representerar likvärdiga domäner, webbplatser eller familjer placeras i samma post och poster kan också relateras till varandra. Ytterligare information såsom en beskrivning, konsekventa namn och Gene Ontology (GO) termer är associerade med varje post, där så är möjligt.

Data som finns i InterPro

InterPro innehåller tre huvudenheter: proteiner, signaturer (även kallade "metoder" eller "modeller") och poster. Proteinerna i UniProtKB är också de centrala proteinenheterna i InterPro. Information om vilka signaturer som signifikant matchar dessa proteiner beräknas eftersom sekvenserna släpps av UniProtKB och dessa resultat görs tillgängliga för allmänheten (se nedan). Matchningarna av signaturer till proteiner är det som avgör hur signaturer integreras tillsammans i InterPro-poster: jämförande överlappning av matchade proteinuppsättningar och platsen för signaturernas matchningar på sekvenserna används som indikatorer på släktskap. Endast signaturer som anses vara av tillräcklig kvalitet integreras i InterPro. Från och med version 81.0 (släppt 21 augusti 2020) noterade InterPro-poster 73,9 % av resterna som hittades i UniProtKB med ytterligare 9,2 % annoterade av signaturer som väntar på integration.

Täckningen av UniProtKB-rester av InterPro-poster från och med InterPro version 81.0.

InterPro inkluderar även data för splitsningsvarianter och proteinerna i UniParc- och UniMES-databaserna.

InterPro konsortiets medlemsdatabaser

Signaturerna från InterPro kommer från 13 "medlemsdatabaser", som listas nedan.

CATH-Gene3D
Beskriver proteinfamiljer och domänarkitekturer i kompletta genom. Proteinfamiljer bildas med användning av en Markov-klustringsalgoritm, följt av multilänk-klustring enligt sekvensidentitet. Kartläggning av förutsagda struktur- och sekvensdomäner görs med hjälp av dolda Markov-modellbibliotek som representerar CATH- och Pfam -domäner. Funktionell anteckning tillhandahålls till proteiner från flera resurser. Funktionell förutsägelse och analys av domänarkitekturer är tillgänglig från Gene3Ds webbplats.
CDD
Conserved Domain Database är en proteinanteckningsresurs som består av en samling kommenterade multipelsekvensanpassningsmodeller för gamla domäner och fullängdsproteiner. Dessa är tillgängliga som positionsspecifika poängmatriser (PSSM) för snabb identifiering av konserverade domäner i proteinsekvenser via RPS-BLAST.
HAMAP
står för högkvalitativ automatiserad och manuell anteckning av mikrobiella proteomer. HAMAP-profiler skapas manuellt av expertkuratorer som identifierar proteiner som är en del av välkonserverade bakteriella, arkeala och plastidkodade (dvs. kloroplaster, cyaneller, apikoplaster, icke-fotosyntetiska plastider) proteinfamiljer eller underfamiljer.
MobiDB
MobiDB är en databas som kommenterar inneboende störning i proteiner.
PANTHER
PANTHER är en stor samling proteinfamiljer som har delats in i funktionellt besläktade underfamiljer, med hjälp av mänsklig expertis. Dessa underfamiljer modellerar divergensen av specifika funktioner inom proteinfamiljer, vilket möjliggör mer exakt association med funktion (humanterad molekylär funktion och biologiska processklassificeringar och vägdiagram), såväl som slutledning av aminosyror som är viktiga för funktionell specificitet. Dolda Markov-modeller (HMM) är byggda för varje familj och underfamilj för att klassificera ytterligare proteinsekvenser.
Pfam
Är en stor samling av flera sekvensanpassningar och dolda Markov-modeller som täcker många vanliga proteindomäner och familjer.
InterPro-konsortiets 13 medlemsdatabaser grupperade efter sin signaturkonstruktionsmetod och den biologiska enhet de fokuserar på.
PIRSF
Proteinklassificeringssystem är ett nätverk med flera nivåer av sekvensdiversitet från superfamiljer till underfamiljer som återspeglar det evolutionära förhållandet mellan fullängdsproteiner och domäner. Den primära PIRSF-klassificeringsenheten är den homeomorfa familjen, vars medlemmar är både homologa (utvecklade från en gemensam förfader) och homeomorfa (som delar sekvenslikhet i full längd och en gemensam domänarkitektur).
PRINTS
PRINTS är ett kompendium av proteinfingeravtryck. Ett fingeravtryck är en grupp av bevarade motiv som används för att karakterisera en proteinfamilj; dess diagnostiska kraft förfinas genom iterativ skanning av UniProt. Vanligtvis överlappar inte motiven utan är separerade längs en sekvens, även om de kan vara sammanhängande i 3D-rymden. Fingeravtryck kan koda proteinveck och funktionalitet mer flexibelt och kraftfullt än enstaka motiv, vars fulla diagnostiska styrka härrör från det ömsesidiga sammanhanget som motivgrannar ger.
PROSITE
PROSITE är en databas med proteinfamiljer och -domäner. Den består av biologiskt signifikanta platser, mönster och profiler som hjälper till att tillförlitligt identifiera vilken känd proteinfamilj (om någon) en ny sekvens tillhör.
SMART
Simple Modular Architecture Research Tool Tillåter identifiering och anteckning av genetiskt mobila domäner och analys av domänarkitekturer. Mer än 800 domänfamiljer som finns i signalering, extracellulära och kromatinassocierade proteiner är detekterbara. Dessa domäner är utförligt kommenterade med avseende på fyletiska distributioner, funktionell klass, tertiära strukturer och funktionellt viktiga rester.
SUPERFAMILY
SUPERFAMILY är ett bibliotek av profildolda Markov-modeller som representerar alla proteiner med känd struktur. Biblioteket är baserat på SCOP- klassificeringen av proteiner: varje modell motsvarar en SCOP-domän och syftar till att representera hela SCOP- superfamiljen som domänen tillhör. SUPERFAMILY har använts för att utföra strukturella tilldelningar till alla fullständigt sekvenserade genom.
SFLD
En hierarkisk klassificering av enzymer som relaterar specifika sekvensstrukturegenskaper till specifika kemiska förmågor.
TIGRFAMs
TIGRFAMs är en samling proteinfamiljer, med kurerade multipla sekvensanpassningar, dolda Markov-modeller (HMMs) och annotering, som tillhandahåller ett verktyg för att identifiera funktionellt relaterade proteiner baserat på sekvenshomologi. De poster som är "ekvivaloger" grupperar homologa proteiner som är konserverade med avseende på funktion.

Datatyper

InterPro består av sju typer av data som tillhandahålls av olika medlemmar i konsortiet:

Datatyper av InterPro
Data typ Beskrivning Bidrar med databaser
InterPro Inlägg Strukturella och/eller funktionella domäner av proteiner förutspådda med användning av en eller flera signaturer Alla 13 medlemsdatabaser
Medlemsdatabas signaturer Signaturer från medlemsdatabaser. Dessa inkluderar signaturer som är integrerade i InterPro, och de som inte är det Alla 13 medlemsdatabaser
Protein Proteinsekvenser UniProtKB (Swiss-Prot och TrEMBL)
Proteom Samling av proteiner som tillhör en enda organism UniProtKB
Strukturera 3-dimensionella strukturer av proteiner PDBe
Taxonomi Protein taxonomisk information UniProtKB
Uppsättning Grupper av evolutionärt relaterade familjer Pfam , CDD
Ikoner som identifierar de fem posttyperna som finns i InterPro (Homolog superfamilj, Familj, Domän, Upprepa eller Webbplats).

InterPro ingångstyper

InterPro-poster kan delas upp ytterligare i fem typer:

  • Homolog superfamilj : En grupp av proteiner som delar ett gemensamt evolutionärt ursprung som ses i deras strukturella likheter, även om deras sekvenser inte är mycket lika. Dessa poster tillhandahålls specifikt endast av två medlemsdatabaser: CATH-Gene3D och SUPERFAMILY.
  • Familj : En grupp av proteiner som har ett gemensamt evolutionärt ursprung bestämt genom strukturella likheter, relaterade funktioner eller sekvenshomologi .
  • Domän: En distinkt enhet i ett protein med en viss funktion, struktur eller sekvens.
  • Upprepa: En sekvens av aminosyror, vanligtvis inte längre än 50 aminosyror, som tenderar att upprepas många gånger i ett protein.
  • Plats: En kort sekvens av aminosyror där minst en aminosyra är bevarad. Dessa inkluderar post-translationsmodifieringsställen , konserverade ställen, bindningsställen och aktiva ställen .

Tillgång

Databasen är tillgänglig för text- och sekvensbaserade sökningar via en webbserver, och för nedladdning via anonym FTP. Liksom andra EBI- databaser är den allmän egendom , eftersom dess innehåll kan användas "av vilken individ som helst och för vilket ändamål som helst". InterPro strävar efter att släppa data till allmänheten var 8:e vecka, vanligtvis inom en dag efter UniProtKB-släppet av samma proteiner.

InterPro Application Programming Interface (API)

InterPro tillhandahåller ett API för programmatisk åtkomst till alla InterPro-poster och deras relaterade poster i Json -format. Det finns sex huvudslutpunkter för API:t som motsvarar de olika InterPro-datatyperna: ingång, protein, struktur, taxonomi, proteom och uppsättning.

InterProScan

InterProScan är ett mjukvarupaket som låter användare skanna sekvenser mot medlemsdatabassignaturer. Användare kan använda denna signaturskanningsprogramvara för att funktionellt karakterisera nya nukleotid- eller proteinsekvenser. InterProScan används ofta i genomprojekt för att erhålla en "first-pass" karakterisering av genomet av intresse. Från och med december 2020 använder den offentliga versionen av InterProScan (v5.x) en Java-baserad arkitektur. Programvarupaketet stöds för närvarande endast på ett 64-bitars Linux- operativsystem.

InterProScan, tillsammans med många andra EMBL-EBI bioinformatikverktyg, kan också nås programmatiskt med hjälp av RESTful och SOAP Web Services API:er.

Se även

externa länkar