PANTER
Innehåll | |
---|---|
Beskrivning | PANTHER-databasen klassificerar genprodukter i familjer |
Datatyper infångade |
Genfamiljer |
Kontakt | |
Forskningscenter | University of Southern California |
Författare | Paul D Thomas |
Primärt citat | PMID 12520017 |
Tillgång | |
Hemsida | [1] |
Diverse | |
Bokmärkbara enheter |
ja |
Inom bioinformatik är klassificeringssystemet PANTHER ( proteinanalys genom evolutionära relationer ) en stor kurerad biologisk databas över gen/proteinfamiljer och deras funktionellt relaterade underfamiljer som kan användas för att klassificera och identifiera genprodukters funktion . PANTHER är en del av Gene Ontology Reference Genome Project utformat för att klassificera proteiner och deras gener för analys med hög genomströmning .
Projektet består av både manuell curation och bioinformatikalgoritmer. Proteiner klassificeras efter familj (och underfamilj), molekylär funktion, biologisk process och väg. Det är en av databaserna som matas in i European Bioinformatics Institutes InterPro -databas.—Tillämpning av PANTHER—Den viktigaste tillämpningen av PANTHER är att korrekt härleda funktionen hos okarakteriserade gener från vilken organism som helst baserat på deras evolutionära relationer till gener med kända funktioner. Genom att kombinera genfunktion, ontologi , vägar och statistiska analysverktyg, gör PANTHER det möjligt för biologer att analysera storskaliga, genomomfattande data erhållna från den nuvarande avancerade teknologin inklusive: sekvensering, proteomik eller genuttrycksexperiment . Inom kort, med hjälp av data och verktyg på PANTHER, kommer användare att kunna:
- Få information om en speciell gen av intresse.
- Upptäck proteinfamiljer och underfamiljer, vägar, biologiska processer, molekylära funktioner och cellulära komponenter.
- Skapa listor över gener relaterade till en viss proteinfamilj/underfamilj, molekylär funktion, biologisk process eller väg.
- Analysera listor över gener, proteiner eller transkript.
PANTERS historia
- 1998: Projektet lanserades på Molecular Application Group.
- 1999: Förvärvad av Celera Genomics.
- 2000:PANTHER 1 släpptes i Celera Discovery Systems (CDS).
- 2001: PANTHER 2 släpptes, som används i annoteringen av det första publicerade mänskliga genomet Celera.
- 2002: PANTHER 3 släpptes. PANTHER-kommentarer är integrerade i FlyBase . Flyttade till ABI.
- 2003: PANTHER 4 släpptes med den offentliga versionen av PANTHER Classification System.
- 2005: PANTHER 5 släpptes med PANTHER Pathway och analysverktyg. Etablera samarbete med InterPro.
- 2006: PANTHER 6 släpptes. Flytta till SRI.
- 2010: PANTHER 7 släpptes.
- 2011: Flytta till USC.
- 2012: PANTHER 8 släpptes.
- 2014: PANTHER 9 släpptes.
- 2015: PANTHER 10 släpptes.
- 2016: PANTHER 11 släpptes.
Fylogenetiskt träd
I PANTHER finns ett fylogenetiskt träd för var och en av proteinfamiljerna. Anteckningen av trädet görs baserat på följande kriterier:
- Varje nod är kommenterad av genattribut inklusive "underfamiljmedlemskap", "proteinklass", "genfunktion". Dessa attribut är ärftliga. Swiss-Prot proteinnamn används vanligtvis för att namnge underfamiljer. Eftersom PANTHER är en del av GO referensgenomprojektet används termerna Gene Ontology (GO) för genfunktion. PANTHER/X ontologitermer används för proteinklass.
- Varje intern nod är kommenterad av evolutionära händelser som " speciering ", " genduplicering " och " horisontell genöverföring ".
För att generera fylogenetiska träd använder PANTHER GIGA-algoritm. GIGA använder artträd för att utveckla trädkonstruktioner. Vid varje iteration försöker den förena träd i händelse av artbildning och genduplicering.
PANTHER-bibliotekets datagenereringsprocess
Processen för datagenerering är uppdelad i tre steg:
- Familjekluster
- Pytologentisk trädbyggnad
- Anteckning av trädnoder
Familjeklustring
Sekvensuppsättning
PANTHER trees skildrar genfamiljens utveckling från ett brett urval av genom som är helt sekvenserade. PANTHER har en sekvens per gen så att trädet kan representera händelse som inträffat under evolutionens gång, dvs duplicering, artbildning. PANTHER-genomuppsättningen väljs utifrån följande kriterier:
- Uppsättningen bör innehålla en större experimentell modellorganism , detta kommer att hjälpa till att skildra funktionell information om organismen som är mindre studerad.
- Uppsättningen bör inkludera ett brett taxonomiskt område av andra genom, helst helt sekvenserade och kommenterade, detta kommer att hjälpa till att relatera experimentell modellorganism.
Familjekluster
Följande är kraven för att vara familjekluster i PANTHER:
- Familjen måste innehålla minst fem medlemmar, bland vilka minst en gen måste vara från ett GO-referensgenom.
- För att stödja fylogenetisk slutledning måste familjen innehålla en högkvalitativ sekvensanpassning .
- Bedömningen av multipla inriktade sekvenser görs genom att bedöma en längd av den inriktade sekvensen, åtminstone 30 ställen inriktade över 75 % eller fler av familjemedlemmarna.
Filogenetisk trädbyggnad
För varje familj anpassas flera sekvenser med standardinställningen MAFFT , varje kolumn som är justerad mindre än 75 % av sekvensen tas bort. Dessa data används sedan som indata för GIGA-program. Utdataträdet från GIGA är märkta. Varje intern nod är märkt som om en divergenshändelse inträffade som artbildning eller genduplicering.
Anteckning av trädnoder
Varje nod i PANTHER-trädet är kommenterad med ärftligt attribut. Ärftliga attribut kan vara av tre typer underfamiljmedlemskap, genfunktion och proteinklassmedlemskap. Dessa anteckningar av noder gäller för primär sekvens som användes för att konstruera träd. Vid applicering av dessa anteckningar på primär sekvens används enkla evolutionära principer, dvs varje nodkommentar sprids av sin avlidna nod.
PANTHER komponenter
PANTHER/LIB (PANTHER-biblioteket): Biblioteket består av en samling böcker. Var och en av dessa böcker representerar en proteinfamilj. Det finns en Hidden Markov Model (HMM), en multipelsekvensanpassning (MSA) och ett släktträd för varje proteinfamilj i biblioteket.
PANTHER/X (PANTEHR-index): Index innehåller förkortad ontologi som hjälper till att sammanfatta, navigera molekylär funktion och biologisk funktion. Även om PANTHER/X-ontologin har en hierarkisk organisation, är den en riktad acyklisk graf , så när den är biologiskt motiverad visas barnkategorier under mer än en förälder. PANTHER/X har kartlagts till GO och arrangerats på ett annat sätt för att underlätta storskalig analys av proteiner.
PANTHER Pathways
PANTHER inkluderar 176 vägar med hjälp av verktyget CellDesigner. PANTHER-vägar kan laddas ner i följande filformat.
- System Biology Markup Language ( SBML )
- Systembiologi grafisk notation (SBGN - ML)
- BioPAX
Senaste versioner av PANTHER och deras statistik och uppdateringar
Version 6.0
Version 6 använder UniProt-sekvenser som träningssekvenser. Det finns 19132 UniProt-träningssekvenser direkt associerade med vägkomponenterna. Denna version har ~1500 reaktioner i 130 vägar, och antalet vägar associerade med underfamiljer utökades. PANTHER blev medlem i InterPro Consortium. Tillgängligheten för PANTHER-data förbättrades (HMM:erna kan laddas ner via FTP ). PANTHER/LIB version 6.1 innehåller 221609 UniProt-sekvenser från 53 organismer, grupperade i 5546 familjer och 24561 underfamiljer. (2006)
Version 7.0
I denna version representerar de fylogenetiska träden artbildning och gendupliceringshändelser. Identifiering av genortologer är möjlig. Det finns mer stöd för alternativa databasidentifierare för gener, proteiner och mikroarraysonder . PANTHER version 7 använder SBGN-standarden för att avbilda biologiska vägar. Den innehåller 48 uppsättningar genom. För att definiera de nya familjerna och i samarbete med European Bioinformatics Institutes InterPro-grupp, lades cirka 1000 familjer av icke-djurliga genom till i denna version. Källorna till genuppsättningar inkluderade modellorganismdatabaser, Ensembl genomannotering och Entrez Gene. Sedan denna version används en stabil identifierare för varje nod i trädet. Denna stabila identifierare är ett niosiffrigt nummer med prefixet PTN (står för PANTHER Tree Node). (2009)
Version 8.0 (2012)
Referensproteomuppsättningen som underhålls av UniProt-resursen används i den här versionen av PANTHER och därför är källan till genuppsättningar UniProt. Den innehåller 82 uppsättningar genom (ungefär dubbelt jämfört med version 7) och 991985 proteinkodande gener från vilka 642319 gener (64,75%) har använts för familjekluster. PANTHER-webbplatsen har gjorts om för att underlätta ett vanligt användararbetsflöde.
Version 9.0 (2014)
Denna version innehåller 7180 proteinfamiljer, uppdelade i 52 768 funktionellt distinkta proteinunderfamiljer. Version 9.0 har genom från alla 85 organismer.
Version 11.1 (2016)
Denna version innehåller 78 442 underfamiljer och 1 064 054 gener kommenterade.
PANTHER hemsida
Hemsidan för PANTHER-webbplatsen visar flera mappflikar för större arbetsflöden, inklusive: genlistanalys, bläddring, sekvenssökning, cSNP-poäng och nyckelordssökning. Detaljerna om vart och ett av dessa arbetsflöden finns nedan.
Analys av genlistor
Den här fliken är vald som standard eftersom detta är det mest använda alternativet. Du kan ange giltiga ID i rutan eller ladda upp en fil, välj sedan listtyp, välj organism av intresse och välj typ av analys.
Ett praktiskt exempel: Låt oss prova detta arbetsflöde med ett exempel på en liten genlista som innehåller tre gener AKT1, AKT2, AKT3. Vi skriver först in dessa gennamn i rutan och separerar dem med kommatecken (eller mellanslag). Vi väljer "ID-lista" som listtyp, "Homo Sapiens" (människa) som organism och "Funktionell klassificering ses i genlista" som typ av operation; klicka sedan på skicka. Den ger dig informationen för alla de tre generna som är:
- Gen-ID från Ensembl och protein-ID från Uniprot: i detta exempel måste du se "ENSG00000142208" och "P31749".
- Mappade ID: n: dessa är helt enkelt namnen på generna som har mappats till din fråga (AKT1, AKT2 och AKT3)
- Gennamn, gensymboler och ortologerna: ortologerna är klickbara och genom att klicka på dem kan du se listan över andra organismer och deras ID samt typen av ortologer ("LDO" för minst divergerad ortolog, "O" för andra som är mer divergerade ortologer och "P" för paraloger).
- PANTHER-familjen och underfamiljen: Detta ger dig namnet på familjen och underfamiljen för dina gener. Det finns några länkar, t.ex. en länk till släktträdet, som är klickbar. Slutligen kommer du att få gener från olika arter tilldelade den underfamiljen. I det här exemplet har du PANTHER-underfamiljen "PTHR24352:SF30" för AKT1.
- GO molekylär funktion: Detta talar om vilka funktioner din frågegen har; AKT1 har proteinkinasaktivitet och kan selektivt och icke-kovalent interagera med kalciumjoner, kalmodulin och fosfolipider.
- GO biologisk process: Genom att titta på den här kolumnen kommer du att förstå vilka biologiska processer genen är involverad i; t.ex. AKT1 spelar roll vid generering av könsceller, apoptos, cellcykel, etc.
- GO cellulär komponent: Den talar om var i cellen du kan hitta ditt sökprotein. I vårt exempel är informationen inte tillgänglig men om du provar ett annat exempel (som genen p53) kommer du att se några cellulära komponenter som "kärna", "cytoplasma", "kromosomer" etc.
- PANTHER proteinklass: detta ger dig namn och ID för PANTHER proteinklass för var och en av generna; t.ex. AKT1 är under PANTHER protein klass "icke-receptor serin/treonin protein kinas" med klass ID "PC00167". Du kan också se dess förälder och underordnade härstamning.
- Vägar: En lista med klickbara namn på de vägar där din frågegen finns kommer att visas; t.ex. AKT1 är involverad i flera vägar såsom "Hypoxia respons via HIF", "Apoptos signaling pathway", "PI3 kinas pathway", etc.
- Art: Detta är namnet på arten du har valt; i det här fallet valde vi "Homo sapiens".
Bläddra
Genom att använda den här mappfliken och genom att välja den ontologi du är intresserad av kan du bläddra i olika klassificeringar. Det är också möjligt att välja mer än en ontologi; i detta fall kommer resultaten att uppfylla kriterierna från alla urval. Du kan se sambandet mellan ontologitermer och PANTHER-familjer, underfamiljer och träningssekvenser.
Sekvenssökning
Genom att sätta proteinsekvensen i rutan Sekvenssökning kommer PANTHER att söka mot ett bibliotek av familje- och underfamilj-HMM:er och returnera den underfamilj som bäst matchar sekvensen. Om du klickar på underfamiljens namn kommer det att ge några detaljer, t.ex. generna relaterade till den underfamiljen och möjligheten att se underfamiljen inom ett större släktträd. Genom att ladda ner PANTHER poängverktyget från nedladdningssidan kommer du att kunna göra många sekvenser mot PANTHER HMMs.
cSNP poäng
Med hjälp av den här mappfliken kan du göra evolutionsanalys av kodande SNP:er . Du måste ange en proteinsekvens i den första rutan och substitutionerna i förhållande till denna proteinsekvens i den andra rutan; dessa substitutioner ska anges i standardformatet för aminosyrasubstitution, t.ex. L46P. PANTHER kommer att använda en anpassning av evolutionärt relaterade proteiner, beräkna den substitutionspositionsspecifika evolutionära bevarandet (subPSEC) och uppskatta sannolikheten för att denna icke-synonyma kodande SNP leder en funktionell effekt på proteinet. Detta verktyg använder data från PANTHER version 6.1 av tekniska skäl. En av de nya funktionerna i PANTHER är att om du vill analysera många SNP:er kan du gå till nedladdningssidan och ladda ner verktyget PANTHER Coding Snp Analysis.
Nyckelordssökning
Om du anger en sökterm i sökrutan för nyckelord, kommer PANTHER att ge dig antalet poster som matchar ditt sökord för gener, familjer, vägar och ontologitermer. Du kan filtrera dem genom att bestämma arten av intresse eller genom att förfina sökningen med andra kriterier. För att se detaljerna om genen måste du klicka på genidentifieraren.