Sekvensprofileringsverktyg

Ett sekvensprofileringsverktyg inom bioinformatik är en typ av programvara som presenterar information relaterad till en genetisk sekvens, gennamn eller nyckelordsinmatning. Sådana verktyg tar vanligtvis en fråga som en DNA- , RNA- eller proteinsekvens eller "sökord" och söker i en eller flera databaser efter information relaterad till den sekvensen. Sammanfattningar och aggregerade resultat tillhandahålls i standardiserat format som beskriver den information som annars skulle ha krävt besök på många mindre webbplatser eller direkta litteratursökningar för att sammanställa. Många sekvensprofileringsverktyg är mjukvaruportaler eller gateways som förenklar processen att hitta information om en fråga i det stora och växande antalet bioinformatiska databaser. Tillgången till dessa typer av verktyg är antingen webbaserade eller lokalt nedladdningsbara körbara filer.

Introduktion och användning

"Post- genomics "-eran har gett upphov till en rad webbaserade verktyg och programvara för att kompilera, organisera och leverera stora mängder primär sekvensinformation , såväl som proteinstrukturer , genkommentarer, sekvensanpassningar och annan vanlig bioinformatik uppgifter.

I allmänhet finns det tre typer av databaser och tjänsteleverantörer. Den första inkluderar de populära databaserna som är offentliga eller öppna med öppen tillgång som stöds av finansiering och anslag som NCBI , ExPASy , Ensembl och PDB . Den andra inkluderar mindre eller mer specifika databaser organiserade och sammanställda av enskilda forskargrupper. Exempel inkluderar Yeast Genome Database, RNA -databas . Den tredje och sista inkluderar privata företags- eller institutionella databaser som kräver betalning eller institutionell anknytning för att få åtkomst. Sådana exempel är sällsynta med tanke på globaliseringen av offentliga databaser, såvida inte den påstådda tjänsten är "under utveckling" eller slutpunkten för analysen är av kommersiellt värde.

Typiska scenarier för en profileringsmetod blir relevanta, särskilt i fallen av de två första grupperna, där forskare vanligtvis vill kombinera information som härrör från flera källor om en enda fråga eller målsekvens. Användare kan till exempel använda sekvensanpassnings- och sökverktyget BLAST för att identifiera homologer av deras gen av intresse i andra arter, och sedan använda dessa resultat för att lokalisera en löst proteinstruktur för en av homologerna. På liknande sätt kanske de också vill veta den troliga sekundära strukturen av mRNA:t som kodar genen av intresse, eller om ett företag säljer en DNA-konstruktion som innehåller genen. Sekvensprofileringsverktyg tjänar till att automatisera och integrera processen att söka sådan olikartad information genom att göra processen att söka i flera olika externa databaser transparent för användaren.

Många offentliga databaser är redan omfattande länkade så att kompletterande information i en annan databas är lättillgänglig; till exempel Genbank och det preliminära budgetförslaget nära sammanflätade. Men specialiserade verktyg som organiseras och är värd för specifika forskargrupper kan vara svåra att integrera i denna länkning eftersom de är snävt fokuserade, ofta modifieras eller använder anpassade versioner av vanliga filformat. Fördelarna med sekvensprofileringsverktyg inkluderar möjligheten att använda flera av dessa specialiserade verktyg i en enda fråga och presentera utdata med ett gemensamt gränssnitt, möjligheten att styra utdata från en uppsättning verktyg eller databassökningar till indata från en annan, och kapacitet att sprida värd- och sammanställningsskyldigheter till ett nätverk av forskargrupper och institutioner snarare än ett enda centraliserat arkiv.

Sökordsbaserade profilerare

De flesta profileringsverktyg som finns på webben idag faller inom denna kategori. Användaren, när han besöker webbplatsen/verktyget, anger all relevant information som ett nyckelord, t.ex. dystrofi, diabetes etc., eller GenBank- åtkomstnummer, PDB-ID. Alla relevanta träffar av sökningen presenteras i ett format som är unikt för varje verktygs huvudfokus. Profileringsverktyg baserade på nyckelordssökningar är i huvudsak sökmotorer som är mycket specialiserade för bioinformatikarbete, och eliminerar därigenom en mängd irrelevanta eller icke-vetenskapliga träffar som kan uppstå med en traditionell sökmotor som Google . De flesta nyckelordsbaserade profileringsverktyg tillåter flexibla typer av nyckelordsinmatning, anslutningsnummer från indexerade databaser samt traditionella nyckelordsbeskrivningar.

Varje profileringsverktyg har sitt eget fokus och intresseområde. Till exempel, NCBI- sökmotorn Entrez separerar sina träffar efter kategori, så att användare som letar efter proteinstrukturinformation kan sålla bort sekvenser utan motsvarande struktur, medan användare som är intresserade av att läsa litteraturen om ett ämne kan se sammanfattningar av artiklar publicerade i vetenskapliga tidskrifter utan distraktion från gen- eller sekvensresultat. PubMeds biovetenskapliga litteraturdatabas är ett populärt verktyg för litteratursökningar, även om denna tjänst nästan är likställd med den mer allmänna Google Scholar .

Nyckelordsbaserade dataaggregationstjänster som Bioinformatic Harvester tillhandahåller rapporter från en mängd olika tredjepartsservrar i ett befintligt format så att användare inte behöver besöka webbplatsen eller installera programvaran för varje enskild komponenttjänst. Detta är särskilt ovärderligt med tanke på den snabba uppkomsten av olika platser som tillhandahåller olika sekvensanalys- och manipulationsverktyg. En annan samlad webbportal, Human Protein Reference Database ( Hprd ), innehåller manuellt kommenterade och kurerade poster för mänskliga proteiner. Informationen som tillhandahålls är alltså både selektiv och heltäckande, och frågeformatet är flexibelt och intuitivt. Fördelarna med att utveckla manuellt kurerade databaser inkluderar presentation av korrekturläst material och konceptet med "molekylauktoriteter" för att ta ansvar för specifika proteiner. Men nackdelarna är att de vanligtvis är långsammare att uppdatera och kanske inte innehåller mycket ny eller omtvistad data.

Sekvensdatabaserade profilerare

Ett typiskt sekvensprofileringsverktyg för detta vidare genom att använda en verklig DNA-, RNA- eller proteinsekvens som indata och låter användaren besöka olika webbaserade analysverktyg för att få den information som önskas. Sådana verktyg levereras också vanligtvis med kommersiell laboratorieutrustning som gensekvenserare eller säljs ibland som mjukvaruapplikationer för molekylärbiologi. I ett annat exempel på offentlig databas BLAST- sekvenssökningsrapporten från NCBI en länk från dess anpassningsrapport till annan relevant information i dess egna databaser, om sådan specifik information finns.

Till exempel kommer en hämtad post som innehåller en mänsklig sekvens att bära en separat länk som ansluter till dess plats på en mänsklig genomkarta; en post som innehåller en sekvens för vilken en 3D-struktur har lösts skulle bära en länk som ansluter den till dess strukturdatabas. Sequerome , ett public service-verktyg, länkar hela BLAST-rapporten till många tredjepartsservrar/sajter som tillhandahåller mycket specifika tjänster i sekvensmanipulationer såsom restriktionsenzymkartor , öppna läsramsanalyser för nukleotidsekvenser och sekundär strukturförutsägelse . Verktyget ger ytterligare fördelar genom att upprätthålla en forskningslogg över de operationer som utförs av användaren, som sedan bekvämt kan arkiveras med hjälp av "post", "skriv ut" eller "spara" funktionalitet. Således kan en hel operation av att forska om en sekvens med hjälp av olika forskningsverktyg och därmed föra ett projekt till dess slutförande utföras inom ett webbläsargränssnitt. Följaktligen skulle framtida generationer av sekvensprofileringsverktyg inkludera möjligheten att samarbeta online med forskare för att dela projektloggar och forskningsverktyg, kommentera resultat av sekvensanalys eller labbarbete, anpassa och automatisera behandlingen av uppsättningar av sekvensdata etc. InstaSeq är en Google - driven sökverktyg som låter användaren direkt ange en sekvens och söka på hela World Wide Web. Denna unika sökmotor, som är den enda i sitt slag, står i motsats till att söka i specifika databaser t.ex. GenBank .

Som ett resultat kan användaren sluta med ett privat värd dokument eller en sida från en mindre känd databas från nästan var som helst i världen. Även om förekomsten av sekvensbaserade profiler är långt och få i det nuvarande scenariot, kommer deras nyckelroll att bli uppenbar när enorma mängder sekvensdata behöver korsbehandlas över portaler och domäner.

Framtida tillväxt och riktningar

Spridningen av bioinformatiska verktyg för genetisk analys hjälper forskare att identifiera och kategorisera gener och genuppsättningar av intresse i deras arbete; Men det stora utbudet av verktyg som utför väsentligen liknande aggregerade och analytiska funktioner kan också förvirra och frustrera nya användare. Den decentralisering som uppmuntras av aggregerade verktyg gör det möjligt för enskilda forskargrupper att upprätthålla specialiserade servrar dedikerade till specifika typer av dataanalys i förväntningen att deras produktion kommer att samlas in i en större rapport om en gen eller ett protein av intresse för andra forskare.

Data producerad av mikroarrayexperiment, tvåhybridscreening och andra biologiska experiment med hög genomströmning är omfattande och svåra att analysera för hand; insatserna av strukturella genomiksamarbeten som syftar till att snabbt lösa ett stort antal högst varierande proteinstrukturer ökar också behovet av integration mellan sekvens- och strukturdatabaser och portaler. Denna drivkraft mot att utveckla mer omfattande och mer användarvänliga metoder för sekvensprofilering gör detta till ett aktivt forskningsområde bland nuvarande genomikforskare.

Se även

Peri S, Navarro JD, Kristiansen TZ, et al. (januari 2004). "Referensdatabas för mänskligt protein som en upptäcktsresurs för proteomik" . Nucleic Acids Res . 32 (Databasproblem): D497–501. doi : 10.1093/nar/gkh070 . PMC 308804 . PMID 14681466 .
Liebel U; Kindler B; Pepperkok R (augusti 2004). " "Harvester": en snabb metasökmotor för mänskliga proteinresurser" . Bioinformatik . 20 (12): 1962–3. doi : 10.1093/bioinformatics/bth146 . PMID 14988114 .
Ganesan N; Bennett NF; Velauthapillai M; Pattabiraman N; Squier R; Kalyanasundaram B (augusti 2005). "Webbaserat gränssnitt som underlättar sekvens-till-struktur-analys av BLAST-anpassningsrapporter" . Biotekniker . 39 (2): 186, 188. doi : 10.2144/05392BM05 . PMID 16116790 .
Beaton J; Smith C (november 2005). "Google kontra PubMed" . Ann R Coll Surg Engl . 87 (6): 491–2. doi : 10.1308/003588405X71207 . PMC 1964102 . PMID 16263030 .
Hunter L; Cohen KB (mars 2006). "Biomedicinsk språkbehandling: vad finns bortom PubMed?" . Mol. Cell . 21 (5): 589–94. doi : 10.1016/j.molcel.2006.02.012 . PMC 1702322 . PMID 16507357 .
Ganesan N; Kalyanasundaram B; Velauthapillai M (mars 2007). "Bioinformatikdataprofileringsverktyg: ett förspel till metabolisk profilering". Pac. Symp. Biocomput. : 127–32. PMID 17990486 .