Beräkningsgenomik
Beräkningsgenomik avser användningen av beräknings- och statistisk analys för att dechiffrera biologi från genomsekvenser och relaterade data, inklusive både DNA- och RNA- sekvenser såväl som andra "postgenomiska" data (dvs experimentella data erhållna med teknologier som kräver genomsekvensen såsom genomiska DNA-mikroarrayer ). Dessa, i kombination med beräknings- och statistiska tillvägagångssätt för att förstå genernas funktion och statistisk associationsanalys, kallas detta fält också ofta för beräknings- och statistisk genetik/genomik. Som sådan kan beräkningsgenomik betraktas som en delmängd av bioinformatik och beräkningsbiologi , men med fokus på att använda hela genom (snarare än individuella gener) för att förstå principerna för hur en arts DNA kontrollerar dess biologi på molekylär nivå och bortom. Med det nuvarande överflödet av massiva biologiska datamängder har beräkningsstudier blivit ett av de viktigaste medlen för biologisk upptäckt.
Historia
Beräkningsgenomikens rötter delas med bioinformatikens rötter . Under 1960-talet Margaret Dayhoff och andra vid National Biomedical Research Foundation databaser med homologa proteinsekvenser för evolutionära studier. Deras forskning utvecklade ett fylogenetiskt träd som bestämde de evolutionära förändringarna som krävdes för att ett visst protein skulle förändras till ett annat protein baserat på de underliggande aminosyrasekvenserna . Detta ledde till att de skapade en poängmatris som bedömde sannolikheten för att ett protein skulle vara relaterat till ett annat.
Med början på 1980-talet började man registrera databaser med genomsekvenser, men detta gav nya utmaningar i form av att söka och jämföra databaserna med geninformation. Till skillnad från textsökningsalgoritmer som används på webbplatser som Google eller Wikipedia, kräver en sökning efter avsnitt av genetisk likhet att man hittar strängar som inte bara är identiska utan lika. Detta ledde till utvecklingen av Needleman-Wunsch-algoritmen , som är en dynamisk programmeringsalgoritm för att jämföra uppsättningar av aminosyrasekvenser med varandra genom att använda poängmatriser härledda från tidigare forskning av Dayhoff. Senare BLAST- algoritmen för att utföra snabba, optimerade sökningar av gensekvensdatabaser. BLAST och dess derivat är förmodligen de mest använda algoritmerna för detta ändamål.
Framväxten av frasen "beräkningsgenomik" sammanfaller med tillgängligheten av kompletta sekvenserade genom i mitten till slutet av 1990-talet. Det första mötet för den årliga konferensen om beräkningsgenomik organiserades av forskare från Institutet för genomforskning (TIGR) 1998, vilket gav ett forum för denna specialitet och effektivt särskiljer detta vetenskapsområde från de mer allmänna områdena genomik eller beräkningsbiologi . , Den första användningen av denna term i vetenskaplig litteratur, enligt MEDLINE- abstrakt var bara ett år tidigare i Nucleic Acids Research . Den sista Computational Genomics-konferensen hölls 2006, med ett keynotetal av Nobelpristagaren Barry Marshall , medupptäckare av kopplingen mellan Helicobacter pylori och magsår. Från och med 2014 inkluderar de ledande konferenserna inom området Intelligenta Systems for Molecular Biology (ISMB) och Research in Computational Molecular Biology (RECOMB).
Utvecklingen av datorstödd matematik (med hjälp av produkter som Mathematica eller Matlab ) har hjälpt ingenjörer, matematiker och datavetare att börja verka inom denna domän, och en offentlig samling av fallstudier och demonstrationer växer, allt från jämförelser av hela genomet till gener uttrycksanalys . Detta har ökat introduktionen av olika idéer, inklusive koncept från system och kontroll, informationsteori, stränganalys och datautvinning. Det förväntas att beräkningsmetoder kommer att bli och förbli ett standardämne för forskning och undervisning, medan studenter som flyter på båda ämnena börjar bildas i de flera kurser som skapats under de senaste åren.
Bidrag från beräkningsgenomikforskning till biologi
Bidrag från beräkningsgenomikforskning till biologi inkluderar:
- föreslår cellulära signalnät
- föreslå mekanismer för genomevolution
- förutsäga exakta placeringar av alla mänskliga gener med hjälp av jämförande genomiktekniker med flera däggdjurs- och ryggradsdjursarter
- förutsäga konserverade genomiska regioner som är relaterade till tidig embryonal utveckling
- upptäck potentiella kopplingar mellan upprepade sekvensmotiv och vävnadsspecifikt genuttryck
- mäta regioner av genom som har genomgått ovanligt snabb utveckling
Genom jämförelse
Beräkningsverktyg har utvecklats för att bedöma likheten mellan genomiska sekvenser. Några av dem är anpassningsbaserade avstånd, såsom Average Nucleotide Identity. Dessa metoder är mycket specifika, samtidigt som de är beräkningsmässigt långsamma. Andra, anpassningsfria metoder inkluderar statistiska och probabilistiska metoder. Ett exempel är Mash, en probabilistisk metod som använder minhash . I denna metod, givet ett nummer k, transformeras en genomisk sekvens till en kortare skiss genom en slumpmässig hashfunktion på de möjliga k-mererna . Till exempel, om , konstrueras skisser av storlek 4 och ges följande hashfunktion
(AA,0) (AC,8) (AT,2) (AG,14) (CA,6) (CC,13) (CT,5) (CG,4) (GA,15) (GC,12) (GT,10) (GG,1) (TA,3) (TC,11) (TT,9) (TG,7)
skissen av sekvensen
CTGACCTTAACGGGAGACTATGATGACGACCGCAT
är {0,1,1,2} vilket är de minsta hashvärdena för dess k-merer av storlek 2. Dessa skisser jämförs sedan för att uppskatta andelen delade k-merer (Jaccard index) av motsvarande sekvenser. Det är värt att notera att ett hashvärde är ett binärt tal. I en verklig genomisk miljö varierar en användbar storlek på k-merer från 14 till 21, och storleken på skisserna skulle vara runt 1000.
Genom att minska storleken på sekvenserna, till och med hundratals gånger, och jämföra dem på ett anpassningsfritt sätt, minskar denna metod signifikant tiden för uppskattning av likheten mellan sekvenser.
Klusterisering av genomiska data
Clustering data är ett verktyg som används för att förenkla statistisk analys av ett genomiskt prov. Till exempel i författarna utvecklat ett verktyg (BiG-SCAPE) för att analysera sekvenslikhet nätverk av biosyntetiska genkluster (BGC). I successiva lager av klusterbildning av biosyntetiska genkluster används i det automatiserade verktyget BiG-MAP, både för att filtrera redundanta data och identifiera genklusterfamiljer. Detta verktyg profilerar överflöd och uttrycksnivåer av BGC i mikrobiomeprover.
Biosyntetiska genkluster
Bioinformatiska verktyg har utvecklats för att förutsäga och bestämma förekomsten och uttrycket av denna typ av genkluster i mikrobiomeprover, från metagenomiska data. Eftersom storleken på metagenomiska data är avsevärd, är filtrering och klusterisering av dessa viktiga delar av dessa verktyg. Dessa processer kan bestå av dimensionsreduktionstekniker, såsom Minhash , och klusteriseringsalgoritmer såsom k-medoider och affinitetsutbredning . Även flera mätvärden och likheter har utvecklats för att jämföra dem.
Genombrytning för biosyntetiska genkluster (BGC) har blivit en integrerad del av upptäckten av naturliga produkter. De >200 000 mikrobiella genomen som nu är allmänt tillgängliga innehåller information om riklig ny kemi. Ett sätt att navigera i denna stora genomiska mångfald är genom jämförande analys av homologa BGC, vilket möjliggör identifiering av mönster över arter som kan matchas med närvaron av metaboliter eller biologiska aktiviteter. Men nuvarande verktyg hindras av en flaskhals orsakad av den dyra nätverksbaserade metoden som används för att gruppera dessa BGCs i genklusterfamiljer (GCFs). BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine), ett verktyg utformat för att klustera ett enormt antal BGC. Genom att representera dem i det euklidiska rymden kan BiG-SLiCE gruppera BGCs i GCFs på ett icke-parvis, nästan linjärt sätt.
Satria et. al, 2021 över BiG-SLiCE demonstrerar användbarheten av sådana analyser genom att rekonstruera en global karta över sekundär metabolisk mångfald över taxonomi för att identifiera okänd biosyntetisk potential, öppnar nya möjligheter att påskynda upptäckten av naturliga produkter och erbjuder ett första steg mot att konstruera en global och sökbar sammankopplade nätverk av BGC. När fler genom sekvenseras från understuderade taxa, kan mer information utvinnas för att lyfta fram deras potentiellt nya kemi.
Se även
externa länkar
- Harvard Extension School Biophysics 101, Genomics and Computational Biology, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
- University of Bristol kurs i Computational Genomics, http://www.computational-genomics.net/