FANTOM

FANTOM (Functional Annotation of the Mouse/Mammalian Genome) är ett internationellt forskningskonsortium som grundades första gången 2000 som en del av forskningsinstitutet RIKEN i Japan . Det ursprungliga mötet samlade internationella forskare från olika bakgrunder för att hjälpa till att kommentera funktionen hos mus- cDNA-kloner som genererats av Hayashizaki-gruppen. Sedan den första FANTOM1-satsningen har konsortiet släppt flera projekt som försöker förstå mekanismerna som styr regleringen av däggdjursgenom . Deras arbete har genererat en stor samling av delad data och hjälpt till att främja biokemiska och bioinformatiska metoder inom genomikforskning .

FANTOMs historia

fundament

År 1995 började forskare vid RIKEN-institutet skapa ett uppslagsverk av fullängds- cDNA för musgenomet . Målet med detta "Mouse Encyclopedia Project" var att tillhandahålla en funktionell annotering av mustranskriptomet . Denna kartläggning skulle ge en värdefull resurs för genupptäckt , förståelse av sjukdomsorsakande gener och homologi över arter . Detta lovade att bli en formidabel uppgift från början. Nuvarande metoder var otillräckliga för att generera fullängds cDNA-kloner i skala, och för att vara användbar som en resurs måste anteckningarna komma överens om av experter över olika discipliner.

Det första målet var att utveckla metoder som möjliggjorde generering av fullängds-cDNA-bibliotek. Protokoll för omvänt transkriptas vid den tiden hade svårigheter med den sekundära strukturen av mRNA , vilket ledde till förkortade cDNA som var svåra att anpassa och inbjöd ytterligare komplikationer i nedströmsanalys. För att överträffa denna begränsning utvecklades en metod som använder trehalos för att tillåta omvänt transkriptas att fungera vid en högre temperatur, vilket avslappnar sekundära strukturer. Andra metoder utvecklades dessutom för att hjälpa till vid konstruktionen av klonala cDNA-bibliotek. Dessa inkluderar ett biotinbaserat infångningssystem för att selektera för fullängds-cDNA, en ny lambda- fagvektor som minimerar biaser vid leverans av cDNA till en plasmid och en iterativ strategi för att berika för cDNA som ännu inte hade sekvenserats .

Sekvenseringen började 1998 och utvecklades snabbt och producerade 246 cDNA-bibliotek som omfattade 21 076 cDNA-kloner över ett stort antal musceller och vävnader . Även om detta skede i stort sett var framgångsrikt, möttes ytterligare begränsningar på bioinformatisk nivå. De sekvenserade cDNA:erna kommenterades på ett halvautomatiskt sätt som använde tillgängliga databaser (såsom arthomologi och kända proteinmotiv) för att tilldela gener inom ett Gene Ontology (GO) ramverk. Men många nya sekvenser hade inte meningsfulla matchningar när BLAST mot gendatabaser.

Efter att ha rådfrågat Gerry Rubin , arrangören av den första genomannoteringssatsningen för Drosophila melanogaster , blev det uppenbart att ett robust system för annotering som inkorporerade beräkningsförutsägelse och manuell kuration krävdes för de nya sekvenserna. Eftersom RIKEN-gruppen önskade input från experter inom bioinformatik, genetik och andra vetenskapliga områden, organiserade RIKEN-gruppen det första FANTOM-mötet.

FANTOM1

För att underlätta annoteringen av mus-cDNA-klonerna utvecklade RIKEN-forskargruppen en webbaserad tjänst som heter FANTOM+ innan det första mötet. Användare kan söka efter motiv , se förberäknade sekvenslikhetspoäng, samt fråga andra offentliga databaser och integrera relevanta kommentarer i FANTOM-databasen. Tilldelningen och den funktionella annoteringen av generna krävde flera bioinformatiska verktyg och databaser. De dominerande verktygen inkluderade BLASTN/BLASTX, FASTA /FASTY, DECODER, EST-WISE och HMMER , medan både nukleinsyra- och proteindatabaser som SwissProt , UniGene och NCBI-nr användes. Samtidigt tillät ett samarbete med Mouse Genome Informatics- gruppen (MGI) RIKEN-forskarna att etablera en validerad uppsättning kloner som var identiska mellan de två databaserna.

Beväpnad med beräkningsmetoder och över 20 000 cDNA-sekvenser, organiserade RIKEN-gruppen det första FANTOM-mötet i Tsukuba City från 28 augusti till 8 september 2000. En mångsidig grupp internationella forskare rekryterades för att diskutera strategier och utföra annoteringen av RIKEN-klonerna. De sammansatta beräkningsprocedurerna möjliggjorde sekvensjämförelse och domänanalys för att tilldela förmodad funktion med hjälp av GO-termer. Redundans av cDNA-klonerna utgjorde en utmaning, som krävde klustringsstrategier och hänvisning till MGI-valideringsuppsättningen för att identifiera unika kloner. RIKEN-uppsättningen av kloner reducerades så småningom till 15 295 gener, även om detta försiktigt ansågs vara en överskattning.

Översikt över RIKEN-definitionen

Centralt i kurationsinsatserna var skapandet av RIKEN-definitionen. Detta gav ett hierarkiskt och systematiskt sätt att tilldela funktioner till klonerna baserat på kända gener, med prioritet på tidigare etablerad eller väl kurerad kunskap. Klassificeringens hierarkiska karaktär möjliggjorde konsistens när en sekvens var mycket lik flera olika gener. Viktigt, om ingen sekvenslikhet hittades, tilldelade definitionen förmodad funktion baserat på förutsagda proteinmotivsignaturer, kodningspotential och matchningar till databaser med uttryckt sekvenstagg (EST). Endast i avsaknad av någon förutspådd eller representativ likhet skulle en klon anses vara "oklassificerbar".

RIKEN/FANTOMs samlade insatser resulterade i en Nature-publikation 2001. Resultaten inkluderade tilldelningen av de 21 076 cDNA-klonerna till 4 012 GO-termer, identifiering av nya musgener och proteinmotiv, upptäckt av troliga alternativa splitsformer och upptäckten av musgener som är ortologa för mänskliga sjukdomsgener. Dessutom publicerades det första sekvenserade mänskliga genomet en vecka senare och inkorporerade FANTOMs resultat för att förutsäga antalet mänskliga gener.

FANTOM2

Efter att ha etablerat och förbättrat protokollen för generering av cDNA-bibliotek i full längd fortsatte RIKEN-gruppen att lägga till FANTOM-samlingen. Modifieringar av deras metoder möjliggjorde ytterligare urval av sällsynta och långa transkript, vilket möjliggjorde identifiering av cDNA över 4 kb i längd. Det andra FANTOM-mötet ägde rum i maj 2002 - då hade antalet cDNA-kloner ökat med 39 694 till totalt 60 770.

En insikt från FANTOM1 var att alternativ polyadenylering var vanligt i mustranskriptomet, vilket innebär att klustring i 3'-änden ledde till omfattande redundans. För att ta itu med detta utfördes ytterligare sekvensering av 5'-änden för att identifiera unika kloner. FANTOM2-publikationen bidrog med ett betydande tillskott av nya proteinkodande transkript. Det mest anmärkningsvärda resultatet av FANTOM2 var att försök att selektera för långa och sällsynta transkript hade avslöjat en betydande mängd icke-proteinkodande RNA .

Återigen visade sig FANTOM-kollektionen vara en fruktbar resurs. Det icke-kodande RNA:t identifierades som antisens-RNA och långa icke-kodande RNA:n (lncRNA), dåligt förstådda klasser av regulatoriskt RNA. Den första publicerade sekvensen av musgenomet använde anteckningarna som fastställts av FANTOM. Andra försök kunde beskriva hela proteinfamiljer, såsom G-proteinkopplade receptorer .

FANTOM3

Ett slutmål för FANTOM är att etablera gennätverk som fångar de regulatoriska interaktionerna av transkription, och att differentiera dessa interaktioner efter celltyp eller tillstånd. I denna utsträckning insåg man att den polymorfa naturen hos 5'-änden av sekvenser skulle kräva omfattande kartläggning. Karakterisering av transkriptionsstartställen (TSS) skulle möjliggöra identifiering av promotorer och differentiering av deras användning mellan celltyper. Detta innebar också att ytterligare utvecklingar inom sekvenseringsmetoder behövdes. Medan fullängds mus-cDNA fortsatte att genereras, etablerade de RIKEN-ledda forskarna Cap Analysis of Gene Expression (CAGE), en teknik som skulle driva mycket av deras framtida arbete.

Schematisk över CAGE

Utveckling av CAGE

CAGE var en fortsättning på de koncept som utvecklats för FANTOM1 - och används flitigt i följande projekt - för att fånga 5'-mRNA-kapslar . Till skillnad från tidigare försök att generera fullängds-cDNA undersöker CAGE fragment, eller taggar, som är 20–27 långa. Detta gav ett ekonomiskt och högeffektivt sätt att kartlägga TSS, inklusive promotorstruktur och aktivitet.

De allmänna stegen är som följer: cDNA transkriberas omvänt från mRNA med användning av slumpmässiga eller oligo-dT- primrar . Cap-fångarmetoden används sedan för att säkerställa val av fullängds-cDNA. Detta innebär tillsats av biotin till 5'-kapseln och efterföljande infångning med streptavidinkulor efter ett RNas -digereringssteg för att avlägsna enkelsträngat RNA som inte har hybridiserat till cDNA. Efter cap-infångning separeras cDNA från RNA-cDNA-hybriden. En dubbelsträngad CAGE-linker som också är biotinylerad ligeras till 5'-änden av cDNA:t, och den andra strängen av cDNA:t syntetiseras. Detta resulterande dubbelsträngade DNA digereras med Mmel- endonukleaset , skär CAGE-linkern och producerar en 20-27bp CAGE-tagg. En andra linker läggs till 3'-änden och taggen amplifieras med PCR . Slutligen frisätts CAGE-taggarna från 5'- och 3'-länkarna. Taggarna kan sedan sekvenseras, sammanfogas eller klonas. Vid den tiden utfördes CAGE med RISA 384 kapillärsekvenserare som tidigare hade etablerats av RIKEN.

Kartläggning av CAGE-fragment

Upptäckter

Utvecklingen av CAGE gav upphov till ett antal milstolpefynd. Viktigt är att RNA befanns vara mycket rikligare i däggdjurstranskriptomet än man tidigare trott, tillsammans med insikten om att genomet transkriberades genomgående. Genom att kombinera metoderna för CAGE, genidentifieringssignaturer och gensignaturkloning kartlades det "transkriptionella landskapet" av däggdjursgenomet, vilket karakteriserade mönstret av transkriptionskontrollsignaler och de transkript som de genererar. Man upptäckte att det finns många fler transkript än de uppskattade 22 000 generna i musgenomet, och att många av dessa transkriptionsenheter har alternativa promotorer och polyadenyleringsställen .

Dessutom upptäcktes det att "transkriptionsskogar", kluster av transkript som delar gemensamma uttrycksregioner och regulatoriska händelser, är åtskilda av "transkriptionsöknar" och utgör ~63% av genomet. En gemensamt publicerad publikation fann att många av transkripten i dessa skogar visar antisense transkription, och att de flesta sense/antisense-par visar överensstämmande reglering. Ett annat anmärkningsvärt resultat visade att många icke-kodande RNA uttrycks dynamiskt, med många initierade i 3' otranslaterade regioner , och att de är positionellt konserverade över arter.

Den tredje milstolpen som kom ut ur FANTOM3 undersökte arkitektur och evolution för däggdjurspromotor. Den etablerade två klasser av däggdjurspromotorer. De första är TATA-boxberikade promotorer, med väldefinierade transkriptionsstartställen. Dessa promotorer är evolutionärt konserverade och är vanligare associerade med vävnadsspecifika gener. Den andra och vanligare klassen av promotorer, breda CpG-rika promotorer, är plastiska, evolverbara och uttrycks i ett brett spektrum av celler och vävnader. Denna studie visade också att CpG -rika promotorer kan vara dubbelriktade (producera sense-antisense-par) och är mycket mottaglig epigenetisk kontroll och är således en potentiell komponent i adaptiv evolution .

Mötet för FANTOM3 ägde rum i september 2004. En samling satellitpublikationer som skapade från FANTOM3 publicerades i PLoS Genetics . De inkluderar ytterligare arbete på promotoregenskaper, exonlängd och pseudo-budbärar-RNA.

FANTOM4

Framväxten av nästa generations sekvensering var avsevärt fördelaktigt för utvecklingen av CAGE-teknologin. Genom att använda Roche-454-sequencern utvecklade FANTOM-gruppen deepCAGE, vilket ökade genomströmningen av CAGE till mer än en miljon taggar per prov. På dessa djup kunde forskare nu börja bygga nätverk av genreglerande interaktioner . FANTOM4-mötet ägde rum i december 2006.

Medan tidigare FANTOM-projekt undersökte en rad celltyper, var FANTOM4:s syfte att djupt undersöka dynamiken som driver cellulär differentiering . Analysen var begränsad till en human THP-1-cellinje , vilket gav tidsförloppsdata för en monoblast som blev en monocyt . DeepCage löste TSS:er vid singelnukleotidupplösning, vilket pekar ut var transkriptionsfaktorer (TF:er) binder. Genom att övervaka tidsberoende genuttrycksförändringar när celler differentierade, gavs slutledning för vilka regulatoriska motiv som förutsäger uttrycksförändringar, tidsberoende av TF-aktivitet och TF-målgener. Dessa ansträngningar resulterade i ett transkriptionellt regulatoriskt nätverk, vilket visar att differentieringsprocessen är mycket komplex och drivs av en stor mängd TF: er som utövar både positiva och negativa regulatoriska interaktioner.

FANTOM4 ökade också vår förståelse för retrotransposon transkription och transkriptionell initiering RNA (tiRNA). Retrotransposoner bidrar till repetitiva element i däggdjursgenom och kan påverka flera biologiska processer - som genomisk evolution - såväl som strukturer, såsom alternativa promotorer och exoner. Det visades att retrotransposoner uttrycks på ett cell- och vävnadsspecifikt sätt och cirka 250 000 tidigare okända retrotransposondrivna TSS identifierades.

Det upptäcktes att retrotransposoner kan påverka transkription hos däggdjur och transkriptionell reglering av både kodande och icke-kodande RNA i olika vävnader. Ytterligare ansträngningar fann en genomiskt och evolutionärt utbredd ny klass av RNA, kallad transkriptionsinitierings-RNA (tiRNA). Denna art av RNA är relativt små (~18 nukleotider långa) och finns vanligtvis nedströms om TSS:er av CpG-rika promotorer. tiRNA är låg i överflöd och är associerade med högt uttryckta gener, såväl som RNA-polymeras II- bindning och TSS. Nyare arbete har visat att tiRN kan kunna modulera epigenetiska tillstånd och lokal kromatinarkitektur . Det är dock möjligt att dessa tiRNA inte har en reglerande roll och helt enkelt är en biprodukt av transkription.

Efter dessa initiala fynd publicerades en atlas över kombinatorisk transkriptionsreglering hos mus och människor av RIKEN-forskarna. Detta arbete visade att transkriptionella komplex kan interagera inom ett nätverk för att kontrollera vävnadsidentitet/celltillstånd, och att dessa nätverk ofta domineras av "facilitator"-transkriptionsfaktorer som uttrycks brett över vävnader/celler. Det visade sig att ungefär hälften av de uppmätta regulatoriska interaktionerna var konserverade mellan mus och människa. FANTOM4 ledde till många satellitpapper, som undersökte ämnen som promotorarkitektur, miRNA-reglering och genomiska regulatoriska block.

FANTOM5

Den femte omgången av FANTOM syftade till att ge insikt i det regulatoriska landskapet för transkriptomet över så många celltillstånd som möjligt. Det fortsätter att vara en relevant resurs för delad data. Projektet bestod av två faser: den första fokuserade på stationära celler, medan den andra fokuserade på tidsdata. Framsteg inom nästa generations sekvensering utnyttjades för att uppnå FANTOM5:s stora bredd, med sekvensering av en enda molekyl som tillåter enstaka baspars upplösning av TSS-aktivitet från så lite som 100 ng RNA. Prover samlades in från varje mänskligt organ, såväl som över 200 cancerlinjer , 30 tidsförlopp av cellulär differentiering, musutvecklingstidskurser och över 200 primära celltyper. Totalt profilerades 1 816 human- och 1 1016 musprover över båda faserna.

Även om det liknar ENCODE- projektet, skiljer sig FANTOM5 på två viktiga sätt. Först använde ENCODE odödliga cellinjer , medan FANTOM5 fokuserade på primära celler och vävnader, som mer reflekterar de faktiska biologiska processer som är ansvariga för att upprätthålla celltypsidentitet. För det andra använde ENCODE flera genomiska analyser för att fånga transkriptomet och epigenomet . FANTOM5 fokuserade enbart på transkriptomet och förlitade sig på annat publicerat arbete för att härleda funktioner som celltyp som definieras av kromatinstatus. FANTOM5-mötet ägde rum i oktober 2011.

Fas 1

Den första fasen av FANTOM5 involverade att ta "ögonblicksbilder" av ett brett utbud av stationära celltyper med hjälp av CAGE-profilering över 975 mänskliga och 399 musprover. Denna första ansträngning resulterade i två Nature-tidningar - en som beskrev landskapet för däggdjurspromotorer och den andra som beskrev aktiva förstärkare . Tillsammans ger de en atlas av promotorer, förstärkare och TSS över olika celltyper, och fungerar som en "baslinje" för att studera det komplexa landskapet av transkriptionsreglering. Specifikt genererades CAGE-profiler för en enda molekyl med hjälp av en HeliScope-sekvenserare över 573 primära cellprover från människa, 128 primära cellprover från mus, 250 cancercellinjer, 152 mänskliga vävnader efter slakt och 271 vävnadsprover från mus.

En ny metod för att identifiera CAGE-topparna utvecklades, kallad nedbrytningstoppanalys. CAGE-taggar är klustrade av närhet, följt av oberoende komponentanalys för att sönderdela topparna i icke-överlappande regioner. Ett anrikningssteg tillämpas för att säkerställa att topparna motsvarar TSS, och externa data för EST, histon H3 lysin 4 trimetyleringsmärken och DNas-överkänslighetsställen används för att stödja att topparna är äkta TSS.

Ett nyckelfynd visade att den typiska däggdjurspromotorn innehåller flera TSS med olika uttrycksmönster över prover. Detta innebar att dessa TSS regleras separat, trots att de ligger i närheten. Ubiquitously uttryckta promotorer hade den högsta konserveringen i sina sekvenser, medan cellspecifika promotorer var mindre konserverade. Ytterligare ett framträdande resultat antydde att förstärkarhärlett RNA (eRNA) transkriberas på ett cell/vävnadsspecifikt sätt, vilket återspeglar aktiviteten hos den förstärkaren.

Fas 2

Medan den första fasen var fokuserad på en stationär representation av celltillstånd, såg den andra fasen ut att utforska den dynamiska processen för övergång av celltillstånd genom användning av tidsförloppsdata. Återigen användes CAGE - denna gång över 19 tidsförlopp för människor och 14 mus som täckte en rad celltyper och biologiska stimuli som representerade 408 distinkta tidpunkter. Detta inkluderade differentieringen av stamcellsceller eller engagerade stamceller mot deras terminala öden, såväl som helt differentierade celler som svarar på tillväxtfaktorer eller patogener .

Oövervakad klustring utfördes för att identifiera en uppsättning distinkta svarsklasser, och undersökte mönster i expressionsveckändringar jämfört med tid 0. På detta sätt generaliserades uttrycket av förstärkare, TF-promotorer och icke-TF-promotorer på en tidsskala av de första 6 timmar av tidskursen. I allmänhet inträffade det tidigaste svaret av cellerna vid förstärkare, med eRNA-koncentrationer som toppade så tidigt som 15 minuter efter tid 0. Även i de klasser som representerar "senare" svar, tenderade förstärkare att aktiveras före proximala promotorer. Variabilitet sågs i ihållande av denna aktivering - vissa förstärkare återvände snabbt till baslinjen efter utbrottet vid 15 minuter, medan andra kvarstod efter promotoraktivering. Tillsammans tyder detta på att eRNA kan ha olika roller för att reglera genaktivitet.

Extra arbete

Förutom den typiska delningen av data på FANTOM-databasen, introducerade FANTOM5 också två bioinformatiska verktyg för datautforskning. ZENBU är en genomwebbläsare med ytterligare funktionalitet: användare kan ladda upp BAM-filer med CAGE-, kort-RNA- och ChIP-seq- experiment och utföra kvalitetskontroll, normalisering, toppfynd och anteckningar bland visuella jämförelser. SSTAR (Semantisk katalog över, prover, transkriptionsinitieringar och regleringar) tillåter under tiden utforskning och sökning av FANTOM5-proverna och deras genomiska egenskaper.

Den mängd data som produceras av FANTOM5 fortsätter att tillhandahålla en resurs för forskare som vill förklara de reglerande mekanismer som formar processer som utveckling. Ofta används CAGE-data i en specifik cell/vävnadstyp i samband med ytterligare epigenomiska analyser - ett sådant exempel beskriver samspelet mellan DNA-metylering och CAGE-definierade regulatoriska sekvenser under differentiering av en granulocyt .

Tre år efter introduktionen av enhancer- och promotoratlaserna släppte FANTOM-gruppen atlaser för lncRNA och mikroRNA (miRNA), med FANTOM5-data. Ett övergripande mål var att ge ytterligare insikt i den tidigare observationen av genomgripande transkription av däggdjursgenomet. LncRNA-arbetet karakteriserade 27 919 humana lncRNA-gener över 1 829 prover för att stimulera forskning om den funktionella relevansen av denna dåligt förstådda klass av RNA. Resultaten tydde på att 69 % av det identifierade lncRNA:t hade potentiell funktionalitet, även om mer bevis krävs för att kommentera om de återstående 31 % bara är transkriptionellt "brus" från falsk transkriptionsinitiering. miRNA-atlasen identifierade 1 357 humana och 804 mus-miRNA-promotorer och visade stark sekvenskonservering mellan de två arterna. Det visades också att primärt miRNA-uttryck kunde användas som en proxy för mogna miRNA-nivåer.

FANTOM6

För närvarande pågår, syftar FANTOM6 till att systematiskt karakterisera rollen av lncRNA i det mänskliga genomet. Den biologiska funktionen hos dessa stora (200+ nukleotider) och otranslaterade RNA är i stort sett okänd. Baserat på de få verk som har undersökt lncRNA, tror man att de är involverade i reglering av transkription, translation , posttranslationella modifieringar och epigenetiska märken. Men den nuvarande kunskapen om omfattningen och omfattningen av dessa förmodade regulatoriska interaktioner är rudimentär.

Det finns många utmaningar att ta itu med för denna nästa version av FANTOM. I synnerhet är lncRNA:n dåligt definierade - de saknar konservering och varierar mycket i storlek, från 200 till över en miljon nukleotider långa. Till skillnad från kodande transkript, som finns i cytosolen för translation, finns lncRNA främst i kärnan - ett mycket mer komplext landskap av RNA. I allmänhet har lncRNA lägre uttrycksnivåer än kodande transkript, men det finns stor variation i detta uttryck som kan skymmas av celltyp eller lokalisering inom kärnan. Dessutom är funktionell klassificering av lncRNA fortfarande hett debatterad - det är okänt om lncRNA kan grupperas baserat på gemensamma funktioner/verkningsmekanismer eller efter aktiva domäner.

FANTOM har lagt ut en tredelad experimentell strategi för att utforska dessa okända saker. En referenstranskriptom- och epigenomprofil för olika celltyper kommer att konstrueras som en baslinje för varje celltyp. Därefter, med hjälp av lncRNA som identifierats i tidigare publikationer, FANTOM5-data och ytterligare CAGE-profilering, kommer störningsexperiment att utföras för att utvärdera förändringar i cellulär molekylär fenotyp . Slutligen kommer komplementär teknologi att användas för att funktionellt kommentera/klassificera en utvald undergrupp av lncRNA. Dessa tekniker kommer att syfta till att belysa lncRNA:s sekundära struktur, deras association till proteiner och kromatin, och kartlägga långdistansinteraktioner av lncRNA i hela genomet.