Cancer Genome Anatomy Project

Cancer Genome Anatomy Project ( CGAP ), skapat av National Cancer Institute (NCI) 1997 och introducerat av Al Gore , är en onlinedatabas över normala, pre-cancerösa och cancerösa genom. Den tillhandahåller också verktyg för visning och analys av data, vilket möjliggör identifiering av gener involverade i olika aspekter av tumörprogression. Målet med CGAP är att karakterisera cancer på molekylär nivå genom att tillhandahålla en plattform med lättillgänglig uppdaterad data och en uppsättning verktyg så att forskare enkelt kan relatera sina resultat till befintlig kunskap. Det finns också fokus på utveckling av mjukvaruverktyg som förbättrar användningen av stora och komplexa datamängder. Projektet leds av Daniela S. Gerhard och inkluderar delprojekt eller initiativ, med anmärkningsvärda sådana, inklusive Cancer Chromosome Aberration Project (CCAP) och Genetic Annotation Initiative (GAI). CGAP bidrar till många databaser och organisationer som NCBI bidrar till CGAP:s databaser.

De slutliga resultaten av CGAP inkluderar fastställande av en korrelation mellan en viss cancerutveckling och dess terapeutiska resultat, förbättrad utvärdering av behandling och utveckling av nya tekniker för förebyggande, upptäckt och behandling. Detta uppnås genom karakterisering av biologiska vävnads-mRNA-produkter.

Forskning

Bakgrund

Den grundläggande orsaken till cancer är oförmågan för en cell att reglera sitt genuttryck. För att karakterisera en specifik typ av cancer kan de proteiner som produceras från det förändrade genuttrycket eller mRNA-prekursorn till proteinet undersökas. CGAP arbetar för att associera en viss cells uttrycksprofil , molekylära signatur eller transkriptom , som i huvudsak är cellens fingeravtryck, med cellens fenotyp. Därför existerar uttrycksprofiler med hänsyn till cancertyp och progressionsstadium.

Sekvensering

CGAP:s initiala mål var att upprätta ett tumörgenindex (TGI) för att lagra uttrycksprofilerna. Detta skulle ha bidrag till både nya och befintliga databaser. Detta bidrog till två typer av bibliotek, dbEST och senare dbSAGE. Detta utfördes i en serie steg:

  • Cellinnehåll tvättas över plattor med poly T-sekvenser. Detta kommer att binda Poly-A-svansar som endast existerar på mRNA-molekyler, och behåller därför mRNA selektivt.
  • Det isolerade mRNA:t bearbetas till ett cDNA- transkript genom omvänd transkription och DNA-polymerisationsreaktioner.
  • Det resulterande dubbelsträngade DNA:t inkorporeras sedan i E.coli- plasmider . Varje bakterie innehåller nu ett unikt cDNA och replikeras för att producera kloner med samma genetiska information. Detta kallas ett cDNA-bibliotek .
  • Biblioteket kan sedan sekvenseras med sekvenseringstekniker med hög genomströmning . Detta kan karakterisera både de olika generna som uttrycks av den ursprungliga cellen och mängden uttryck av varje gen.

TGI fokuserade till en början på prostatacancer, bröstcancer, äggstockscancer, lungcancer och tjocktarmscancer, och CGAP utvidgades till andra cancerformer i sin forskning. I praktiken uppstod frågor som CGAP stod för när ny teknik blev tillgänglig.

Många cancerformer förekommer i vävnader med flera celltyper. Traditionella tekniker tog hela vävnadsprovet och producerade bulkvävnads-cDNA-bibliotek. Denna cellulära heterogenitet gjorde information om genuttryck i form av cancerbiologi mindre exakt. Ett exempel är prostatacancervävnad där epitelceller, som visat sig vara den enda celltypen som ger upphov till cancer, endast utgör 10 % av cellantalet. Detta ledde till utvecklingen av laser capture microdissection (LCM), en teknik som kan isolera individuella celltyper individuella celler, vilket gav upphov till cDNA-bibliotek av specifika celltyper.

Sekvenseringen av cDNA kommer att producera hela mRNA-transkriptet som genererade det. Praktiskt taget krävs endast en del av sekvensen för att unikt identifiera mRNA eller protein som är associerat. Den resulterande delen av sekvensen benämndes uttryckt sekvenstagg (EST) och är alltid i slutet av sekvensen nära poly A-svansen. EST-data lagras i en databas som kallas dbEST. EST:er behöver bara vara cirka 400 baser långa, men med NGS- sekvenseringstekniker kommer detta fortfarande att ge läsningar av låg kvalitet. Därför används också en förbättrad metod som kallas seriell analys av genuttryck ( SAGE). Denna metod identifierar, för varje cDNA-transkriptmolekyl som produceras från en cells genuttryck, regioner endast 10-14 baser långa någonstans längs med lässekvensen, tillräckligt för att unikt identifiera det cDNA-transkriptet. Dessa baser skärs ut och länkas samman och inkorporeras sedan i bakteriella plasmider som nämnts ovan. SAGE-bibliotek har bättre läskvalitet och genererar en större mängd data när de sekvenseras, och eftersom transkript jämförs i absoluta snarare än relativa nivåer, har SAGE fördelen att inte kräva någon normalisering av data via jämförelse med en referens.

Resurser

Efter sekvensering och etablering av bibliotek, införlivar CGAP data tillsammans med befintliga datakällor och tillhandahåller olika databaser och verktyg för analys. En detaljerad beskrivning av verktyg och databaser som skapats eller används av CGAP finns på NCI:s CGAP-webbplats. Nedan är några av de initiativ eller forskningsverktyg som tillhandahålls av CGAP.

Genomic Annotation Initiative

Målet med Cancer Genome Anatomy Project Genome Annotation Initiative (CGAP-GAI) är att upptäcka och katalogisera singelnukleotidpolymorfismer (SNP) som korrelerar med cancerinitiering och progression. CGAP-GAI har skapat en mängd olika verktyg för upptäckt, analys och visning av SNP. SNP: er är värdefulla i cancerforskning eftersom de kan användas i flera olika genetiska studier, vanligtvis för att spåra överföring, identifiera alternativa former av gener och analysera komplexa molekylära vägar som reglerar cellmetabolism, tillväxt eller differentiering.

SNPs i CGAP-GAI hittas antingen som ett resultat av återsekvensering av gener av intresse hos olika individer eller genom att titta igenom befintliga mänskliga EST-databaser och göra jämförelser. Den undersöker transkript från friska individer, individer med sjukdom, tumörvävnad och cellinjer från en stor uppsättning individer; därför är det mer sannolikt att databasen inkluderar mutationer av sällsynta sjukdomar förutom högfrekventa varianter. En vanlig utmaning med SNP-detektion är differentiering mellan sekvenseringsfel med faktiska polymorfismer. SNP:er som hittas genomgår statistisk analys med hjälp av CGAP SNP-pipeline för att beräkna sannolikheten för att varianten i själva verket är en polymorfism. SNP:er med hög sannolikhet valideras och det finns tillgängliga verktyg som gör förutsägelser om funktionen ändras.

För att göra data lättillgänglig har CGAP-GAI ett antal verktyg som kan visa både en sekvensanpassning och sammanställningsöversikt med sammanhang till sekvenser från vilka de förutspåddes. SNP:er är kommenterade och integrerade genetiska/fysiska kartor bestäms ofta.

Cancer Chromosomal Aberration Project (CCAP)

Genomisk instabilitet är ett vanligt kännetecken för cancer; Därför kan förståelse av strukturella och kromosomala abnormiteter ge insikt i sjukdomens fortskridande. Cancer Chromosome Aberration Project (cCAP) är ett CGAP-stödt initiativ som används för att definiera kromosomstruktur och för att karakterisera omarrangemang som är associerade med malign transformation. Den innehåller onlineversionen av Mitelmans databas, skapad av Felix Mitelman, Bertil Johansson och Fredrik Mertens före skapandet av CGAP, en annan sammanställning av kända kromosomförändringar. CCAP har flera mål:

  • Integration av cytogenetiska och fysiska kartor över det mänskliga genomet
  • Generera ett klonförråd av BAC-kloner över genomet som är genetiskt och fysiskt kartlagda
  • Utveckla en plattform för parallell databaskorrelation av cancerrelaterade avvikelser (fluorescerande in-situ hybridisering (FISH)-kartad BAC-klondatabas)
  • Integrering av tre cytogenetiska analystekniker (spektral karyotypning, jämförande genomhybridisering och FISH) för att förfina definierande nomenklatur för karyotypa aberrationer.

Det finns cytogenetisk information från över 64 000 patientfall, inklusive mer än 2000 genfusioner, i databasen.

Som en del av detta projekt finns ett förråd av fysiskt och cytogenetiskt kartlagda BAC-kloner för det mänskliga genomet som är fysiskt tillgängliga genom ett nätverk av distributörer. CCAP Clone-kartorna har kartlagts cytogenetiskt med användning av FISH i en upplösning på 1-2 Mb över det mänskliga genomet och fysiskt kartlagt med användning av sekvensmärkta platser (STS). Data för BAC-kloner är också tillgängliga via CGAP- och NCBI-databaser.

Andra resurser

Nedan listas några andra resurser tillgängliga via CGAP.

Digital differentialdisplay

En tidig teknik som används av CGAP är digital differential display (DDD), som använder Fishers exakta test för att jämföra bibliotek med varandra, för att hitta en signifikant skillnad mellan populationer. CGAP säkerställde att DDD kunde jämföra alla cDNA-bibliotek i dbEST, och inte bara de som genererades av CGAP.

Däggdjursgensamling (MGC)

MGC förser forskare med proteininformation i full längd från cDNA, till skillnad från EST- eller SAGE-databaser som endast tillhandahåller den identifierande taggen. Projektet inkluderar mänskliga och musgener, och senare tillkom cDNA från ko genererade av Genome Canada .

SAGEkarta

SAGEmap är den databas som används för att lagra SAGE-bibliotek. Över 3,4 miljoner SAGE-taggar existerar från och med 2001. Verktyg kan användas för att mappa SAGE-taggar till UniGene- kluster, en databas som lagrar transkriptom. Detta möjliggör enklare identifiering av en SAGE-taggs motsvarande sekvens. Dessutom finns det verktyg associerade med SAGEmaps:

  • Digital Northern används för att mäta uttrycksnivån för specifika gener,
  • SAGE Anatomic Viewer visar denna information visuellt och jämför den mellan normala och cancerceller,
  • Ludwig Transcript (LT) Viewer visar alternativa transkriptioner och deras möjliga associerade SAGE-taggar,
  • mSAGE Expression Matrix (mSEM) visar genuttrycksnivåer genom musutvecklingen för olika vävnadstyper.

Gene Finder

CGAP lokaliserar en gen eller en lista med gener baserat på specificerade sökkriterier och tillhandahåller länkar till olika NCI- och NCBI-databaser. En gen kan sökas specifikt efter med hjälp av en unik identifierare såsom gensymboler och Entrez-gennummer samt generellt efter funktion, vävnad eller nyckelord.

Andra genverktyg som är tillgängliga via CGAP-webbgränssnittet inkluderar Gene Ontology Browser (GO) och Nucleotide BLAST-verktyget.

Verktyg för genuttryck

cDNA xProfiler och cDNA Digital genexpression displayer (DGED) används tillsammans för att hitta statistiskt signifikanta gener av intresse som uttrycks differentiellt inom två pooler av cDNA-bibliotek, vanligtvis görs en jämförelse mellan normala och cancervävnader. Statistisk signifikans bestäms av DGED med hjälp av en kombination av bayesiansk statistik och en sekvensoddskvot för att beräkna en sannolikhet. cDNA DGED förlitar sig på UniGene relationsdatabasen medan cDNA xProfiler använder en platt fildatabas som inte är tillgänglig online.

Resultat och framtid

CGAP är nu en centraliserad plats för flera genomikverktyg och genetiska databaser och används brett inom cancer- och molekylärbiologiforskning. De databaser som etablerats av CGAP fortsätter att bidra till kunskap om cancer när det gäller deras vägar och progression. Transkriptomdatabaserna kan också användas i icke-cancerrelaterad forskning, eftersom de innehåller information som kan användas för att snabbt och enkelt identifiera särskilda sekvenserade gener. Data har också klinisk påverkan, eftersom cDNA kan användas för att skapa mikroarrayer för diagnos och behandlingsjämförelse. CGAP har använts i många studier, med exempel:

  • Karakteriserande skillnader i normala och cancerösa endotelcellers genuttryck
  • Identifiera oregelbundet genuttryck som markörer för glioblastom och äggstockscancer
  • Identifiera genuttryck specifikt för prostatavävnad
  • Jämförelse av proteiner uttryckta i normal och cancerös reproduktionsvävnad

Dessutom har den stora mängden data som genereras av CGAP lett till förbättringar av dataanalys och gruvtekniker, med exempel:

  • Jämförelse av genuttryck från flera cDNA-bibliotek
  • Förbättrade tekniker för gruvdrift av EST-bibliotek
  • Integrerade, storskaliga studier av human transkriptomanalys

Se även

externa länkar