Uttryckt sekvenstagg

Inom genetik är en uttryckt sekvenstagg ( EST ) en kort undersekvens av en cDNA- sekvens. EST kan användas för att identifiera gentranskript, och var avgörande för genupptäckt och gensekvensbestämning. Identifieringen av ESTs har gått snabbt, med cirka 74,2 miljoner ESTs nu tillgängliga i offentliga databaser (t.ex. GenBank 1 januari 2013, alla arter). EST-metoder har till stor del ersatts av helgenom- och transkriptomsekvensering och metagenomsekvensering.

En EST resulterar från engångssekvensering av en klonad cDNA . De cDNA som används för EST-generering är vanligtvis individuella kloner från ett cDNA-bibliotek . Den resulterande sekvensen är ett relativt lågkvalitativt fragment vars längd är begränsad av nuvarande teknologi till cirka 500 till 800 nukleotider . Eftersom dessa kloner består av DNA som är komplementärt till mRNA, representerar EST:erna delar av uttryckta gener. De kan representeras i databaser som antingen cDNA/mRNA-sekvens eller som det omvända komplementet till mRNA:t, mallsträngen .

Man kan kartlägga EST till specifika kromosomplatser med hjälp av fysiska kartläggningstekniker , såsom strålningshybridkartering , Happy mapping eller FISH . Alternativt, om genomet av organismen som skapade EST har sekvenserats, kan man anpassa EST-sekvensen till det genomet med hjälp av en dator.

Den nuvarande förståelsen av den mänskliga uppsättningen gener (från och med 2006) inkluderar förekomsten av tusentals gener baserade enbart på EST-bevis. I detta avseende har EST blivit ett verktyg för att förfina de förutsagda transkripten för dessa gener, vilket leder till förutsägelse av deras proteinprodukter och i slutändan av deras funktion. Dessutom ger den situation i vilken dessa EST erhålls (vävnad, organ, sjukdomstillstånd - t.ex. cancer ) information om de tillstånd under vilka motsvarande gen verkar. EST innehåller tillräckligt med information för att tillåta utformningen av exakta prober för DNA-mikroarrayer som sedan kan användas för att bestämma genuttrycksprofiler .

Vissa författare använder termen "EST" för att beskriva gener för vilka lite eller ingen ytterligare information finns förutom taggen.

Historia

1979 utökade team vid Harvard och Caltech den grundläggande idén att göra DNA-kopior av mRNA in vitro till att förstärka ett bibliotek av sådana i bakteriella plasmider.

1982 utforskades idén om att välja slumpmässiga eller semislumpmässiga kloner från ett sådant cDNA-bibliotek för sekvensering av Greg Sutcliffe och medarbetare.

1983, Putney et al. sekvenserade 178 kloner från ett kaninmuskel-cDNA-bibliotek.

1991 myntade Adams och medarbetare termen EST och initierade mer systematisk sekvensering som ett projekt (som började med 600 hjärn-cDNA).

Datakällor och anteckningar

dbEST

dbEST är en division av Genbank som grundades 1992. När det gäller GenBank skickas data i dbEST direkt av laboratorier över hela världen och är inte kurerad.

EST sammanhänger

På grund av hur EST sekvenseras är många distinkta uttryckta sekvenstaggar ofta partiella sekvenser som motsvarar samma mRNA från en organism. I ett försök att minska antalet uttryckta sekvenstaggar för nedströms genupptäcktsanalyser, samlade flera grupper uttryckta sekvenstaggar till EST- kontiger . Exempel på resurser som tillhandahåller EST-kontiger inkluderar: TIGR-genindex, Unigene och STACK

Att konstruera EST-kontiger är inte trivialt och kan ge artefakter (kontiger som innehåller två distinkta genprodukter). När den fullständiga genomsekvensen för en organism är tillgänglig och transkript är kommenterade, är det möjligt att kringgå contig-sammansättning och direkt matcha transkript med EST. Detta tillvägagångssätt används i TissueInfo-systemet (se nedan) och gör det enkelt att länka annoteringar i den genomiska databasen till vävnadsinformation som tillhandahålls av EST-data.

Vävnadsinformation

Högkapacitetsanalyser av EST:er möter ofta liknande datahanteringsutmaningar. En första utmaning är att vävnadsproveniens av EST-bibliotek beskrivs på vanlig engelska i dbEST. Detta gör det svårt att skriva program som entydigt kan avgöra att två EST-bibliotek sekvenserades från samma vävnad. På liknande sätt är sjukdomstillstånd för vävnaden inte kommenterade på ett beräkningsvänligt sätt. Till exempel blandas cancerursprunget för ett bibliotek ofta med vävnadsnamnet (t.ex. vävnadsnamnet " glioblastom " indikerar att EST-biblioteket sekvenserades från hjärnvävnad och att sjukdomstillståndet är cancer). Med det anmärkningsvärda undantaget cancer, är sjukdomstillståndet ofta inte registrerat i dbEST-poster. TissueInfo-projektet startades 2000 för att hjälpa till med dessa utmaningar. Projektet tillhandahåller kurerade data (uppdateras dagligen) för att disambiguera vävnadsursprung och sjukdomstillstånd (cancer/icke cancer), erbjuder en vävnadsontologi som länkar vävnader och organ genom att "är en del av" relationer (dvs. formaliserar kunskapen om att hypotalamus är en del av hjärnan , och att hjärnan är en del av det centrala nervsystemet) och distribuerar programvara med öppen källkod för att länka transkriptannoteringar från sekvenserade genom till vävnadsuttrycksprofiler beräknade med data i dbEST.

Se även

externa länkar

Vävnadsinformation