Bevarad icke-kodande sekvens

En konserverad icke-kodande sekvens ( CNS ) är en DNA-sekvens av icke-kodande DNA som är evolutionärt konserverad . Dessa sekvenser är av intresse för deras potential att reglera genproduktion .

CNS hos växter och djur är starkt associerade med transkriptionsfaktorbindningsställen och andra cis- verkande regulatoriska element . Konserverade icke-kodande sekvenser kan vara viktiga platser för evolutionär divergens eftersom mutationer i dessa regioner kan förändra regleringen av konserverade gener , vilket ger artspecifika mönster av genuttryck . Dessa egenskaper har gjort dem till en ovärderlig resurs inom jämförande genomik .

Källor

Alla CNS kommer sannolikt att utföra någon funktion för att ha begränsningar för sin utveckling, men de kan särskiljas utifrån var i genomet de finns och hur de kom dit.

Introner

Introner är sekvenssträckor som mestadels finns i eukaryota organismer som avbryter de kodande regionerna av gener, med basparlängder som varierar över tre storleksordningar. Intronsekvenser kan konserveras, ofta för att de innehåller uttrycksreglerande element som sätter funktionella begränsningar på deras utveckling . Mönster av bevarade introner mellan arter av olika riken har använts för att dra slutsatser om introndensitet vid olika punkter i evolutionens historia. Detta gör dem till en viktig resurs för att förstå dynamiken för intronförstärkning och -förlust i eukaryoter (1,28).

Oöversatta regioner

Några av de mest konserverade icke-kodande regionerna finns i de otranslaterade regionerna (UTR) vid 3'-änden av mogna RNA-transkript , snarare än i intronerna. Detta antyder en viktig funktion som verkar på post-transkriptionell nivå. Om dessa regioner utför en viktig regulatorisk funktion, tyder ökningen av 3'-UTR-längden över evolutionär tid på att konserverade UTR bidrar till organismernas komplexitet. Regulatoriska motiv i UTR som ofta bevaras i gener som tillhör samma metaboliska familj skulle potentiellt kunna användas för att utveckla mycket specifika läkemedel som riktar sig mot RNA-transkript.

Transponerbara element

Repetitiva element kan ackumuleras i en organisms genom som ett resultat av några olika transponeringsprocesser . I vilken utsträckning detta har ägt rum under utvecklingen av eukaryoter varierar mycket: repetitivt DNA står för bara 3% av fluggenomet, men står för 50% av det mänskliga genomet .

Det finns olika teorier som förklarar bevarandet av transponerbara element . En menar att de, liksom pseudogener , tillhandahåller en källa till nytt genetiskt material, vilket möjliggör snabbare anpassning till förändringar i miljön. Ett enklare alternativ är att eftersom eukaryota genom kanske inte har några medel för att förhindra spridningen av transposerbara element, är de fria att ackumuleras så länge de inte infogas i eller nära en gen på ett sådant sätt att de skulle störa väsentliga funktioner. En nyligen genomförd studie visade att transposoner bidrar med minst 16 % av de eutheriska specifika CNS, vilket markerar dem som en "stor kreativ kraft" i utvecklingen av genreglering hos däggdjur . Det finns tre huvudklasser av transponerbara element, som kännetecknas av de mekanismer genom vilka de förökar sig.

Klasser

DNA-transposoner kodar för ett transposasprotein , som flankeras av inverterade upprepade sekvenser. Transposaset skär ut sekvensen och återintegrerar den någon annanstans i genomet. Genom att skära ut omedelbart efter DNA-replikation och infoga i målställen som ännu inte har replikerats, kan antalet transposoner i genomet öka.

Retrotransposoner använder omvänt transkriptas för att generera ett cDNA från TE-transkriptet. Dessa är vidare uppdelade i långa terminala upprepade (LTR), långa interspersed nuclear elements (LINEs) och short interspersed nuclear elements (SINEs). I LTR-retrotransposoner, efter att RNA-mallen är nedbruten, återför en DNA-sträng komplementär till det omvänt transkriberade cDNA:t elementet till ett dubbelsträngat tillstånd. Integrase , ett enzym som kodas av LTR-retrotransposonet, återinkorporerar sedan elementet vid ett nytt målställe. Dessa element flankeras av långa terminala upprepningar (300–500 bp) som förmedlar transponeringsprocessen.

LINEs använder en enklare metod där cDNA syntetiseras vid målstället efter klyvning av ett LINE-kodat endonukleas . LINE-kodat omvänt transkriptas är inte särskilt sekvensspecifikt. Inkorporeringen av LINE-maskineri av icke-relaterade RNA-transkript ger upphov till icke-funktionella bearbetade pseudogener. Om en liten gens promotor ingår i den transkriberade delen av genen, kan det stabila transkriptet dupliceras och återinsättas i genomet flera gånger. De grundämnen som produceras av denna process kallas SINEs.

Bevarade lagstadgade inslag som kan överföras

När konserverade regulatoriska transposerbara element är aktiva i ett genom kan de introducera nya promotorregioner, störa befintliga regulatoriska ställen eller, om de sätts in i transkriberade regioner, ändra splitsningsmönster . Ett speciellt transponerat element kommer att väljas positivt om det förändrade uttrycket det producerar ger en adaptiv fördel. Detta har resulterat i några av de bevarade områdena som finns hos människor. Nästan 25 % av karakteriserade promotorer hos människor innehåller transponerade element. Detta är av särskilt intresse i ljuset av det faktum att de flesta transponerbara element hos människor inte längre är aktiva.

Pseudogenes

Pseudogener är rester av en gång fungerande gener inaktiverade av sekvensdeletioner, insertioner eller mutationer . Det primära beviset för denna process är närvaron av fullt fungerande ortologer till dessa inaktiverade sekvenser i andra relaterade genom. Pseudogener uppstår vanligtvis efter en genduplicering eller polyploidiseringshändelse . Med två funktionella kopior av en gen finns det inget selektivt tryck för att bibehålla uttryckbarheten av båda, vilket lämnar en fri att ackumulera mutationer som en icke-fungerande pseudogen. Detta är det typiska fallet, där neutral selektion tillåter pseudogener att ackumulera mutationer, som fungerar som "reservoarer" av nytt genetiskt material, med potential att återinföras i genomet. Vissa pseudogener har emellertid visat sig vara bevarade i däggdjur. Den enklaste förklaringen till detta är att dessa icke-kodande regioner kan ha en viss biologisk funktion, och detta har visat sig vara fallet för flera konserverade pseudogener. Makorin1 mRNA, till exempel, visade sig vara stabiliserat av dess paraloga pseudogen, Makorin1-p1, som är konserverad i flera musarter. Andra pseudogener har också visat sig vara konserverade mellan människor och möss och mellan människor och schimpanser , som härrör från dupliceringshändelser före artens divergens . Bevis för dessa pseudogeners transkription stöder också hypotesen att de har en biologisk funktion. Fynd av potentiellt funktionella pseudogener skapar svårigheter att definiera dem, eftersom termen ursprungligen var avsedd för degenererade sekvenser utan biologisk funktion.

Ett exempel på en pseudogen är genen för L-gulonolaktonoxidas , ett leverenzym som är nödvändigt för biosyntes av L-askorbinsyra (vitamin C) i de flesta fåglar och däggdjur, men som är muterad i haplorrhini -underordningen hos primater, inklusive människor som kräver askorbinsyra eller askorbat från livsmedel. Resterna av denna icke-funktionella gen med många mutationer finns fortfarande i arvsmassan hos marsvin och människor.

Ultrakonserverade regioner

Ultrakonserverade regioner (UCR) är regioner över 200 bp långa med 100 % identitet över arter. Dessa unika sekvenser finns mestadels i icke-kodande regioner. Det är fortfarande inte helt förstått varför det negativa selektiva trycket på dessa regioner är så mycket starkare än urvalet i proteinkodande regioner. Även om dessa regioner kan ses som unika, är skillnaden mellan regioner med en hög grad av sekvenskonservering och de med perfekt sekvenskonservering inte nödvändigtvis av biologisk betydelse. En studie i Science fann att alla extremt konserverade icke-kodande sekvenser har viktiga regulatoriska funktioner oavsett om bevarandet är perfekt, vilket gör att distinktionen av ultrakonservering verkar något godtycklig.

I jämförande genomik

Konserveringen av både funktionella och icke-funktionella icke-kodande regioner tillhandahåller ett viktigt verktyg för jämförande genomik , även om bevarande av cis-regulatoriska element har visat sig vara särskilt användbart. Förekomsten av CNS kan i vissa fall bero på en brist på divergenstid, även om det vanligaste tänkandet är att de utför funktioner som sätter olika grader av begränsningar på deras utveckling. I överensstämmelse med denna teori finns cis-regulatoriska element vanligtvis i konserverade icke-kodande regioner. Således används sekvenslikhet ofta som en parameter för att begränsa sökutrymmet när man försöker identifiera regulatoriska element som bevaras över arter, även om detta är mest användbart för att analysera avlägset besläktade organismer, eftersom närmare släktingar har sekvenskonservering även bland icke-funktionella element.

Ortologer med hög sekvenslikhet delar kanske inte samma reglerande element. Dessa skillnader kan förklara olika uttrycksmönster mellan arter. Bevarande av icke-kodande sekvens är också viktigt för analys av paraloger inom en enda art. CNS som delas av paraloga kluster av Hox-gener är kandidater för uttrycksreglerande regioner, vilket möjligen koordinerar liknande uttrycksmönster för dessa gener.

Jämförande genomiska studier av promotorregionerna av ortologa gener kan också detektera skillnader i närvaro och relativ positionering av transkriptionsfaktorbindningsställen i promotorregioner. Ortologer med hög sekvenslikhet delar kanske inte samma reglerande element. Dessa skillnader kan förklara olika uttrycksmönster mellan arter.

De regulatoriska funktionerna som vanligtvis förknippas med konserverade icke-kodande regioner tros spela en roll i utvecklingen av eukaryotisk komplexitet. I genomsnitt innehåller växter färre CNS per gen än däggdjur. Detta tros vara relaterat till att de har genomgått fler polyploidiseringar eller genomdupliceringshändelser. Under subfunktionaliseringen som följer efter genduplicering finns det potential för en högre grad av CNS-förlust per gen. Således kan genomdupliceringshändelser förklara det faktum att växter har fler gener, var och en med färre CNS. Om man antar att antalet CNS är en proxy för regulatorisk komplexitet, kan detta förklara skillnaden i komplexitet mellan växter och däggdjur.

Eftersom förändringar i genreglering tros stå för de flesta av skillnaderna mellan människor och schimpanser, har forskare tittat på CNS för att försöka visa detta. En del av CNS mellan människor och andra primater har en anrikning av humanspecifika enkelnukleotidpolymorfismer, vilket tyder på positivt urval för dessa SNP och accelererad utveckling av dessa CNS. Många av dessa SNP är också associerade med förändringar i genuttryck, vilket tyder på att dessa CNS spelade en viktig roll i mänsklig evolution .

Online bioinformatisk programvara

Program Hemsida
Consite http://consite.genereg.net/
Ancora http://ancora.genereg.net/
FootPrinter http://bio.cs.washington.edu/software
GenomeTrafac http://genometrafac.cchmc.org/genome-trafac/index.jsp
rVISTA http://rvista.dcode.org/
Tukan http://homes.esat.kuleuven.be/~saerts/software/toucan.php
Trafac http://trafac.chmcc.org/trafac/index.jsp
UCNEbas http://ccg.vital-it.ch/UCNEbase/