Nukleinsyrasekvens
En nukleinsyrasekvens är en följd av baser som betecknas av en serie av en uppsättning av fem olika bokstäver som indikerar ordningen av nukleotider som bildar alleler inom en DNA (med GACT) eller RNA (GACU) molekyl. Enligt konvention presenteras sekvenser vanligtvis från 5'-änden till 3'-änden . För DNA används sense- strängen. Eftersom nukleinsyror normalt är linjära (ogrenade) polymerer , är specificering av sekvensen ekvivalent med att definiera den kovalenta strukturen för hela molekylen. Av denna anledning kallas nukleinsyrasekvensen också för den primära strukturen .
Sekvensen har kapacitet att representera information . Biologisk deoxiribonukleinsyra representerar den information som styr en organisms funktioner .
Nukleinsyror har också en sekundär struktur och en tertiär struktur . Primär struktur kallas ibland felaktigt för primär sekvens . Omvänt finns det inget parallellt koncept för sekundär eller tertiär sekvens.
Nukleotider
Nukleinsyror består av en kedja av sammanlänkade enheter som kallas nukleotider. Varje nukleotid består av tre underenheter: en fosfatgrupp och ett socker ( ribos i fallet med RNA , deoxiribos i DNA ) utgör ryggraden i nukleinsyrasträngen, och fäst till sockret är en av en uppsättning nukleobaser . Nukleobaserna är viktiga vid basparning av strängar för att bilda sekundära och tertiära strukturer på högre nivå, såsom den berömda dubbelhelixen .
De möjliga bokstäverna är A , C , G och T , som representerar de fyra nukleotidbaserna i en DNA-sträng - adenin , cytosin , guanin , tymin - kovalent kopplade till en fosfodiester - ryggrad. I det typiska fallet skrivs sekvenserna angränsande till varandra utan mellanrum, som i sekvensen AAAGTCTGAC, avläs från vänster till höger i 5' till 3'- riktningen. När det gäller transkription finns en sekvens på den kodande strängen om den har samma ordning som det transkriberade RNA:t.
En sekvens kan vara komplementär till en annan sekvens, vilket innebär att de har basen på varje position i den komplementära (dvs. A till T, C till G) och i omvänd ordning. Till exempel är den komplementära sekvensen till TTAC GTAA. Om en sträng av det dubbelsträngade DNA:t anses vara sense-strängen, kommer den andra strängen, betraktad som antisenssträngen, att ha den komplementära sekvensen till sense-strängen.
Notation
Jämföra och bestämma % skillnad mellan två nukleotidsekvenser.
- AA T CC GC TAG
- AA A CC CT TAG
- Med tanke på de två 10-nukleotidsekvenserna, rada upp dem och jämför skillnaderna mellan dem. Beräkna den procentuella likheten genom att ta antalet olika DNA-baser dividerat med det totala antalet nukleotider. I ovanstående fall finns det tre skillnader i sekvensen på 10 nukleotider. Dela därför 7/10 för att få 70 % likhet och subtrahera det från 100 % för att få 30 % skillnad.
Medan A, T, C och G representerar en viss nukleotid i en position, finns det också bokstäver som representerar tvetydighet som används när mer än en sorts nukleotid kan förekomma i den positionen. Reglerna för International Union of Pure and Applied Chemistry ( IUPAC ) är följande:
Symbol | Beskrivning | Baser representerade | Komplement | ||||
---|---|---|---|---|---|---|---|
A | En denine | A | 1 | T | |||
C | C ytosin | C | G | ||||
G | G uanine | G | C | ||||
T | T hymin | T | A | ||||
U | Du rasil | U | A | ||||
W | W eak | A | T | 2 | W | ||
S | S trong | C | G | S | |||
M | ett M ino | A | C | K | |||
K | K eto | G | T | M | |||
R | pu R ine | A | G | Y | |||
Y | p Y rimidin | C | T | R | |||
B | inte A ( B kommer efter A) | C | G | T | 3 | V | |
D | inte C ( D kommer efter C) | A | G | T | H | ||
H | inte G ( H kommer efter G) | A | C | T | D | ||
V | inte T ( V kommer efter T och U) | A | C | G | B | ||
N | någon nukleotid (inte ett gap) | A | C | G | T | 4 | N |
Z | Noll ero | 0 | Z |
Dessa symboler är också giltiga för RNA, förutom att U (uracil) ersätter T (tymin).
Förutom adenin (A), cytosin (C), guanin (G), tymin (T) och uracil (U), innehåller DNA och RNA även baser som har modifierats efter att nukleinsyrakedjan har bildats. I DNA är den vanligaste modifierade basen 5-metylcytidin (m5C). I RNA finns det många modifierade baser, inklusive pseudouridin (Ψ), dihydrouridin (D), inosin (I), ribotymidin (rT) och 7-metylguanosin (m7G). Hypoxantin och xantin är två av de många baser som skapas genom mutagen närvaro, båda genom deaminering (ersättning av amingruppen med en karbonylgrupp). Hypoxantin framställs av adenin och xantin framställs av guanin . På liknande sätt resulterar deaminering av cytosin i uracil .
Biologisk betydelse
I biologiska system innehåller nukleinsyror information som används av en levande cell för att konstruera specifika proteiner . Sekvensen av nukleobaser på en nukleinsyrasträng översätts av cellmaskineri till en sekvens av aminosyror som utgör en proteinsträng. Varje grupp av tre baser, som kallas ett kodon , motsvarar en enda aminosyra, och det finns en specifik genetisk kod genom vilken varje möjlig kombination av tre baser motsvarar en specifik aminosyra.
Den centrala dogmen inom molekylärbiologi beskriver mekanismen genom vilken proteiner konstrueras med hjälp av information som finns i nukleinsyror. DNA transkriberas till mRNA- molekyler som går till ribosomen där mRNA används som mall för konstruktionen av proteinsträngen. Eftersom nukleinsyror kan binda till molekyler med komplementära sekvenser, finns det en skillnad mellan " sens "-sekvenser som kodar för proteiner och den komplementära "antisense"-sekvensen, som i sig är icke-funktionell, men kan binda till sense-strängen.
Sekvensbestämning
DNA-sekvensering är processen för att bestämma nukleotidsekvensen för ett givet DNA- fragment. Sekvensen av ett levandes DNA kodar för den nödvändiga informationen för att den levande varelsen ska överleva och fortplanta sig. Att bestämma sekvensen är därför användbart i grundläggande forskning om varför och hur organismer lever, såväl som i tillämpade ämnen. På grund av DNA:s betydelse för levande varelser kan kunskap om en DNA-sekvens vara användbar i praktiskt taget all biologisk forskning . Inom medicin kan det till exempel användas för att identifiera, diagnostisera och potentiellt utveckla behandlingar för genetiska sjukdomar . På samma sätt kan forskning om patogener leda till behandlingar för smittsamma sjukdomar. Bioteknik är en spirande disciplin, med potential för många användbara produkter och tjänster.
RNA sekvenseras inte direkt. Istället kopieras det till ett DNA med omvänt transkriptas , och detta DNA sekvenseras sedan.
Nuvarande sekvenseringsmetoder förlitar sig på den diskriminerande förmågan hos DNA-polymeraser och kan därför endast särskilja fyra baser. Ett inosin (skapat från adenosin under RNA-redigering ) läses som ett G, och 5-metyl-cytosin (skapat från cytosin genom DNA-metylering ) läses som ett C. Med nuvarande teknologi är det svårt att sekvensera små mängder DNA, eftersom signalen är för svag för att mätas. Detta övervinns genom polymeraskedjereaktion (PCR) amplifiering.
Digital representation
När en nukleinsyrasekvens har erhållits från en organism, lagras den i silico i digitalt format. Digitala genetiska sekvenser kan lagras i sekvensdatabaser , analyseras (se Sekvensanalys nedan), ändras digitalt och användas som mallar för att skapa nytt verkligt DNA med hjälp av artificiell gensyntes .
Sekvensanalys
Digitala genetiska sekvenser kan analyseras med hjälp av bioinformatikens verktyg för att försöka fastställa dess funktion.
Genetisk testning
DNA:t i en organisms genom kan analyseras för att diagnostisera sårbarheter för ärftliga sjukdomar , och kan också användas för att fastställa ett barns faderskap (genetisk far) eller en persons härkomst . Normalt bär varje person två varianter av varje gen , en ärvd från sin mamma, den andra ärvd från sin far. Det mänskliga genomet tros innehålla omkring 20 000–25 000 gener. Förutom att studera kromosomer till nivån för individuella gener, inkluderar genetisk testning i en bredare mening biokemiska tester för eventuell förekomst av genetiska sjukdomar , eller muterade former av gener associerade med ökad risk att utveckla genetiska störningar.
Genetisk testning identifierar förändringar i kromosomer, gener eller proteiner. Vanligtvis används testning för att hitta förändringar som är förknippade med ärftliga sjukdomar. Resultaten av ett genetiskt test kan bekräfta eller utesluta ett misstänkt genetiskt tillstånd eller hjälpa till att fastställa en persons chans att utveckla eller överföra en genetisk sjukdom. Flera hundra genetiska tester används för närvarande och fler utvecklas.
Sekvensjustering
Inom bioinformatik är en sekvensanpassning ett sätt att ordna sekvenserna av DNA , RNA eller protein för att identifiera regioner med likhet som kan bero på funktionella, strukturella eller evolutionära relationer mellan sekvenserna. Om två sekvenser i en anpassning delar en gemensam förfader, kan felmatchningar tolkas som punktmutationer och luckor som insättnings- eller deletionsmutationer ( indels ) som introducerats i en eller båda linjerna under tiden sedan de divergerade från varandra. I sekvensanpassningar av proteiner kan graden av likhet mellan aminosyror som upptar en viss position i sekvensen tolkas som ett grovt mått på hur konserverad en viss region eller sekvensmotiv är bland linjer. Frånvaron av substitutioner, eller närvaron av endast mycket konservativa substitutioner (det vill säga substitution av aminosyror vars sidokedjor har liknande biokemiska egenskaper) i en viss region av sekvensen, tyder på att denna region har strukturell eller funktionell betydelse. Även om DNA- och RNA- nukleotidbaser är mer lika varandra än aminosyror, kan bevarandet av baspar indikera en liknande funktionell eller strukturell roll.
Computational fylogenetics använder omfattande sekvensanpassningar i konstruktionen och tolkningen av fylogenetiska träd , som används för att klassificera de evolutionära förhållandena mellan homologa gener representerade i genomen av divergerande arter. Graden som sekvenser i en frågeuppsättning skiljer sig åt är kvalitativt relaterad till sekvensernas evolutionära avstånd från varandra. Grovt sett antyder hög sekvensidentitet att sekvenserna i fråga har en jämförelsevis ung senaste gemensam förfader , medan låg identitet tyder på att divergensen är äldre. Denna approximation, som återspeglar hypotesen om " molekylär klocka " att en i stort sett konstant hastighet av evolutionär förändring kan användas för att extrapolera den tid som förflutit sedan två gener först divergerade (det vill säga koalescenstiden), antar att effekterna av mutation och selektion är konstant över sekvenslinjer. Därför tar den inte hänsyn till möjliga skillnader mellan organismer eller arter i hastigheten för DNA-reparation eller möjlig funktionell bevarande av specifika regioner i en sekvens. (När det gäller nukleotidsekvenser, diskonterar den molekylära klockhypotesen i sin mest grundläggande form också skillnaden i acceptanshastigheter mellan tysta mutationer som inte ändrar betydelsen av ett givet kodon och andra mutationer som leder till att en annan aminosyra införlivas i proteinet.) Mer statistiskt korrekta metoder tillåter evolutionshastigheten på varje gren av det fylogenetiska trädet att variera, vilket ger bättre uppskattningar av koalescenstider för gener.
Sekvensmotiv
Ofta kodar den primära strukturen för motiv som är av funktionell betydelse. Några exempel på sekvensmotiv är: C/D- och H/ACA-lådorna av snoRNA , Sm -bindningsställe som finns i spliceosomal RNA, såsom U1 , U2 , U4 , U5 , U6 , U12 och U3 , Shine-Dalgarno-sekvensen , Kozak konsensussekvens och RNA-polymeras III-terminatorn .
Sekvensentropi
Inom bioinformatik är en sekvensentropi, även känd som sekvenskomplexitet eller informationsprofil, en numerisk sekvens som ger ett kvantitativt mått på den lokala komplexiteten hos en DNA-sekvens, oberoende av bearbetningsriktningen. Manipuleringarna av informationsprofilerna möjliggör analys av sekvenserna med användning av anpassningsfria tekniker, såsom till exempel vid motiv- och omarrangemangsdetektering.