Kodningsteoretiska tillvägagångssätt för nukleinsyradesign

DNA-kodkonstruktion hänvisar till tillämpningen av kodningsteori för design av nukleinsyrasystem för området DNA-baserad beräkning .

Introduktion

DNA- sekvenser uppträder i form av dubbla helixar i levande celler , där en DNA-sträng hybridiseras till sin komplementära sträng genom en serie vätebindningar . För syftet med denna post kommer vi att fokusera på endast oligonukleotider . DNA-beräkning innebär att tillåta syntetiska oligonukleotidsträngar att hybridisera på ett sådant sätt att de kan utföra beräkning . DNA-beräkning kräver att självmontering av oligonukleotidsträngarna sker på ett sådant sätt att hybridisering bör ske på ett sätt som är förenligt med beräkningsmålen.

Området för DNA-beräkning etablerades i Leonard M. Adelmans nyskapande artikel. Hans arbete är betydelsefullt av flera skäl:

  • Den visar hur man skulle kunna använda den mycket parallella karaktären hos beräkningar som utförs av DNA för att lösa problem som är svåra eller nästan omöjliga att lösa med de traditionella metoderna.
  • Det är ett exempel på beräkning på molekylär nivå, på linje med nanoberäkning , och detta är potentiellt en stor fördel när det gäller informationstätheten på lagringsmedia, som aldrig kan nås av halvledarindustrin.
  • Den visar unika aspekter av DNA som datastruktur.

Denna förmåga för massivt parallell beräkning i DNA-beräkningar kan utnyttjas för att lösa många beräkningsproblem i enormt stor skala, såsom cellbaserade beräkningssystem för cancerdiagnostik och behandling, och lagringsmedia med ultrahög densitet.

Detta urval av kodord (sekvenser av DNA-oligonukleotider) är ett stort hinder i sig på grund av fenomenet sekundär strukturbildning (där DNA-strängar tenderar att vikas på sig själva under hybridisering och därmed gör sig oanvändbara i ytterligare beräkningar. Detta är också känt som självhybridisering). Nussinov-Jacobson-algoritmen används för att förutsäga sekundära strukturer och även för att identifiera vissa designkriterier som minskar möjligheten till sekundär strukturbildning i ett kodord. I huvudsak visar denna algoritm hur närvaron av en cyklisk struktur i en DNA-kod minskar komplexiteten i problemet med att testa kodorden för sekundära strukturer.

Nya konstruktioner av sådana koder inkluderar användning av cykliska reversibla utökade Goppa-koder , generaliserade Hadamard-matriser och ett binärt tillvägagångssätt. Innan vi dyker in i dessa konstruktioner ska vi återgå till viss grundläggande genetisk terminologi. Motivationen för de satser som presenteras i denna artikel är att de överensstämmer med Nussinov - Jacobson-algoritmen, i det att förekomsten av cyklisk struktur hjälper till att minska komplexiteten och därmed förhindrar sekundär strukturbildning. dvs dessa algoritmer uppfyller vissa eller alla designkraven för DNA-oligonukleotider vid tidpunkten för hybridisering (vilket är kärnan i DNA-beräkningsprocessen) och lider därför inte av problemen med självhybridisering.

Definitioner

En DNA-kod är helt enkelt en uppsättning sekvenser över alfabetet .

Varje purinbas är Watson-Crick-komplementet av en unik pyrimidinbas (och vice versa) – adenin och tymin bildar ett komplementärt par, liksom guanin och cytosin . Denna sammankoppling kan beskrivas enligt följande – .

Sådan parning är kemiskt mycket stabil och stark. Men parning av felaktiga baser inträffar ibland på grund av biologiska mutationer .

Det mesta av fokus på DNA-kodning har varit att konstruera stora uppsättningar av DNA-kodord med föreskrivna minimiavståndsegenskaper. Låt oss för detta ändamål lägga grunden för att gå vidare.

Låt vara ett ord med längden över alfabetet . För notationen för att beteckna underföljden . Dessutom kommer sekvensen som erhålls genom att vända betecknas som . Watson -Crick-komplementet , eller det omvända komplementet till q , definieras som , där anger Watson-Crick-komplementets baspar av .

För alla par av längd- ord och över , Hamming-avståndet är antalet positioner där . Definiera vidare omvänd-Hamming-avstånd som . På liknande sätt är omvänd komplement Hamming-avstånd . (där displaystyle står för omvänt komplement

En annan viktig koddesignövervägande kopplad till processen för oligonukleotidhybridisering hänför sig till GC-innehållet i sekvenser i en DNA-kod. GC -innehållet , av en DNA-sekvens som antalet index så att . En DNA-kod där alla kodord har samma GC-innehåll, , kallas en konstant GC-innehållskod .

En generaliserad Hadamard-matris en kvadratisk matris med poster hämtade från mängden rötterna till enhet, displaystyle = . Här identitetsmatrisen av ordningen , medan * står för komplex-konjugering. Vi kommer bara att ägna oss åt fallet för vissa primtal . Ett nödvändigt villkor för existensen av generaliserade Hadamard-matriser att . Exponentmatrisen , , av { matrisen n med posterna i , erhålls genom att ersätta varje post i av exponenten .

Elementen i Hadamard-exponentmatrisen ligger i Galois-fältet , och dess radvektorer utgör kodorden för vad som ska kallas en generaliserad Hadamard-kod.

Här ligger elementen i i Galois-fältet .

Per definition har en generaliserad Hadamard-matris i sin standardform bara 1 s i sin första rad och kolumn. Den kvadratmatrisen som bildas av de återstående posterna av kallas kärnan i , och motsvarande submatris till exponentmatrisen kallas konstruktionens kärna . Genom att utelämna den första kolumnen helt noll är cykliska generaliserade Hadamard-koder möjliga, vars kodord är radvektorerna för den punkterade matrisen.

Dessutom uppfyller raderna i en sådan exponentmatris följande två egenskaper: (i) i var och en av raderna som inte är noll i exponentmatrisen, visas varje element i en konstant antal, av gånger; och (ii) Hamming-avståndet mellan två valfria rader är .

Fastighet U

Låt är den cykliska gruppen som genereras av , där är en komplex primitiv e roten av enhet, och är ett fast primtal. Låt vidare B betecknar godtyckliga vektorer över som har längden , där är ett positivt heltal. Definiera samlingen av skillnader mellan exponenter , där är multipliciteten av element av som visas i .

Vektor sägs uppfylla egenskap U om och endast om varje element i visas i exakt gånger ( )

Följande lemma är av grundläggande betydelse för att konstruera generaliserade Hadamard-koder.

Lemma. Ortogonalitet av vektorer över – För fasta primtal , godtyckliga vektorer av längden vars element är från , är ortogonala om vektorn uppfyller egenskapen U , där är samlingen av skillnader mellan Hadamard-exponenterna associerade med .

M-sekvenser

Låt vara en godtycklig vektor med längden vars element finns i det finita fältet , där är ett primtal. Låt elementen i en vektor utgöra den första perioden i en oändlig sekvens som är periodisk för perioden . Om är den minsta perioden för att skapa någon delsekvens, kallas sekvensen en M-sekvens, eller en maximal sekvens av minsta period som erhålls genom att cykliskt permutera element. Om varje gång elementen i permuteras godtyckligt för att ge , är sekvensen en M -sekvens, då kallas sekvensen M-invariant . De satser som följer nuvarande förhållanden som säkerställer M-invarians . Tillsammans med en viss enhetlighetsegenskap hos polynomkoefficienter ger dessa villkor en enkel metod med vilken komplexa Hadamard-matriser med cyklisk kärna kan konstrueras.

Målet här är att hitta cyklisk matris vars element finns i Galois-fältet och vars dimension är . Raderna i kommer att vara kodorden som inte är noll i en linjär cyklisk kod om och endast om det finns polynom med koefficienter i som är en riktig divisor av och vilket genererar . För att ha kodord som inte är noll, måste vara av graden . Vidare, för att generera en cyklisk Hadamard-kärna, måste vektorn (av koefficienterna för) när den används med den cykliska växlingsoperationen vara av period , och vektorskillnaden för två godtyckliga rader av (förstärkt med noll) måste uppfylla enhetlighetsvillkoret för Butson, tidigare kallad egenskap U . Ett nödvändigt villkor för -periodicitet är att där är monisk irreducerbar över. Tillvägagångssättet här är att ersätta det sista kravet med villkoret att koefficienterna för vektorn är likformigt fördelade över , dvs varje rest visas lika många gånger (Egenskap U). Ett bevis på att detta heuristiska tillvägagångssätt alltid ger en cyklisk kärna ges nedan.

Exempel på kodkonstruktion

Kodkonstruktion med hjälp av komplexa Hadamard-matriser

Konstruktionsalgoritm

Betrakta ett moniskt irreducerbart polynom över av grad med en lämplig följeslagare av grad så att , där vektorn uppfyller egenskapen U . Detta kräver bara en enkel datoralgoritm för lång division över . Eftersom , idealet genererat av är en cyklisk kod . Dessutom egenskap U att kodorden som inte är noll bildar en cyklisk matris, varje rad med period under cyklisk permutation, som fungerar som en cyklisk kärna för Hadamard-matrisen . Som ett exempel, en cyklisk kärna för resulterar från kompanjonerna och . Koefficienterna för indikerar att är den relativa skillnadsmängden, .

Sats

Låt vara ett primtal och med ett moniskt polynom av grad vars utökade vektor av koefficienter är element i . Anta att följande villkor gäller:

  1. vektor uppfyller egenskapen U, och
  2. där är en monic irreducerbart polynom av grad .

Sedan finns det en p -är linjär cyklisk kod av blockstorlek , så att den utökade koden är exponentmatrisen för Hadamard-matrisen , med , där kärnan i är en cyklisk matris.

Bevis:

Observera först att är monisk och dividerar med graden . Nu måste vi visa att matrisen vars rader är kodord som inte är noll utgör en cyklisk kärna för någon komplex Hadamard-matris .

Givet att uppfyller egenskapen U, ligger alla rester som inte är noll i i C . Genom att cykliskt permutera element i får vi den önskade exponentmatrisen där vi kan få varje kodord i av permutering av det första kodordet. (Detta beror på att sekvensen som erhålls genom att cykliskt permutera är M-invariant.)

Vi ser också att förstärkning av varje kodord i genom att lägga till ett inledande nollelement ger en vektor som uppfyller egenskapen U. Dessutom, eftersom koden är linjär, är vektorskillnaden mellan två godtyckliga kodord är också ett kodord och uppfyller således egenskapen U . Därför bildar radvektorerna för den utökade koden en Hadamard-exponent. Således standardformen för någon komplex Hadamard-matris .

Av ovanstående egenskap ser vi alltså att kärnan i är en cirkulerande matris som består av alla cykliska skift av dess första rad. En sådan kärna kallas en cyklisk kärna där i varje element i visas i varje rad av exakt gånger, och Hamming-avståndet mellan två valfria rader är exakt . De raderna i kärnan bildar en konstant sammansättningskod - en som består av cykliska skift av någon längd över mängden . Hamming-avståndet mellan två valfria kodord i är .

Följande kan härledas från satsen som förklarats ovan. (För mer detaljerad läsning hänvisas läsaren till uppsatsen av Heng och Cooke.) Låt för primtal och . Låt vara ett moniskt polynom över , av graden N − k så att över , för vissa moniska irreducerbara polynom . Antag att vektorn displaystyle för (N − k) < i < N, har egenskapen att den innehåller varje element av samma antal gånger . Sedan, de cykliska skiftningarna av vektorn någon Hadamard-matris .

DNA-koder med konstant GC-innehåll kan uppenbarligen konstrueras från konstant sammansättningskoder (En konstant sammansättningskod över ett k-ary alfabet har egenskapen att antalet förekomster av de k symbolerna i ett kodord är samma för varje kodord) över genom att mappa symbolerna för till symbolerna för DNA-alfabetet, . Till exempel, med cyklisk konstant sammansättningskod med längden över garanteras av teorem som bevisats ovan och den resulterande egenskapen, och med hjälp av mappningen som tar till 1 till och till får vi en DNA-kod med och ett GC-innehåll på . Helt klart och faktiskt eftersom och inget kodord i innehåller ingen symbol , vi har också . Detta sammanfattas i följande resultat.

Naturlig följd

För alla finns det DNA-koder med kodord med längden , konstant GC-innehåll , och där varje kodord är en cyklisk förskjutning av ett fix generatorkodord .

Var och en av följande vektorer genererar en cyklisk kärna av en Hadamard-matris (där och i det här exemplet):

;

.

Där, .

Således ser vi hur DNA-koder kan erhållas från sådana generatorer genom att mappa , . Själva valet av kartläggning spelar en stor roll i sekundära strukturbildningar i kodorden.

Vi ser att alla sådana mappningar ger koder med i huvudsak samma parametrar. Men själva valet av mappning har ett starkt inflytande på kodordens sekundära struktur. Till exempel erhölls det illustrerade kodordet från via mappningen , medan kodordet erhölls från samma generator via mappningen .

Kodkonstruktion via en binär mappning

Kanske är ett enklare tillvägagångssätt för att bygga/designa DNA-kodord genom att ha en binär mappning genom att se på designproblemet som att konstruera kodorden som binära koder. dvs mappa DNA-kodordets alfabet på uppsättningen av 2-bitars binära ord som visas: , , , .

Som vi kan se bestämmer den första biten av en binär bild tydligt vilket komplementärt par den tillhör.

Låt vara en DNA-sekvens. Sekvensen som erhålls genom att tillämpa mappningen ovan på kallas den binära bilden av .

Låt nu .

Låt nu underföljden kallas den jämna följden av , och kallas den udda underföljden av .

Således, till exempel, för , då, .

Då är och .

Låt oss definiera en jämn komponent som , och en udda komponent som .

Från detta val av binär mappning är GC-innehållet för DNA-sekvensen = Hamming-vikten av .

Därför är en DNA-kod ett konstant GC-innehållskodord om och endast om dess jämna komponent är en kod med konstant vikt.

Låt vara en binär kod som består av kodord med längden och minsta avstånd , så att antyder att .

För , betrakta underkoden med konstant vikt där anger Hamming-vikt. Välj så att , och överväg en DNA-kod, , med följande val för dess jämna och udda komponenter:

, .

Där betecknar lexikografisk ordning. a i definitionen av säkerställer att om , sedan , så att distinkta kodord i kan inte vara omvända komplement till varandra.

Koden har kodord med längden och konstant vikt .

Dessutom och (detta beror på att är en delmängd av kodorden i ).

Även .

Observera att och båda har vikten . Detta innebär att och har vikten .

Och på grund av viktbegränsningen på måste vi ha för alla , .

har koden kodord med längden .

Av detta ser vi att eftersom komponenten kodord för är hämtade från .

På liknande sätt, .

Därför DNA-koden

med har kodord med längden , och uppfyller och .

Från exemplen som listas ovan kan man undra vad som kan vara den framtida potentialen för DNA-baserade datorer?

Trots sin enorma potential är det högst osannolikt att denna metod kommer att implementeras i hemdatorer eller ens datorer på kontor, etc. på grund av den stora flexibiliteten och hastigheten samt kostnadsfaktorer som gynnar kiselchipbaserade enheter som används för datorerna idag.

En sådan metod skulle emellertid kunna användas i situationer där den enda tillgängliga metoden är denna och kräver den noggrannhet som är associerad med DNA-hybridiseringsmekanismen; applikationer som kräver att operationer utförs med en hög grad av tillförlitlighet.

För närvarande finns det flera mjukvarupaket, såsom Vienna-paketet, som kan förutsäga sekundära strukturbildningar i enkelsträngade DNA (dvs oligonukleotider) eller RNA-sekvenser.

Se även

externa länkar