Positionsviktmatris

PWM:er representeras ofta grafiskt som sekvenslogotyper .

En positionsviktmatris (PWM) , även känd som en positionsspecifik viktmatris (PSWM) eller positionsspecifik poängmatris (PSSM), är en vanlig representation av motiv (mönster) i biologiska sekvenser.

PWM:er härrör ofta från en uppsättning anpassade sekvenser som anses vara funktionellt relaterade och har blivit en viktig del av många mjukvaruverktyg för beräkningsmotivupptäckt.

Bakgrund

Skapande

Konvertering av sekvens till positionssannolikhetsmatris

En PWM har en rad för varje symbol i alfabetet (4 rader för nukleotider i DNA- sekvenser eller 20 rader för aminosyror i proteinsekvenser ) och en kolumn för varje position i mönstret. I det första steget i att konstruera en PWM skapas en grundläggande positionsfrekvensmatris (PFM) genom att räkna förekomsterna av varje nukleotid vid varje position. Från PFM kan nu en positionsannolikhetsmatris (PPM) skapas genom att dividera det tidigare nukleotidantal vid varje position med antalet sekvenser, och därigenom normalisera värdena. Formellt, givet en uppsättning X av N inriktade sekvenser med längden l , beräknas elementen i PPM M :

där i (1,..., N ), j (1,..., l ), ​​k är mängden symboler i alfabetet och I(a) =k) ​​är en indikatorfunktion där I(a=k) är 1 om a=k och 0 annars.

Till exempel, givet följande DNA-sekvenser:










GAGGTAAAC TCCGTAAGT CAGGTTGGA ACAGTCAGT TAGGTCATT TAGGTACTG ATGGTAACT CAGGTATAC TGTGTGAGT AAGGTAAGT

Motsvarande PFM är:

Därför är den resulterande PPM:en:

Både PPM och PWM antar statistiskt oberoende mellan positioner i mönstret, eftersom sannolikheterna för varje position beräknas oberoende av andra positioner. Av definitionen ovan följer att summan av värden för en viss position (det vill säga summering över alla symboler) är 1. Varje kolumn kan därför betraktas som en oberoende multinomialfördelning . Detta gör det enkelt att beräkna sannolikheten för en sekvens som ges en PPM, genom att multiplicera de relevanta sannolikheterna vid varje position. Till exempel kan sannolikheten för sekvensen S = GAGGTAAAC givet ovanstående PPM M beräknas:

Pseudoräkningar (eller Laplace-estimatorer ) används ofta vid beräkning av PPM om de baseras på en liten datauppsättning, för att undvika matrisposter som har värdet 0. Detta motsvarar att multiplicera varje kolumn i PPM med en Dirichlet- fördelning och tillåter sannolikheten att beräknas för nya sekvenser (det vill säga sekvenser som inte var en del av den ursprungliga datamängden). I exemplet ovan, utan pseudoräkningar, skulle varje sekvens som inte hade ett G på 4:e positionen eller ett T på 5:e positionen ha en sannolikhet på 0, oavsett de andra positionerna.

Konvertering av positionssannolikhetsmatris till positionsviktsmatris

Oftast beräknas elementen i PWM:er som loggsannolikheter. Det vill säga, elementen i en PPM transformeras med hjälp av en bakgrundsmodell så att:

beskriver hur ett element i PWM (vänster) , , kan beräknas. Den enklaste bakgrundsmodellen förutsätter att varje bokstav förekommer lika ofta i datasetet. Det vill säga värdet av för alla symboler i alfabetet (0,25 för nukleotider och 0,05 för aminosyror). Att tillämpa denna transformation på PPM M från ovan (utan några pseudoräkningar tillagda) ger:

-posterna i matrisen tydliggör fördelen med att lägga till pseudoantal, speciellt när man använder små datamängder för att M . Bakgrundsmodellen behöver inte ha lika värden för varje symbol: till exempel, när man studerar organismer med högt GC-innehåll , kan värdena för C och G ökas med en motsvarande minskning för A- och T -värdena.

När PWM-elementen beräknas med hjälp av log-sannolikheter, kan poängen för en sekvens beräknas genom att addera (istället för att multiplicera) de relevanta värdena vid varje position i PWM. Sekvenspoängen ger en indikation på hur annorlunda sekvensen är från en slumpmässig sekvens. Poängen är 0 om sekvensen har samma sannolikhet att vara en funktionell plats och att vara en slumpmässig plats. Poängen är högre än 0 om det är mer sannolikt att det är en funktionell plats än en slumpmässig plats, och mindre än 0 om det är mer sannolikt att det är en slumpmässig plats än en funktionell plats. Sekvenspoängen kan också tolkas i ett fysiskt ramverk som bindningsenergin för den sekvensen.

Informationsinnehåll

Informationsinnehållet (IC) i en PWM är ibland av intresse, eftersom det säger något om hur annorlunda en given PWM är från en enhetlig distribution .

Självinformationen för att observera en viss symbol vid en viss position av motivet är:

Den förväntade (genomsnittliga) självinformationen för ett visst element i PWM är då:

Slutligen är PWM:ens IC summan av den förväntade självinformationen för varje element:

Ofta är det mer användbart att beräkna informationsinnehållet med bakgrundsbokstavsfrekvenserna för sekvenserna du studerar snarare än att anta lika sannolikheter för varje bokstav (t.ex. GC-innehållet i DNA från termofila bakterier varierar från 65,3 till 70,8, alltså en motiv av ATAT skulle innehålla mycket mer information än ett motiv av CCGG). Ekvationen för informationsinnehåll blir alltså

där är bakgrundsfrekvensen för bokstaven . Detta motsvarar Kullback–Leibler-divergensen eller relativa entropin. Det har dock visat sig att när man använder PSSM för att söka genomiska sekvenser (se nedan) kan denna enhetliga korrigering leda till överskattning av betydelsen av de olika baserna i ett motiv, på grund av den ojämna fördelningen av n-merer i verkliga genom, vilket leder till ett betydligt större antal falska positiva.

Används

Det finns olika algoritmer för att skanna efter träffar av PWM:er i sekvenser. Ett exempel är MATCH-algoritmen som har implementerats i ModuleMaster. Mer sofistikerade algoritmer för snabb databassökning med nukleotid samt aminosyra PWMs/PSSMs implementeras i possumsearch-mjukvaran.

Se även

externa länkar

  • 3PFDB – en databas med bästa representativa PSSM-profiler (BRP) för proteinfamiljer genererade med hjälp av en ny datautvinningsmetod.
  • UGENE – PSS-matrisdesign, integrerat gränssnitt till JASPAR, UniPROBE och SITECON databaser.