BLOSUM

BLOSUM62-matrisen, aminosyrorna har grupperats och färgats baserat på Margaret Dayhoffs klassificeringsschema. Positiva och nollvärden har markerats.

Inom bioinformatik är BLOSUM- matrisen ( BLO cks SU - bstitutionsmatrix ) en substitutionsmatris som används för sekvensanpassning av proteiner . BLOSUM-matriser används för att poängsätta anpassningar mellan evolutionärt divergerande proteinsekvenser. De är baserade på lokala anpassningar. BLOSUM-matriser introducerades först i en artikel av Steven Henikoff och Jorja Henikoff. De skannade BLOCKS-databasen för mycket konserverade regioner av proteinfamiljer (som inte har luckor i sekvensanpassningen) och räknade sedan de relativa frekvenserna av aminosyror och deras substitutionssannolikheter. Sedan beräknade de en log-odds poäng för vart och ett av de 210 möjliga substitutionsparen av de 20 standardaminosyrorna. Alla BLOSUM-matriser är baserade på observerade anpassningar; de extrapoleras inte från jämförelser av närbesläktade proteiner som PAM-matriserna .

Biologisk bakgrund

De genetiska instruktionerna för varje replikerande cell i en levande organism finns i dess DNA. Under hela cellens livstid transkriberas och replikeras denna information av cellulära mekanismer för att producera proteiner eller för att ge instruktioner för dotterceller under celldelning , och det finns möjlighet att DNA kan förändras under dessa processer. Detta är känt som en mutation . På molekylär nivå finns det regulatoriska system som korrigerar de flesta - men inte alla - av dessa förändringar i DNA:t innan det replikeras.

Funktionaliteten hos ett protein är starkt beroende av dess struktur. Att ändra en enskild aminosyra i ett protein kan minska dess förmåga att utföra denna funktion, eller mutationen kan till och med ändra funktionen som proteinet utför. Förändringar som dessa kan allvarligt påverka en avgörande funktion i en cell, vilket potentiellt kan orsaka att cellen - och i extrema fall organismen - dör. Omvänt kan förändringen göra det möjligt för cellen att fortsätta fungera om än annorlunda, och mutationen kan överföras till organismens avkomma. Om denna förändring inte resulterar i någon betydande fysisk nackdel för avkomman, finns möjligheten att denna mutation kommer att kvarstå inom populationen. Möjligheten finns också att funktionsändringen blir fördelaktig.

De 20 aminosyrorna som översätts av den genetiska koden varierar mycket beroende på de fysiska och kemiska egenskaperna hos deras sidokedjor. Dessa aminosyror kan dock kategoriseras i grupper med liknande fysikalisk-kemiska egenskaper. Att ersätta en aminosyra med en annan från samma kategori har mer sannolikt en mindre inverkan på ett proteins struktur och funktion än att ersätta en aminosyra från en annan kategori.

Sekvensanpassning är en grundläggande forskningsmetod för modern biologi. Den vanligaste sekvensanpassningen för protein är att leta efter likheter mellan olika sekvenser för att härleda funktion eller etablera evolutionära relationer. Detta hjälper forskare att bättre förstå geners ursprung och funktion genom karaktären av homologi och konservering . Substitutionsmatriser används i algoritmer för att beräkna likheten mellan olika sekvenser av proteiner; användbarheten av Dayhoff PAM Matrix har dock minskat med tiden på grund av kravet på sekvenser med en likhet på mer än 85 %. För att fylla denna lucka Henikoff och Henikoff BLOSUM (BLOcks SUbstitution Matrix) matris som ledde till markanta förbättringar i anpassningar och i sökningar med hjälp av frågor från var och en av grupperna av relaterade proteiner.

Terminologi

BLOSUM: Blockerar substitutionsmatris, en substitutionsmatris som används för sekvensanpassning av proteiner .

Poängmått (statistisk kontra biologisk): När man utvärderar en sekvensanpassning vill man veta hur meningsfull den är. Detta kräver en poängmatris eller en tabell med värden som beskriver sannolikheten för att ett biologiskt meningsfullt aminosyra- eller nukleotidrestpar ska inträffa i en anpassning. Poäng för varje position erhålls frekvenser av substitutioner i block av lokala anpassningar av proteinsekvenser.

Det finns flera uppsättningar av BLOSUM-matriser som använder olika anpassningsdatabaser, namngivna med siffror. BLOSUM-matriser med höga nummer är designade för att jämföra närbesläktade sekvenser, medan de med låga nummer är designade för att jämföra avlägsna relaterade sekvenser. Till exempel används BLOSUM80 för närbesläktade justeringar och BLOSUM45 används för mer avlägset besläktade linjer. Matriserna skapades genom att slå samman (klustera) alla sekvenser som var mer lika än en given procentandel till en enda sekvens och sedan jämföra dessa sekvenser (som alla var mer divergerande än det givna procentvärdet); vilket minskar bidraget från närbesläktade sekvenser. Procentandelen som användes bifogades till namnet, vilket gav BLOSUM80 till exempel där sekvenser som var mer än 80 % identiska klustrades.

BLOSUM r: matrisen byggd av block med mindre än r% likhet – t.ex. är BLOSUM62 matrisen byggd med sekvenser med mindre än 62 % likhet (sekvenser med ≥ 62 % identitet klustrades) – Notera: BLOSUM 62 är standardmatrisen för protein BLAST. Experiment har visat att BLOSUM-62-matrisen är bland de bästa för att upptäcka de flesta svaga proteinlikheter.

Konstruktion av BLOSUM-matriser

BLOSUM-matriser erhålls genom att använda block av liknande aminosyrasekvenser som data, och sedan tillämpa statistiska metoder på data för att erhålla likhetspoängen. Statistiska metoder Steg:

Eliminera sekvenser

Eliminera sekvenserna som är mer än r% identiska. Det finns två sätt att eliminera sekvenserna. Det kan göras antingen genom att ta bort sekvenser från blocket eller bara genom att hitta liknande sekvenser och ersätta dem med nya sekvenser som skulle kunna representera klustret. Eliminering görs för att ta bort proteinsekvenser som är mer lika än den specificerade tröskeln.

Beräkna frekvens och sannolikhet

En databas som lagrar sekvensinriktningarna för de mest konserverade regionerna av proteinfamiljer. Dessa anpassningar används för att härleda BLOSUM-matriserna. Endast sekvenser med en procentandel av identitet lägre än tröskeln används. Genom att använda blocket, räkna paren av aminosyror i varje kolumn i den multipla anpassningen.

Logga oddskvot

Det ger förhållandet mellan förekomsten av varje aminosyrakombination i de observerade data och det förväntade värdet av förekomsten av paret. Den avrundas och används i substitutionsmatrisen.

$\displaystyle LogOddRatio=2\log _{2}{\left({\frac {P\left( O\höger)}{P\left(E\right)}}\höger)}}$

där $P\left(O\right)$ är sannolikheten för att observera paret och $P\left(E\right)$ är den förväntade sannolikheten för att ett sådant par ska inträffa , givet bakgrundssannolikheterna för varje aminosyra.

BLOSUM Matriser

Oddsen för släktskap beräknas från log udda ratio, som sedan avrundas för att få substitutionsmatriserna BLOSUM-matriser.

Poäng för BLOSUM-matriserna

En poängmatris eller en tabell med värden krävs för att utvärdera betydelsen av en sekvensinriktning, såsom att beskriva sannolikheten för att ett biologiskt meningsfullt aminosyra- eller nukleotidrestpar inträffar i en inriktning. Vanligtvis, när två nukleotidsekvenser jämförs, är allt som poängsätts om två baser är lika i en position eller inte. Alla matcher respektive felmatchningar ges samma poäng (vanligtvis +1 eller +5 för matchningar och -1 eller -4 för felmatchningar). Men det är annorlunda för proteiner. Substitutionsmatriser för aminosyror är mer komplicerade och tar implicit hänsyn till allt som kan påverka frekvensen med vilken en aminosyra ersätts med en annan. Syftet är att tillhandahålla en relativt tung straff för att sätta två rester i linje med varandra om de har en låg sannolikhet att vara homologa (korrekt inriktade genom evolutionär härkomst). Två stora krafter driver aminosyrasubstitutionshastigheterna bort från enhetlighet: substitutioner sker med olika frekvenser och minskar funktionellt tolererade än andra. Således väljs substitutioner mot.

Vanligt använda substitutionsmatriser inkluderar blocksubstitutionsmatriserna (BLOSUM) och punktaccepterade mutationsmatriser (PAM). Båda är baserade på att ta uppsättningar av högsäkerhetsanpassningar av många homologa proteiner och bedöma frekvenserna för alla substitutioner, men de beräknas med olika metoder.

Poäng inom en BLOSUM är log-odds-poäng som mäter, i en anpassning, logaritmen för förhållandet mellan sannolikheten för att två aminosyror uppträder med en biologisk känsla och sannolikheten för att samma aminosyror uppträder av en slump. Matriserna är baserade på den minsta procentuella identiteten för den inriktade proteinsekvensen som används för att beräkna dem. Varje möjlig identitet eller substitution tilldelas en poäng baserat på dess observerade frekvenser i anpassningen av relaterade proteiner. En positiv poäng ges till de mer sannolika substitutionerna medan en negativ poäng ges till de mindre sannolika substitutionerna.

För att beräkna en BLOSUM-matris används följande ekvation:

S_{ij}={\frac {1}{\lambda }}\log {\frac {p_{ij}}{q_{i} q_{j}}}

Här är $p_{ij}$ sannolikheten för att två aminosyror $i$ och $j$ ersätter varandra i en homolog sekvens, och $q_{i }$ och $q_{j}$ är bakgrundssannolikheterna för att hitta aminosyrorna $i$ och $j$ i vilken proteinsekvens som helst. Faktorn $\lambda$ är en skalningsfaktor, inställd så att matrisen innehåller lättberäknade heltalsvärden.

Ett exempel - BLOSUM62

BLOSUM80: fler relaterade proteiner

BLOSUM62: mellanregister

BLOSUM45: avlägset besläktade proteiner

En artikel i Nature Biotechnology avslöjade att BLOSUM62 som använts i så många år som standard inte är exakt korrekt enligt algoritmen som beskrevs av Henikoff och Henikoff. Överraskande nog förbättrar den felberäknade BLOSUM62 sökprestanda.

BLOSUM62-matrisen med aminosyrorna i tabellen grupperade enligt sidokedjans kemi, som i (a). Varje värde i matrisen beräknas genom att dividera frekvensen av förekomsten av aminosyraparet i BLOCKS-databasen, klustrade på 62%-nivån, dividerat med sannolikheten att samma två aminosyror kan komma i linje av en slump. Förhållandet omvandlas sedan till en logaritm och uttrycks som en log oddspoäng, som för PAM. BLOSUM-matriser skalas vanligtvis i halvbitsenheter. En poäng på noll indikerar att frekvensen med vilken en given två aminosyror hittades inriktade i databasen var som förväntat av en slump, medan en positiv poäng indikerar att sammanställningen hittades oftare än av en slump, och negativ poäng indikerar att sammanställningen hittades mer sällan än av en slump.

Vissa användningsområden inom bioinformatik

Forskningsansökningar

BLOSUM-poäng användes för att förutsäga och förstå ytgenvarianterna bland hepatit B-virusbärare och T-cellsepitoper.

Ytgenvarianter bland hepatit B-virusbärare

DNA-sekvenser av HBsAg erhölls från 180 patienter, i vilka 51 var kroniska HBV-bärare och 129 nyligen diagnostiserade patienter, och jämfördes med konsensussekvenser byggda med 168 HBV-sekvenser importerade från GenBank. Litteraturgenomgång och BLOSUM-poäng användes för att definiera potentiellt förändrad antigenicitet.

Tillförlitlig förutsägelse av T-cellsepitoper

En ny ingångsrepresentation har utvecklats bestående av en kombination av sparsam kodning, Blosum-kodning och indata härledd från dolda Markov-modeller. denna metod förutsäger T-cellsepitoper för genomet av hepatit C-virus och diskuterar möjliga tillämpningar av prediktionsmetoden för att vägleda processen för rationell vaccindesign.

Använd i BLAST

BLOSUM-matriser används också som en poängmatris när man jämför DNA-sekvenser eller proteinsekvenser för att bedöma kvaliteten på anpassningen. Denna form av poängsystem används av ett brett utbud av anpassningsprogram, inklusive BLAST .

Jämför PAM och BLOSUM

Förutom BLOSUM-matriser kan en tidigare utvecklad poängmatris användas. Detta är känt som en PAM . De två resulterar i samma poängresultat, men använder olika metoder. BLOSUM tittar direkt på mutationer i motiv av relaterade sekvenser medan PAM:s extrapolerar evolutionär information baserat på närbesläktade sekvenser.

Eftersom både PAM och BLOSUM är olika metoder för att visa samma poänginformation, kan de två jämföras men på grund av den mycket olika metoden för att erhålla denna poäng är en PAM100 inte lika med en BLOSUM100.

PAM	BLOSUM
PAM100	BLOSUM90
PAM120	BLOSUM80
PAM160	BLOSUM62
PAM200	BLOSUM50
PAM250	BLOSUM45

Relationen mellan PAM och BLOSUM

PAM	BLOSUM
För att jämföra närbesläktade sekvenser skapas PAM-matriser med lägre nummer.	För att jämföra närbesläktade sekvenser skapas BLOSUM-matriser med högre nummer.
För att jämföra avlägset besläktade proteiner skapas PAM-matriser med höga antal.	För att jämföra avlägset besläktade proteiner skapas BLOSUM-matriser med låga tal.

Skillnaderna mellan PAM och BLOSUM

PAM	BLOSUM
Baserat på globala anpassningar av närbesläktade proteiner.	Baserat på lokala anpassningar.
PAM1 är matrisen beräknad från jämförelser av sekvenser med inte mer än 1 % divergens men motsvarar 99 % sekvensidentitet.	BLOSUM 62 är en matris beräknad från jämförelser av sekvenser med en parvis identitet på högst 62 %.
Andra PAM-matriser extrapoleras från PAM1.	Baserat på observerade justeringar; de extrapoleras inte från jämförelser av närbesläktade proteiner.
Högre siffror i matrisnamngivningsschemat anger större evolutionärt avstånd.	Större siffror i matrisnamngivningsschemat anger högre sekvenslikhet och därför mindre evolutionärt avstånd.

Programvarupaket

Det finns flera mjukvarupaket i olika programmeringsspråk som möjliggör enkel användning av Blosum-matriser.

Exempel är blosummodulen för Python , eller BioJava- biblioteket för Java .

Se även

externa länkar

Sean R. Eddy (2004). "Var kom BLOSUM62-justeringspoängmatrisen ifrån?". Natur Bioteknik . 22 (8): 1035–6. doi : 10.1038/nbt0804-1035 . PMID 15286655 . S2CID 205269887 .
BLOCKAR WWW-server
Poängsystem för BLAST på NCBI
Datafiler av BLOSUM på NCBI FTP-servern .
Interaktiv BLOSUM Network Visualization Arkiverad 30 januari 2017 på Wayback Machine