Samsegregation

Samsegregering är sannolikheten för att två enheter ärvs till nästa generation eller en interaktionsuppskattningssannolikhet mellan valfritt antal loci.

Nuclear Profile searching for loci
A. Nucleus, B. Nuclear Profile - Tunn skiva av Nucleus, C. Loci - Delar av en målgen som finns inom kärnprofilen

Interaktionssannolikhet bestäms med användning av specificerade delar av en målgen ( loci ) och en grupp av nukleära profiler (NP). Bilden till höger tjänar till att ge visuell hjälp om hur en skiva (NP) tas från kärnan och lokaliseringar söks efter inom NP. Samsegregering som används inom andra matematiska modeller (SLICE och Normalized Linkage Disequilibrium ) hjälper till att rendera 3D-visualiseringar som en mindre process av Genome Architecture Mapping (GAM) . Dessa renderingar hjälper till att bestämma genomisk täthet och radiell position.

Artiklar som använder metoder för samsegregering
Titel Beskrivning
Komplexa multi-enhancer-kontakter fångas av Genome Architecture Mapping (GAM). Samsegregering mellan ett par loci hjälpte i denna studie att kvantifiera normaliserad länkojämvikt.
En enkel metod för samsegregationsanalys för att utvärdera patogeniciteten hos oklassificerade varianter; BRCA1 och BRCA2 som exempel. Att använda samsegregationsanalys tillsammans med ett multifaktoriellt tillvägagångssätt resulterade i mycket avgörande resultat när man försökte klassificera oklassificerade varianter.
Överväganden vid bedömning av patogenicitet av könslinjevarianter med hjälp av samsegregationsanalys. Denna artikel fann att användning av Bayes-faktor-samsegregationsanalys, tillsammans med en stark penetransmodell, kommer att resultera med högre noggrannhet än meiosräkning.

Historia

Co-segregation in Genome Architecture Mapping (GAM) är en nyare process som används för att identifiera komprimering och närliggande genomiska fönster. I en studie från 2017 användes co-segregation för att förstå genuttrycksspecifika kontakter för att organisera genomet i däggdjurskärnor i den större processen med Genome Architecture Mapping. Resultaten av studien producerade komplexa 3D-strukturer som visade interaktioner under vissa regioner av kromatinkontakter och bevisade att GAM är ett nytt verktyg i genombiologens kompetensuppsättning som utökar förmågan att findissikera 3D-kromatinstrukturer, celltyper och värdefulla mänskliga prover. En studie 2021 "upptäckte omfattande "smältning" av långa gener när de är högt uttryckta och/eller har hög kromatintillgänglighet. Kontakterna som är mest specifika av neuronsubtyper innehåller gener associerade med specialiserade processer, såsom beroende och synaptisk plasticitet, som hyser förmodad bindningsställen för neuronala transkriptionsfaktorer inom tillgängliga kromatinregioner." Båda dessa studier använde möss som modeller på grund av deras anatomiska, fysiologiska och genetiska likheter med människor.

Några av de tidigaste kända studierna som har använt co-segregation går tillbaka till början av 1980-talet. Runt den här tiden genomförde forskare experiment på vegetativa organismer för att se om det finns unika sekvenser av kloroplast-DNA. Processen med experimentet var att spåra kloroplastgenen i varje generation genom att gruppera generna i nukleoider för att minska antalet segregerade enheter. Denna studie gjordes vid Duke University i Zoologiavdelningen där Karen P. VanWinkle-Swift använde stamtavladiagram för att visa hur egenskaperna och sekvenserna överfördes från förälder till barn.

Användande

Samsegregering är bäst lämpad för fall där flera faktorers interaktioner övervägs. Den kan visa hur olika faktorer hänger ihop och lyfta fram deras interaktioner och samband. Till exempel, om en genetisk störning identifierades som relaterad till en viss gen, men inte alltid är närvarande när den genen är det, kan en samsegregationsanalys hjälpa till att identifiera andra gener som interagerar med den misstänkta genen oftare än normalt. Detta kan få forskare att upptäcka kombinationen av gener som manifesterar den genetiska störningen. Samsegregering används aktivt inom medicinska områden som cancerforskning. Det kan lyfta fram de starkaste sambanden mellan gener i de fall då cancer utvecklas. Detta är användbart eftersom det ofta inte finns en enda gen som orsakar cancer. Snarare kan cancer orsakas av en mängd genkombinationer. Samsegregering hjälper till att visa kopplingar mellan gener som kan bilda dessa kombinationer.

Exempel på användning av samsegregering

Ett exempel på en applikation som använder samsegregering skulle vara att hitta den normaliserade länkojämvikten (NL) mellan två loci. Givet en 2D-datauppsättning (rad = genomisk fönsterskiva, kolumn = kärnprofil (NP)) visades en "1" om en NP fanns i ett fönster eller en "0" annars. Från dessa data kunde NL hittas med basen ojämvikt och dess teoretiserade maximum ( . Mängden NP som finns i loci (genomiska fönster) och används sedan för att hitta , och och samsegregeringen som är . efter att NL hittats mellan två loci, placerades den sedan i en annan datauppsättning för att visualiseras och sedan analyseras för att bestämma hur sammankopplad en loci är. Detta exempel utfördes med python för beräkning och visualisering av givna data och resultat och för att hitta NL. Med hjälp av NL kan ytterligare analys göras för att placera fönstren i "communities". För att visa detta kommer en graf till höger att visa gemenskapen för ett av fönstren med högst centralitet som använder genomsnittet av fönstrets NLs.

Visar gemenskaperna för en specifik loci med centralitet
sample data
Ett urval av 2D-datauppsättningen som användes för tillämpningen av samsegregeringsexemplet.
Formler för exemplet ovan
Beräkningar Formler
Detektionsfrekvens eller
Länkning
Länkningsmax (dmax) :
Normaliserad koppling (NL)

Formel

pseduo-code
pseudokod som visar upp implementeringen av samsegregation inom datavetenskap.
Formel för att hitta samsegregation givet en GAM-tabell som visar om en loci finns i en del av en genomisk region
Formel Variabler
eller

Variablerna "A" och "B" är det totala antalet kärnprofiler (NP) som finns i en given en detekterad genomisk regionskiva, "N" är det totala antalet NP och FAB är frekvensen av A och B

Denna formel kan enkelt programmeras in i kod som ses i pseudokoden i figuren till höger. Koden skrevs för att uppfylla exemplet som beskrivs ovan.

Fördelar

Med tanke på en stor datauppsättning av kärnprofiler är samsegregering lätt skalbar med tanke på dess förenklade matematiska formler. Ju större datamängd som tillhandahålls, desto mer exakta blir följande ekvationer. Som visas på bilden nedan lägger mängden data som läggs till i ekvationen bara till linjära tidsjusteringar till den ursprungliga ekvationen.

Hur att lägga till fler NP till dataset påverkar samsegregationsekvationen.

Lyckligtvis kan den inte bara skala datastorlekar väl, den kan ta så många fokuspunkter som krävs för att bestämma interaktionssannolikheten. Förutsatt att addering av varje loki lägger till en enda beräkning till ekvationen, blir en linjär tidskomplexitet resultatet. Bilden nedan visar hur mängden loci påverkar detektionsfrekvensekvationen.

Att lägga till lokus påverkar samsegregationsekvationen i en linjär tidskomplexitet.

Slutligen kan det numeriska värdet som resulterar hjälpa till att dra flera slutsatser inklusive radiell position, packning och de mest inflytelserika kontakterna.

Begränsningar

Denna co-segregation värmekarta av genetiska fönster har inte normaliserats, mönstret är mycket mindre tydligt och data är inte lika meningsfulla jämfört med den normaliserade versionen.
Denna co-segregation värmekarta av genetiska fönster har normaliserats, mönstret är mycket tydligare och att data kan tolkas enklare och mer exakt.

Effektiv samsegregeringsanalys beror till stor del på att ha ett starkt stödjande dataset eftersom även små felaktigheter kan förvärras av samsegregering. En fullständig förståelse av materialet är nödvändig eftersom samsegregering endast ger kopplingar mellan datapunkter. Tolkningen av dessa samband måste göras genom en annan metod. Till exempel kan locus co-segregation ge ett antal gener som vanligtvis interagerar med varandra, men oavsett hur starka dessa relationer är, kan resultaten av kvantitativ co-segregation tyckas stödja antingen en korrelerad, anti-korrelerad eller oberoende relation. . Det är viktigt att vara medveten om detta och följa upp samsegregationsanalys med en annan form av analys, såsom normaliserad länkojämvikt för att korrigera för den sammansättningseffekt samsegregering kan ha på försumbara variationer i detektionsfrekvensen för dina data.

An example Data set to highlight co-segregation's limitations

Tänk dig till exempel en enkel form av cancer som utlöses av ett litet antal gener. Här undersöker vi en misstänkt gen och tre andra gener som misstänks vara inblandade i processerna. Detta diagram visar en hypotetisk datauppsättning av 10 personer och deras cancerstatus samt om de har de fyra generna av intresse. Om man tittar på grafen finns det ett tydligt samband mellan den misstänkta genen och gen A. Det finns också en mindre uppenbar interaktion mellan den misstänkta genen och gen C som bara sker när gen B saknas. Det är fullt möjligt att samsegregationen skulle ha svårt att avgöra det förhållandet. Gen B är ofta närvarande med gen A och den kombinationen resulterar i cancer. I en verklig datamängd med hundratals eller till och med tusentals gener som undersöks, skulle man felaktigt kunna dra slutsatsen att gen B bidrar till cancern när den i verkligheten inte gör det och faktiskt kan förhindra det.

En annan begränsning av denna teknik är att många kartläggningsverktyg mäter inte bara specifika fysiska interaktioner mellan gener utan också slumpmässiga kontakter, det senare är mycket vanligare mellan gener med mindre linjärt genomiskt avstånd, vilket kan leda till uppblåsta co-segregationspoäng. GAM har hjälpt till att lösa detta problem eftersom detektionen av genomiska fönster i GAM är oberoende av eventuella interaktioner med andra regioner. Detta gör att ett förväntat interaktionsvärde kan beräknas och att kombinera detta med samsegregeringsresultaten för att filtrera bort bruset från slumpmässiga anslutningar kommer detta att ge ett renare resultat.

Visualiseringar

Matriser

Matriser är en rektangulär strukturerad matris av tal (poster) där posterna kan summeras, subtraheras, multipliceras och divideras med hjälp av de vanliga matematiska operationerna. I fallet med samsegregering används Graph Theory för att se om en variabel delar och kant eller vertex med en annan variabel i ett nätverk av noder. Graph Theory är den matematiska studien av objekt som använder parvisa relationer som visas genom anslutna noder som kallas hörn som är anslutna till andra noder med kanter.

Cosegregation to adjacency.png

Bilden ovan visar omvandlingen från en samsegregationsmatris till en närliggande matris är en användning av en matris i Genome Architecture Mapping där forskare använder kryosnitt för att hitta samlokalisering mellan DNA-regioner, genom och/eller alleler. I det exemplet används samsegregering för att beskriva kopplingen av data till varandra i termer av avståndet mellan specifika fönster i ett genom. Värdena i samsegregeringsmatrisen hittades med formeln ovan. Genom att jämföra fönster A och B , försöker formeln hitta skärningspunkten för kärnprofiler mellan respektive fönster. De genomiska fönstren skulle vara noderna och närliggande graf är matrisbilden av kanterna som förbinder varje nod.

Värmekartor

En värmekarta är en visuell representation av en matris av m × n som kan visa olika fenomen på en 2-dimensionell skala. Värmekartor har en rad färgintensiteter baserat på de värden och skala som ges från data. Kodningsmässigt kan värmekartor skapas med hjälp av bibliotek som plotly.express i Python. Med hjälp av samsegregering används värmekartor för att visualisera en matris som innehåller värden på antingen 1 eller 0 för att visualisera likheterna mellan 2 eller flera variabler. "Den främsta fördelen med att använda värmekartor är att de gör annars tråkiga eller ogenomträngliga data begripliga. Många människor förstår värmekartor intuitivt, utan att ens behöva berätta att de varmare färgerna indikerar ett tätare fokus på interaktioner."

I begränsningssektionen finns det 2 värmekartor (även nedan för enkel visning) som visar skillnaden mellan normaliserade och onormaliserade data. Att visa skillnaden i graferna skulle hjälpa forskaren att identifiera olika mönster baserat på färggradienternas intensitet samt klustringen av datapunkter. Samsegregeringsresultat som ses ovan kan ha olika former och visualisering av dem i värmekartor kan hjälpa forskare att förstå vilka genom som är kopplade på samma sätt som matriser.

Non-normalized Heatmap.png Normalized Heatmap.png

En begränsning för värmekartor är att vissa program inte tillåter användningen av att lokalisera specifika punkter på grafen, särskilt om det finns många variabler. Det finns kodningsbibliotek som plotly.express som kan skapa interaktiva värmekartor där programmeraren kan sväva över specificerade punkter på en graf och läsa den exakta beroende variabelns värde. En annan begränsning är att värmekartor inte representerar realtidsdata. Eftersom värmekartor fungerar genom att aggregera data över tid, visar de inte senaste förändringar i beteende jämfört med de mer dominerande mönstren som redan finns.

Se även

Kartläggning av genomarkitektur