Galton–Watson-processen

Galton–Watsons överlevnadssannolikheter för olika exponentiell befolkningstillväxt, om antalet barn i varje föräldernod kan antas följa en Poisson-fördelning . För λ ≤ 1 kommer eventuell utrotning att inträffa med sannolikhet 1. Men sannolikheten för överlevnad av en ny typ kan vara ganska låg även om λ > 1 och befolkningen som helhet upplever en ganska stark exponentiell ökning .

Galton -Watson-processen är en förgrenad stokastisk process som härrör från Francis Galtons statistiska undersökning av utrotningen av efternamn . Processen modellerar släktnamn som patrilinjära (övergår från far till son), medan avkommor är slumpmässigt antingen manliga eller kvinnliga, och namnen dör ut om släktnamnsraden dör ut (innehavare av släktnamnet dör utan manliga ättlingar). Detta är en korrekt beskrivning av Y-kromosomöverföring i genetik, och modellen är därför användbar för att förstå humana Y-kromosom-DNA-haplogrupper . På samma sätt, eftersom mitokondrier ärvs endast på moderlinjen, beskriver samma matematiska formulering överföring av mitokondrier. Formeln är av begränsad användbarhet för att förstå faktiska efternamnsfördelningar, eftersom efternamn i praktiken ändras av många andra skäl, och att dö ut från namnstreck bara är en faktor.

Historia

Det fanns en oro bland viktorianerna att aristokratiska efternamn ^{[ exempel behövs ]} håller på att dö ut. Galton ställde ursprungligen en matematisk fråga angående fördelningen av efternamn i en idealiserad befolkning i ett nummer 1873 av The Educational Times, och pastor Henry William Watson svarade med en lösning. Tillsammans skrev de sedan en artikel från 1874 med titeln "Om sannolikheten för familjers utplåning" i Journal of the Anthropological Institute of Great Britain and Ireland ( nu Journal of the Royal Anthropological Institute) . Galton och Watson verkar ha härlett sin process oberoende av det tidigare arbetet av IJ Bienaymé ; se Heyde och Seneta 1977. För en detaljerad historik se Kendall (1966 och 1975).

Begrepp

Antag, för modellens skull, att efternamn förs vidare till alla manliga barn av deras far. Antag att antalet en mans söner är en slumpvariabel fördelad på mängden { 0, 1, 2, 3, ... }. Antag vidare att antalet olika mäns söner är oberoende slumpvariabler, alla med samma fördelning.

Sedan är den enklaste väsentliga matematiska slutsatsen att om det genomsnittliga antalet av en mans söner är 1 eller mindre, så kommer deras efternamn nästan säkert att dö ut, och om det är mer än 1, då är det mer än noll sannolikhet att det kommer att överleva för vilket antal generationer som helst.

Moderna tillämpningar inkluderar överlevnadssannolikheterna för en ny mutant gen, eller initieringen av en nukleär kedjereaktion , eller dynamiken i sjukdomsutbrott i deras första generationer av spridning, eller riskerna för utrotning av en liten population av organismer ; samt att förklara (kanske närmast Galtons ursprungliga intresse) varför bara en handfull män i mänsklighetens djupa förflutna nu har några överlevande manliga ättlingar, vilket återspeglas i ett ganska litet antal distinkta mänskliga Y-kromosom-DNA-haplogrupper .

En följd av höga sannolikheter för utrotning är att om en härstamning har överlevt, har den sannolikt upplevt, rent av en slump, en ovanligt hög tillväxttakt i sina tidiga generationer åtminstone jämfört med resten av befolkningen.

Matematisk definition

₀ En Galton–Watson-process är en stokastisk process { X _n } som utvecklas enligt återfallsformeln X = 1 och

X_{n+1}=\summa _{j=1}^{X_{n}}\xi _{j}^{( n)}

där $\{\xi _{j}^{(n)}:n,j\in \mathbb {N} \}$ är en uppsättning av oberoende och identiskt fördelade naturliga talvärderade slumpvariabler.

I analogi med släktnamn kan X _n ses som antalet ättlingar (längs den manliga linjen) i n: e generationen, och $\xi _{j}^{(n) }$ kan ses som antalet (manliga) barn till den j :te av dessa ättlingar. Återkommande relationen anger att antalet ättlingar i n +1:a generationen är summan, över alla n :te generationens ättlingar, av antalet barn till den ättlingen.

Sannolikheten för utsläckning (dvs. sannolikheten för slutlig utsläckning) ges av

\lim _{n\to \infty }\Pr(X_{n}=0).\,

Detta är klart lika med noll om varje medlem av befolkningen har exakt en ättling. Med undantag för detta fall (vanligtvis kallat det triviala fallet) finns det ett enkelt nödvändigt och tillräckligt villkor, vilket ges i nästa avsnitt.

Utsläckningskriterium för Galton–Watson-processen

I det icke-triviala fallet är sannolikheten för slutlig utsläckning lika med 1 om E { ξ ₁ } ≤ 1 och strikt mindre än 1 om E { ξ ₁ } > 1.

Processen kan behandlas analytiskt med metoden för sannolikhetsgenererande funktioner .

Om antalet barn ξ _j vid varje nod följer en Poisson-fördelning med parametern λ, kan ett särskilt enkelt återfall hittas för den totala utsläckningssannolikheten x _n för en process som börjar med en enskild individ vid tidpunkten n = 0:

x_{n+1}=e^{\lambda (x_{n}-1)},\,

ger ovanstående kurvor.

Bisexuell Galton–Watson-process

I det klassiska familjeefternamnet Galton–Watson-processen som beskrivs ovan behöver endast män beaktas, eftersom endast män överför sitt efternamn till ättlingar. Detta innebär i praktiken att reproduktion kan modelleras som asexuell. (Likaså, om mitokondriell överföring analyseras, behöver endast kvinnor beaktas, eftersom endast kvinnor överför sina mitokondrier till ättlingar.)

En modell som närmare följer den faktiska sexuella reproduktionen är den så kallade "bisexuella Galton–Watson-processen", där endast par reproducerar sig. ^{[ citat behövs ]} ( Bisexuell avser i detta sammanhang antalet inblandade kön, inte sexuell läggning .) I denna process antas varje barn vara man eller kvinna, oberoende av varandra, med en specificerad sannolikhet, och en s.k. "parningsfunktion" avgör hur många par som kommer att bildas i en given generation. Liksom tidigare anses reproduktion av olika par vara oberoende av varandra. Nu motsvarar analogen till det triviala fallet fallet med varje hane och hona som reproducerar sig i exakt ett par, med en manlig och en kvinnlig ättling, och att parningsfunktionen tar värdet av minimum av antalet hanar och honor (som är sedan desamma från nästa generation och framåt).

Eftersom den totala reproduktionen inom en generation nu starkt beror på parningsfunktionen, finns det i allmänhet inga enkla nödvändiga och tillräckliga förutsättningar för slutlig utrotning som är fallet i den klassiska Galton-Watson-processen. ^{[ citat behövs ] Emellertid, med undantag för det icke-triviala fallet} , tillåter begreppet medelvärde för reproduktion (Bruss (1984)) ett allmänt tillräckligt villkor för slutlig utrotning, som behandlas i nästa avsnitt.

Utsläckningskriterium

Om i det icke-triviala fallet det genomsnittliga reproduktionsmedelvärdet per par förblir begränsat över alla generationer och inte kommer att överstiga 1 för en tillräckligt stor populationsstorlek, är sannolikheten för slutlig utrotning alltid 1.

Exempel

Att citera historiska exempel på Galton-Watson-processen är komplicerat på grund av att släktnamnens historia ofta avviker avsevärt från den teoretiska modellen. Noterbart kan nya namn skapas, befintliga namn kan ändras under en persons livstid, och människor har historiskt ofta antagit namn på obesläktade personer, särskilt adeln. Ett litet antal släktnamn i dagsläget är alltså inte i sig bevis för att namn har dött ut med tiden, eller att de gjort det på grund av att de dör ut ur släktnamnsrader – det kräver att det fanns fler namn tidigare och att de dör ut på grund av att raden dör ut, snarare än att namnet ändras av andra skäl, som att vasaller antar namnet på sin herre.

Kinesiska namn är ett väl studerat exempel på utrotning av efternamn: det finns för närvarande bara cirka 3 100 efternamn i bruk i Kina, jämfört med nära 12 000 registrerade tidigare, med 22 % av befolkningen som delar namnen Li , Wang och Zhang ( numrering ) nära 300 miljoner människor), och de 200 bästa namnen som täcker 96 % av befolkningen. Namn har ändrats eller har dött ut av olika anledningar som att människor tar namnen på sina linjaler, ortografiska förenklingar, tabun mot att använda tecken från en kejsarens namn, bland annat. Även om släktnamnsrader dör ut kan vara en faktor för att efternamnet försvinner, är det inte på något sätt den enda eller ens en betydande faktor. Faktum är att den viktigaste faktorn som påverkar efternamnsfrekvensen är andra etniska grupper som identifierar sig som Han och antar Han-namn. Samtidigt som nya namn har uppstått av olika anledningar har detta uppvägts av att gamla namn har försvunnit.

Däremot har vissa nationer antagit efternamn först nyligen. Det betyder både att de inte har upplevt efternamnsutrotning under en längre period, och att namnen antogs när nationen hade en relativt stor befolkning, snarare än de mindre populationerna under antiken. Dessutom har dessa namn ofta valts kreativt och är mycket olika. Exempel inkluderar:

Japanska namn , som i allmänt bruk dateras endast till Meiji-restaureringen i slutet av 1800-talet (när befolkningen var över 30 000 000), har över 100 000 efternamn, efternamnen är väldigt varierande och regeringen begränsar gifta par att använda samma efternamn.
Många holländska namn har inkluderat ett formellt efternamn först sedan Napoleonkrigen i början av 1800-talet. Tidigare kom efternamn från patronymer (t.ex. Jansen = Johns son), personliga egenskaper (t.ex. de Rijke = den rike), geografiska platser (t.ex. van Rotterdam) och yrken (t.ex. Visser = fiskaren), ibland t.o.m. kombinerat (t.ex. Jan Jansz van Rotterdam). Det finns över 68 000 holländska efternamn.
Thailändska namn har endast inkluderat ett efternamn sedan 1920, och endast en enda familj kan använda ett givet efternamn; därför finns det ett stort antal thailändska namn. Dessutom ändrar thailändare sina efternamn med viss frekvens, vilket komplicerar analysen.

Å andra sidan beror några exempel på hög koncentration av efternamn inte i första hand på Galton–Watson-processen:

Vietnamesiska namn har cirka 100 efternamn, med 60 % av befolkningen som delar tre efternamn. Bara namnet Nguyễn beräknas användas av nästan 40 % av den vietnamesiska befolkningen, och 90 % delar 15 namn. Men som historien om Nguyễn -namnet klargör, beror detta inte till en liten del på att namn tvingas på människor eller antas av skäl som inte är relaterade till genetiska relationer.

Se även

Vidare läsning

F. Thomas Bruss (1984). "En anteckning om utrotningskriterier för bisexuella Galton-Watson-processer". Journal of Applied Probability 21 : 915–919.
CC Heyde och E Seneta (1977). IJ Bienayme: Statistisk teori förväntad . Berlin, Tyskland.
Kendall, DG (1966). "Förgreningsprocesser sedan 1873". Journal of the London Mathematical Society . s1-41: 385-406. doi : 10.1112/jlms/s1-41.1.385 . ISSN 0024-6107 .
Kendall, DG (1975). "The Genealogy of Genealogy Branching Processes före (och efter) 1873". Bulletin från London Mathematical Society . 7 (3): 225–253. doi : 10.1112/blms/7.3.225 . ISSN 0024-6093 .

externa länkar

"Survival of a Single Mutant" av Peter M. Lee från University of York
Den enkla Galton-Watson-processen: Klassisk tillvägagångssätt, University of Muenster

Stokastiska processer
Diskret tid	Bernoulli process Förgreningsprocess Kinesisk restaurangprocess Galton–Watson-processen Oberoende och identiskt fördelade stokastiska variabler Markov kedja Moran process En spontan promenad Slingraderad Självundvikande Partisk Maximal entropi
Kontinuerlig tid	Additiv process Bessel process Födelse-död process ren födelse Brownsk rörelse Bro Utflykt Fraktionerad Geometrisk Slingra sig Cauchy process Kontaktprocess Kontinuerlig slumpmässig promenad Cox process Diffusionsprocess Empirisk process Fellerprocess Fleming–Viot-processen Gammaprocess Geometrisk process Hawkes process Jaktprocess Interagerande partikelsystem Det är diffusion Det är processen Hoppdiffusion Hoppa process Lévy-processen Lokal tid Markov additiv process McKean–Vlasov-processen Ornstein–Uhlenbeckprocessen Poissonprocess Förening Icke-homogena Schramm–Loewner evolution Semimartingale Sigma-martingal Stabil process Superprocess Telegrafprocess Varians gammaprocess Wienerprocess Wienerkorv
Både	Förgreningsprocess Galves–Löcherbach modell Gaussisk process Hidden Markov-modell (HMM) Markov process Martingal Skillnader Lokal Sub- Super- Slumpmässigt dynamiskt system Regenerativ process Förnyelseprocess Stokastiska kedjor med minne av variabel längd Vitt brus
Fält och annat	Dirichlet process Gaussiskt slumpmässigt fält Gibbs mått Hopfield modell Ising modell Potts modell booleskt nätverk Markov slumpmässigt fält Perkolering Pitman–Yor process Punktprocess Cox Poisson Slumpmässigt fält Slumpmässig graf
Tidsseriemodeller	Autoregressiv villkorlig heteroskedasticitetsmodell (ARCH). Autoregressivt integrerat glidande medelvärde (ARIMA) modell Autoregressiv (AR) modell Autoregressiv – glidande medelvärde (ARMA) modell Generaliserad autoregressiv betingad heteroskedasticitetsmodell (GARCH). Glidande medelvärde (MA) modell
Finansiella modeller	Prissättningsmodell för binomial optioner Black–Derman–Toy Svart–Karasinski Black–Scholes Chan–Karolyi–Longstaff–Sanders (CKLS) Chen Konstant varianselasticitet (CEV) Cox–Ingersoll–Ross (CIR) Garman–Kohlhagen Heath–Jarrow–Morton (HJM) Heston Ho–Lee Skrov – Vit LIBOR-marknaden Rendleman–Bartter SABR volatilitet Vašíček Wilkie
Aktuariella modeller	Bühlmann Cramér–Lundberg Riskprocess Sparre–Anderson
Kömodeller	Bulk Vätska Generaliserat könätverk M/G/1 M/M/1 M/M/c
Egenskaper	Càdlàg stigar Kontinuerlig Kontinuerliga stigar Ergodisk Utbytbar Feller-kontinuerlig Gauss-Markov Markov Blandning Styckvis deterministisk Förutsägbar Progressivt mätbar Självliknande Stationär Tidsreversibel
Gränssatser	Centrala gränsvärdessatsen Donskers sats Doobs martingalkonvergenssatser Ergodisk teorem Fisher–Tippett–Gnedenkos sats Stor avvikelseprincip Lagen om stora tal (svag/stark) Lagen för den itererade logaritmen Maximal ergodisk teorem Sanovs teorem Noll-ett-lagar ( Blummenthal , Borel-Cantelli , Engelbert-Schmidt , Hewitt-Savage , Kolmogorov , Lévy )
Ojämlikheter	Burkholder–Davis–Gundy Doobs martingal Doob är på väg uppåt Kunita–Watanabe Marcinkiewicz–Zygmund
Verktyg	Cameron-Martin formel Konvergens av slumpvariabler Doléans-Dade exponentiell Doob nedbrytningssats Doob–Meyers nedbrytningssats Doobs valfria stoppsats Dynkins formel Feynman-Kac formel Filtrering Girsanovs teorem Infinitesimal generator Det är integral Det är lemma Karhunen–Loèves sats Kolmogorovs kontinuitetsteorem Kolmogorovs förlängningssats Lévy–Prokhorov metrisk Malliavin kalkyl Martingale representation teorem Valfri stoppsats Prokhorovs teorem Kvadratisk variation Reflektionsprincip Skorokhod integral Skorokhods representationssats Skorokhod utrymme Snell kuvert Stokastiska differentialekvationen Tanaka Stopptid Stratonovich integral Enhetlig integrerbarhet Vanliga hypoteser Wiener utrymme Klassisk Abstrakt
Discipliner	Aktuariell matematik Kontrollteori Ekonometri Ergodisk teori Extremvärdesteori (EVT) Stora avvikelser teori Matematisk ekonomi Matematisk statistik Sannolikhetsteori Köteori Förnyelseteori Ruinteori Signalbehandling Statistik Stokastisk analys Tidsserieanalys Maskininlärning
Lista över ämnen Kategori