Walds ekvation

Inom sannolikhetsteorin är Walds ekvation , Walds identitet eller Walds lemma en viktig identitet som förenklar beräkningen av det förväntade värdet av summan av ett slumpmässigt antal slumpmässiga storheter. I sin enklaste form relaterar den förväntan på en summa av slumpmässigt många ändliga medelvärden, oberoende och identiskt fördelade stokastiska variabler till det förväntade antalet termer i summan och stokastiska variablernas gemensamma förväntan under förutsättning att antalet termer i summan är oberoende av summan.

Ekvationen är uppkallad efter matematikern Abraham Wald . En identitet för det andra ögonblicket ges av Blackwell-Girshicks ekvation.

Grundversion

Låt $\mathbb {N}$ vara en sekvens av reellt värderade, oberoende och identiskt fördelade slumpvariabler och låt $N \geq 0$ vara en slumpvariabel med heltalsvärde som är oberoende av sekvensen $\mathbb {N}$ . Antag att $N$ och $X n$ har ändliga förväntningar. Sedan

\operatörsnamn {E} [X_{1}+\dots +X_{N}]=\operatörsnamn {E} [N]\operatörsnamn {E} [X_{1}]\,.

Exempel

Kasta en sexsidig tärning . Ta numret på tärningen (kalla det $N$ ) och slå det antalet sexsidiga tärningar för att få siffrorna $X 1, . . . , X N$ , och summera deras värden. Enligt Walds ekvation är det resulterande värdet i genomsnitt

\operatörsnamn {E} [N]\operatörsnamn {E} [X]={\frac {1+2+3+4+5+6}{6}}\cdot {\frac {1+2+ 3+4+5+6}{6}}={\frac {441}{36}}={\frac {49}{4}}=12.25\,.

Allmän version

Låt $\mathbb {N}$ vara en oändlig sekvens av reellt värderade slumpvariabler och låt $N$ vara en icke-negativ heltalsvärd slumpvariabel.

Anta att:

.

\mathbb {N}

är alla integrerbara (finita medelvärde) slumpvariabler,

.

E[X n 1 {N \geq n}] = E[X n] P(N \geq n)

för varje naturligt tal

n

, och

. den oändliga serien uppfyller

\sum _{n=1}^{\infty }\operatörsnamn {E} \!{\bigl [}|X_{n}|1_{\{N\geq n\}}{\bigr ]} <\infty .

Sedan de slumpmässiga summorna

{\displaystyle S_{N}:=\summa _{n=1}^{N}X_

är integrerbara och

\operatörsnamn {E} [S_{N}]=\operatörsnamn {E} [T_{N}].

Om dessutom

.

\mathbb {N}

har alla samma förväntningar, och

.

N

har begränsade förväntningar,

sedan

\operatörsnamn {E} [S_{N}]=\operatörsnamn {E} [N]\,\operatörsnamn {E} [X_{1}].

Anmärkning: Vanligtvis syftar namnet Walds ekvation på denna sista likhet.

Diskussion av antaganden

klart att antagande ( 1 ) behövs för att formulera antagande ( 2 ) och Walds ekvation. Antagande ( 2 ) styr mängden beroende som tillåts mellan sekvensen $\mathbb {N}$ och antalet $N$ termer; se motexemplet nedan för nödvändigheten . Observera att antagande ( 2 ) är uppfyllt när $N$ är en stopptid för sekvensen $\mathbb {N}$ . ^{[ citat behövs ]} Antagande ( 3 ) är av mer teknisk natur, vilket innebär absolut konvergens och tillåter därför godtycklig omarrangering av en oändlig serie i beviset.

Om antagande ( 5 ) är uppfyllt, kan antagande ( 3 ) stärkas till det enklare tillståndet

. det finns en reell konstant

C

så att

E[| Xn _ | 1 { N ≥ n } ] ≤ C P( N ≥ n )

för alla naturliga tal

n

.

Genom att använda antaganden ( 6 ),

\sum _{n=1}^{\infty }\operatörsnamn {E} \!{\bigl [} |X_{n}|1_{\{N\geq n\}}{\bigr ]}\leq C\sum _{n=1}^{\infty }\operatörsnamn {P} (N\geq n),

och den sista serien är lika med förväntan på $N$ ^{[ Bevis ]} , som är ändlig genom antagande ( 5 ). Därför innebär ( 5 ) och ( 6 ) antagande ( 3 ).

Antag utöver ( 1 ) och ( 5 ) att

.

N

är oberoende av sekvensen

\mathbb {N}

och

. det finns en konstant

C

så att

E[| X n |] \leq C

för alla naturliga tal

n

.

Då är alla antaganden ( 1 ), ( 2 ), ( 5 ) och ( 6 ), alltså även ( 3 ), uppfyllda. I synnerhet är villkoren ( 4 ) och ( 8 ) uppfyllda om

. de slumpmässiga variablerna

\mathbb {N}

har alla samma fördelning.

Observera att de slumpmässiga variablerna för sekvensen $\mathbb {N}$ inte behöver vara oberoende.

Det intressanta är att erkänna ett visst beroende mellan det slumpmässiga antalet $N$ av termer och sekvensen $\mathbb {N}$ . En standardversion är att anta ( 1 ), ( 5 ), ( 8 ) och förekomsten av en filtrering $\mathbb {N}$ så att

.

N

är en stopptid med avseende på filtreringen, och

.

X n

och

F n -1

är oberoende för varje

\mathbb {N}

.

Då antyder ( $Xn 10$ ) att händelsen ${N \geq n} = {N \leq n - 1} c$ är i $F n -1$ , alltså med ( 11 ) oberoende av . Detta innebär ( 2 ), och tillsammans med ( 8 ) innebär det ( 6 ).

För enkelhetens skull (se beviset nedan med den valfria stoppsatsen) och för att specificera förhållandet mellan sekvensen $\mathbb {N}$ och filtreringen $\mathbb {N}$ , införs ofta följande ytterligare antagande:

. sekvensen

\mathbb {N}

är anpassad till filtreringen

\mathbb {N}

, vilket betyder att

X n

är

F n

-mätbar för varje

\mathbb {N}

.

Observera att ( 11 ) och ( 12 ) tillsammans innebär att de slumpmässiga variablerna $\mathbb {N}$ är oberoende.

Ansökan

En ansökan är i försäkringsteknisk vetenskap när man beaktar det totala skadebeloppet följer en sammansatt Poisson-process

S_{N}=\summa _{n=1}^{N}X_{n}

inom en viss tidsperiod, säg ett år, som härrör från ett slumpmässigt antal $N$ av individuella försäkringsskador, vars storlek beskrivs av de slumpmässiga variablerna ( $\displaystyle \mathbb {N} }$ . Under ovanstående antaganden kan Walds ekvation användas för att beräkna det förväntade totala skadebeloppet när information om det genomsnittliga skadetalet per år och den genomsnittliga skadestorleken finns tillgänglig. Under starkare antaganden och med mer information om de underliggande fördelningarna Panjers rekursion användas för att beräkna fördelningen av $S N$ .

Exempel

Exempel med beroende termer

Låt $N$ vara en integrerbar, $\mathbb {N}$ -värderad slumpvariabel, som är oberoende av den integrerbara, reella slumpvariabeln $Z$ med $E[Z] = 0$ . Definiera $X n = (-1) n Z$ för alla $\mathbb {N}$ . Sedan antaganden ( 1 ), ( 5 ), ( 7 ) och ( 8 ) med $C := E[| Z |]$ är uppfyllda, därav också ( 2 ) och ( 6 ), och Walds ekvation gäller. Om fördelningen av $Z$ inte är symmetrisk, så håller inte ( 9 ). Observera att när $Z$ inte nästan säkert är lika med den slumpmässiga variabeln noll, då kan ( 11 ) och ( 12 ) inte hållas samtidigt för någon filtrering $\mathbb {N}$ , eftersom $Z$ inte kan vara oberoende av sig själv eftersom $E[Z 2] = (E[Z]) 2 = 0$ är omöjligt.

Exempel där antalet termer beror på sekvensen

Låt $\mathbb {N}$ vara en sekvens av oberoende, symmetriska och ${-1, +1$ }-värdade slumpvariabler. För varje $\mathbb {N}$ låt $F n$ vara σ-algebra som genereras av $X 1, . . . , Xn värdet$ och definiera $N = n$ när $Xn .$ är den första slumpvariabeln som tar $+1$ Notera att $P(N = n) = 1/2 n$ , därav $E[N] < \infty$ genom förhållandetestet . Antagandena ( 1 ), ( 5 ) och ( 9 ), därav ( 4 ) och ( 8 ) med $C = 1$ , ( 10 ), ( 11 ) och ( 12 ) gäller, därav också ( 2 ) och ( 6 ) ) och Walds ekvation gäller. Men ( 7 ) håller inte, eftersom $N$ definieras i termer av sekvensen $\mathbb {N}$ . Intuitivt kan man förvänta sig att ha $E[S N] > 0$ i det här exemplet, eftersom summeringen stannar direkt efter en etta, vilket tydligen skapar en positiv bias. Walds ekvation visar dock att denna intuition är missvisande.

Motexempel

Ett motexempel som illustrerar nödvändigheten av antagande ( 2 )

1/2 en { sekvens $N} }$ av iid (oberoende och identiskt fördelade slumpvariabler) slumpvariabler, med vart och ett av de två värdena 0 och 1 med sannolikhet (faktiskt endast $X 1$ behövs i det följande). Definiera $N = 1 - X 1$ . Då $S N$ identiskt lika med noll, därav $E[S N] = 0$ , men $E[X 1] = 1 / 2$ och $E[N] = 1 / 2$ och därför håller inte Walds ekvation. Faktum är att antagandena ( 1 ), ( 3 ), ( 4 ) och ( 5 ) är uppfyllda, men ekvationen i antagande ( 2 ) gäller för alla $\mathbb {N}$ förutom $n = 1$ .

Ett motexempel som illustrerar nödvändigheten av antagande ( 3 )

Mycket likt det andra exemplet ovan, låt $\mathbb {N}$ vara en sekvens av oberoende, symmetriska slumpvariabler, där $X n$ tar vart och ett av värdena $2 n$ och $-2 n$ med sannolikhet 1/2 _ _ . Låt $N$ vara den första $\mathbb {N}$ så att $X n = 2 n$ . Sedan, som ovan, $N$ ändlig förväntan, därför gäller antagande ( 5 ). Eftersom $E[X n] = 0$ för alla ${\displaystyle \mathbb {N} } ,$ gäller antaganden ( 1 ) och ( 4 ). Men eftersom $S N = 1$ nästan säkert, kan Walds ekvation inte hålla.

Eftersom $N$ är en stopptid med avseende på filtreringen som genereras av ${\displaystyle \mathbb {N} } , gäller$ antagande ( 2 ), se ovan. Därför kan endast antagandet ( 3 ) misslyckas, och faktiskt, sedan

\{N\geq n\}=\{X_{i}=-2^{i}{ \text{ för }}i=1,\ldots ,n-1\}

och därför $P(N \geq n) = 1/2 n -1$ för varje $\mathbb {N}$ , det följer att

\sum _{n=1}^{\infty }\operatörsnamn {E} \!{\bigl [}|X_{n}|1_{\{N\geq n\}}{\bigr ]} =\summa _{n=1}^{\infty }2^{n}\,\operatörsnamn {P} (N\geq n)=\summa _{n=1}^{\infty }2=\infty .

Ett bevis med den valfria stoppsatsen

Antag ( 1 ), ( 5 ), ( 8 ), ( 10 ), ( 11 ) och ( 12 ). Använd antagande ( 1 ), definiera sekvensen av slumpvariabler

M_{n}=\summa _{i=1}^{n}(X_{i}-\operatörsnamn {E} [X_{i}]),\quad n\in {\mathbb {N} }_{0}.

Antagande ( 11 ) innebär att den villkorade förväntan av $X n$ givet $F n -1$ är lika med $E[X n]$ nästan säkert för varje $\mathbb {N}$ , därav ${\ displaystyle \mathbb {N} }$ är en martingal med avseende på filtreringen $\mathbb {N}$ genom antagande ( 12 ). Antaganden ( 5 ), ( 8 ) och ( 10 ) säkerställer att vi kan tillämpa den valfria stoppsatsen , därför är $M N = S N - T N$ integrerbar och

\operatörsnamn {E} [S_{N}-T_{N}]=\operatörsnamn {E} [M_{0}]= 0.

()

På grund av antagande ( 8 ),

|T_{N}|={\biggl |}\sum _{i=1}^{N}\operatörsnamn {E} [X_{i}]{\biggr |}\leq \sum _{i=1}^{N}\operatörsnamn {E} [|X_{i}|]\leq CN,

och på grund av antagandet ( 5 ) är denna övre gräns integrerbar. Därför kan vi lägga till förväntan på $T N$ på båda sidor av ekvation ( 13 ) och erhålla genom linjäritet

\operatörsnamn {E} [S_{N}]=\operatörsnamn {E} [T_{N}].

Anmärkning: Observera att detta bevis inte täcker ovanstående exempel med beroende termer .

Allmänt bevis

Detta bevis använder endast Lebesgues monotona och dominerade konvergenssatser . Vi bevisar påståendet enligt ovan i tre steg.

Steg 1: Integrerbarheten av den slumpmässiga summan $S N$

Vi visar först att den slumpmässiga summan $S N$ är integrerbar. Definiera delsummorna

S_{i}=\sum _{n=1}^{i}X_{n},\quad i\in {\mathbb {N} }_{0}.

()

Eftersom $N$ tar sina värden i $\mathbb {N}$ och eftersom $0 S = 0$ , följer det att

|S_{N}|=\summa _{i=1}^{\infty }|S_{i}|\,1_{\{N=i\}}.

Lebesgues monotona konvergenssats antyder det

\operatörsnamn {E} [|S_{N}|]=\summa _{i=1}^{\infty }\operatörsnamn {E} [|S_{i}|\,1_{\{N= i\}}].

Genom triangelojämlikheten,

|S_{i}|\leq \sum _{n=1}^{i}|X_{n}|,\quad i\in {\mathbb {N} }.

Genom att använda denna övre uppskattning och ändra summeringsordningen (vilket är tillåtet eftersom alla termer är icke-negativa) får vi

\operatörsnamn {E} [|S_{N}|]\leq \sum _{n=1}^{\infty }\sum _{i=n}^{\ infty }\operatörsnamn {E} [|X_{n}|\,1_{\{N=i\}}]=\summa _{n=1}^{\infty }\operatörsnamn {E} [|X_{ n}|\,1_{\{N\geq n\}}],

()

där den andra olikheten följer med den monotona konvergenssatsen. Genom antagande ( 3 ) konvergerar den oändliga sekvensen på höger sida av ( 15 ), så $S N$ är integrerbar.

Steg 2: Integrerbarheten av den slumpmässiga summan $T N$

Vi visar nu att den slumpmässiga summan $T N$ är integrerbar. Definiera delsummorna

T_{i}=\summa _{n=1}^{i}\operatörsnamn {E} [X_{n}] ,\quad i\in {\mathbb {N} }_{0},

()

av reella tal. Eftersom $N$ tar sina värden i $\mathbb {N}$ och eftersom $0 T = 0$ , följer det att

|T_{N}|=\summa _{i=1}^{\infty }|T_{i}|\,1_{\{N=i\}}.

Liksom i steg 1 innebär Lebesgues monotona konvergenssats det

\operatörsnamn {E} [|T_{N}|]=\summa _{i=1}^{\infty }|T_{i}|\operatörsnamn {P} (N=i).

Genom triangelojämlikheten,

|T_{i}|\leq \sum _{n=1}^{i}{\bigl |}\!\operatörsnamn {E} [X_{n}]{\bigr |},\quad i \in {\mathbb {N} }.

Genom att använda denna övre uppskattning och ändra summeringsordningen (vilket är tillåtet eftersom alla termer är icke-negativa) får vi

\operatörsnamn {E} [|T_{N}|]\leq \sum _{n=1}^{ \infty }{\bigl |}\!\operatörsnamn {E} [X_{n}]{\bigr |}\underbrace {\sum _{i=n}^{\infty }\operatörsnamn {P} (N= i)} _{=\,\operatörsnamn {P} (N\geq n)},

()

Genom antagande ( 2 ),

{\bigl |}\!\operatörsnamn {E} [X_{n}]{\bigr |}\operatörsnamn {P} (N\geq n)={\bigl |}\!\operatörsnamn {E} [X_{n}1_{\{N\geq n\}}]{\bigr |}\leq \operatörsnamn {E} [|X_{n}|1_{\{N\geq n\}}],\ quad n\in {\mathbb {N} }.

Ersätter detta med ( 17 ) avkastning

\operatörsnamn {E} [|T_{N}|]\leq \sum _{n=1}^{\infty }\operatörsnamn {E} [|X_{n} |1_{\{N\geq n\}}],

som är ändlig genom antagande ( 3 ), därför är $T N$ integrerbar.

Steg 3: Bevis på identiteten

För att bevisa Walds ekvation går vi i huvudsak igenom samma steg igen utan absolutvärdet, och använder oss av integrerbarheten av de slumpmässiga summorna $S N$ och $T N$ för att visa att de har samma förväntningar.

Använder den dominerade konvergenssatsen med dominerande stokastisk variabel $| S N |$ och definitionen av delsumman $Si som$ ges i ( 14 ), det följer att

\operatörsnamn {E} [S_{N}]=\summa _{i=1}^{\infty }\operatörsnamn {E} [S_{i}1_{\{N=i\}}]= \sum _{i=1}^{\infty }\sum _{n=1}^{i}\operatörsnamn {E} [X_{n}1_{\{N=i\}}].

På grund av den absoluta konvergensen som bevisats i ( 15 ) ovan med antagande ( 3 ), kan vi ordna om summeringen och erhålla att

{\ displaystyle \operatorname {E} [S_{N}]=\sum _{n=1}^{\infty }\sum _{i=n}^{\infty }\operatörsnamn {E} [X_{n}1_ {\{N=i\}}]=\summa _{n=1}^{\infty }\operatörsnamn {E} [X_{n}1_{\{N\geq n\}}],}

där vi använde antagande ( 1 ) och den dominerade konvergenssatsen med dominerande stokastisk variabel $| Xn_|$ för den andra jämlikheten. På grund av antagande ( 2 ) och σ-additiviteten för sannolikhetsmåttet,

{\begin{aligned}\operatörsnamn {E} [X_{n}1_{\{N\geq n\}}]&=\operatörsnamn {E} [X_{n}]\operatörsnamn {P} ( N\geq n)\\&=\operatörsnamn {E} [X_{n}]\summa _{i=n}^{\infty }\operatörsnamn {P} (N=i)=\summa _{i= n}^{\infty }\operatörsnamn {E} \!{\bigl [}\operatörsnamn {E} [X_{n}]1_{\{N=i\}}{\bigr ]}.\end{aligned }}

Att ersätta detta resultat i den föregående ekvationen, arrangera om summeringen (vilket är tillåtet på grund av absolut konvergens, se ( 15 ) ovan), med hjälp av förväntans linjäritet och definitionen av den partiella summan $Ti av$ förväntningarna som ges i ( 16 ),

\operatorname {E} [S_{N}]=\sum _{i=1}^{\infty }\sum _{n=1}^{i}\operatörsnamn {E} \!{\bigl [}\operatörsnamn {E} [X_{n}]1_{\{N=i\}}{\bigr ]}=\summa _{i=1}^{\infty }\operatörsnamn {E} [\underbrace {T_{i}1_{\{N=i\}}} _{=\,T_{N}1_{\{N=i\}}}].

Genom att använda dominerad konvergens igen med dominerande stokastisk variabel $| T N |$ ,

\operatorname {E} [S_{N}]=\operatörsnamn {E} \!{\biggl [}T_{N}\underbrace {\sum _{i=1}^{\infty }1_{\ {N=i\}}} _{=\,1_{\{N\geq 1\}}}{\biggr ]}=\operatörsnamn {E} [T_{N}].

Om antagandena ( 4 ) och ( 5 ) är uppfyllda, kan förväntans linjäritet,

\operatörsnamn {E} [T_{N}]=\operatörsnamn {E} \!{\biggl [}\summa _{n=1}^{N}\operatörsnamn {E} [X_{n}] {\biggr ]}=\operatörsnamn {E} [X_{1}]\operatörsnamn {E} \!{\biggl [}\underbrace {\sum _{n=1}^{N}1} _{=\ ,N}{\biggr ]}=\operatörsnamn {E} [N]\operatörsnamn {E} [X_{1}].

Detta fullbordar beviset.

Ytterligare generaliseringar

Walds ekvation kan överföras till $R d$ -värderade slumpvariabler $\mathbb {N}$ genom att tillämpa den endimensionella versionen på varje komponent.
Om $\mathbb {N}$ är Bochner-integrerbara slumpvariabler som tar värden i ett Banach-utrymme , så kan det allmänna beviset ovan justeras därefter.

Se även

Anteckningar

Wald, Abraham (september 1944). "På kumulativa summor av slumpvariabler" . The Annals of Mathematical Statistics . 15 (3): 283–296. doi : 10.1214/aoms/1177731235 . JSTOR 2236250 . MR 0010927 . Zbl 0063.08122 .
Wald, Abraham (1945). "Några generaliseringar av teorin om kumulativa summor av slumpvariabler" . The Annals of Mathematical Statistics . 16 (3): 287–293. doi : 10.1214/aoms/1177731092 . JSTOR 2235707 . MR 0013852 . Zbl 0063.08129 .
Blackwell, D.; Girshick, MA (1946). "Om funktioner av sekvenser av oberoende slumpvektorer med tillämpningar på problemet med "slumpmässig promenad" i k dimensioner" . Ann. Matematik. Statistik . 17 (3): 310–317. doi : 10.1214/aoms/1177730943 .
Chan, Hock Peng; Fuh, Cheng-Der; Hu, Inchi (2006). "Mångarmad banditproblem med företrädesrelationer". Tidsserier och relaterade ämnen . Institutet för matematisk statistik Föreläsningsanteckningar - Monografiserie. Vol. 52. s. 223–235. arXiv : math/0702819 . doi : 10.1214/074921706000001067 . ISBN 978-0-940600-68-3 . S2CID 18813099 .

externa länkar

"Wald identity" , Encyclopedia of Mathematics , EMS Press , 2001 [1994]

Walds ekvation

Grundversion

Exempel

Allmän version

Diskussion av antaganden

Ansökan

Exempel

Exempel med beroende termer

Exempel där antalet termer beror på sekvensen

Motexempel

Ett motexempel som illustrerar nödvändigheten av antagande ( 2 )

Ett motexempel som illustrerar nödvändigheten av antagande ( 3 )

Ett bevis med den valfria stoppsatsen

Allmänt bevis

Steg 1: Integrerbarheten av den slumpmässiga summan S N

Steg 2: Integrerbarheten av den slumpmässiga summan T N

Steg 3: Bevis på identiteten

Ytterligare generaliseringar

Se även

Anteckningar

externa länkar

Steg 1: Integrerbarheten av den slumpmässiga summan $S N$

Steg 2: Integrerbarheten av den slumpmässiga summan $T N$