Variogram

I rumslig statistik är det teoretiska variogrammet , betecknat ${\displaystyle 2\gamma (\mathbf {s} _{1},\mathbf {s} _{2})},$ en funktion som beskriver graden av rumsligt beroende av ett rumsligt slumpmässigt fält eller stokastisk process $Z(\mathbf {s} )$ . Semivariogrammet $\gamma (\mathbf {s} _{1},\mathbf {s} _{2})$ , är halva variogrammet

När det gäller ett konkret exempel från guldbrytningsområdet kommer ett variogram att ge ett mått på hur mycket två prover tagna från gruvområdet kommer att variera i guldprocent beroende på avståndet mellan dessa prover. Prover som tas långt ifrån varandra kommer att variera mer än prover som tas nära varandra.

Definition

Semivariogrammet $\gamma (h)$ definierades först av Matheron (1963) som hälften av den genomsnittliga kvadratskillnaden mellan värdena vid punkter ( s $\displaystyle \mathbf {s} _{1}}$ och $\mathbf {s} _{2}$ ) separerade på avstånd $h$ . Formellt

\gamma (h)={\frac {1}{2V}}\iiint _{ V}\vänster[f(M+h)-f(M)\höger]^{2}dV,

där $M$ är en punkt i det geometriska fältet $V$ , och $f(M)$ är värdet i den punkten. Trippelintegralen är över 3 dimensioner. $h$ är separationsavståndet (t.ex. i meter eller km) av intresse. Till exempel kan värdet $f(M)$ representera järnhalten i marken, på någon plats $M$ (med geografiska koordinater för latitud, longitud och höjd) över någon region $V$ med element av volym $dV$ . För att erhålla semivariogrammet för en given $\gamma (h)$ skulle alla par av punkter på det exakta avståndet samplas. I praktiken är det omöjligt att prova överallt, så det empiriska variogrammet används istället.

Variogrammet är dubbelt så stort som semivariogrammet och kan definieras, ekvivalent, som variansen av skillnaden mellan fältvärden på två platser ( $\mathbf {s} _{1}$ och $\mathbf { s} _{2}$ , notera ändring av notation från $M$ till $\mathbf {s}$ och $f$ till $Z$ ) över realiseringar av fältet (Cressie 1993):

2\gamma (\mathbf {s} _{1},\mathbf {s} _{2})={\text{var}}\left(Z(\mathbf {s} _{1}) -Z(\mathbf {s} _{2})\right)=E\left[((Z(\mathbf {s} _{1})-\mu (\mathbf {s} _{1})) -(Z(\mathbf {s} _{2})-\mu (\mathbf {s} _{2})))^{2}\right].

Om det rumsliga slumpmässiga fältet har konstant medelvärde $\mu$ , är detta ekvivalent med förväntan på den kvadratiska ökningen av värdena mellan platserna $\mathbf {s} _{1}$ och $s_{2}$ (Wackernagel 2003) (där $\mathbf {s} _{1}$ och $\mathbf {s} _{2}$ är punkter i rymden och ev. tid):

2\gamma (\mathbf {s} _{1},\mathbf {s} _{2})=E\left[\left(Z(\mathbf {s} _{1})-Z( \mathbf {s} _{2})\right)^{2}\right].

I fallet med en stationär process kan variogrammet och semivariogrammet representeras som en funktion $\gamma _{s}(h)=\gamma (0,0+ h)$ av skillnaden $h=\mathbf {s} _{2}-\mathbf {s} _{1}$ endast mellan platser, genom följande relation (Cressie 1993) :

\gamma (\mathbf {s} _{1},\mathbf {s} _{2})=\gamma _{s}(\mathbf {s} _{2}-\mathbf {s} _ {1}).

Om processen dessutom är isotropisk kan variogrammet och semivariogrammet representeras av en funktion $\gamma _{i}(h):=\gamma _{ s}(he_{1})$ av avståndet $h=\|\mathbf {s} _{2}-\mathbf {s} _{1}\|$ endast (Cressie 1993):

\gamma (\mathbf {s} _{1},\mathbf {s} _{2})=\gamma _{i}(h).

Indexen $i$ eller $s$ skrivs vanligtvis inte. Termerna används för alla tre formerna av funktionen. Dessutom används ibland termen "variogram" för att beteckna semivariogrammet, och symbolen $\gamma$ används ibland för variogrammet, vilket skapar en viss förvirring.

Egenskaper

Enligt (Cressie 1993, Chiles och Delfiner 1999, Wackernagel 2003) har det teoretiska variogrammet följande egenskaper:

Semivariogrammet är icke-negativt ${\displaystyle \gamma (\mathbf {s} _{1},\mathbf {s} _{2})\geq 0} ,$ eftersom det är förväntningen på en ruta.
Semivariogrammet $\gamma (\mathbf {s} _{1}, \mathbf {s} _{1})=\gamma _{i}(0)=E\left((Z(\mathbf {s} _{1})-Z(\mathbf {s} _{1} ))^{2}\right)=0$ på avstånd 0 är alltid 0, eftersom $Z(\mathbf {s} _{1})-Z( \mathbf {s} _{1})=0$ .
En funktion är ett semivariogram om och endast om det är en villkorligt negativ definitiv funktion, dvs för alla vikter $w_{1},\ldots ,w_{N}$ med förbehåll för $\sum _{i=1}^{N}w_{i}=0$ och platser $s_{1},\ldots ,s_{N}$ den rymmer:

{\displaystyle \sum _{i=1}^{N}\sum _{j=1}^{N} w_{i}\gamma (\mathbf {s} _{i},\mathbf {s} _{j})w_{j}\leq 0} vilket motsvarar det faktum att

variansen

var(X)

av

X=\summa _{i=1}^{N}w_{i}Z(x_{i})

ges av det negativa av denna dubbelsumma och måste vara icke-negativ. ^{[ omtvistad – diskutera ]}

Om kovariansfunktionen för en stationär process existerar är den relaterad till variogram med
$2\gamma (\mathbf {s} _{1},\mathbf {s} _{2})=C(\mathbf {s} _{1},\mathbf {s} _{1 })+C(\mathbf {s} _{2},\mathbf {s} _{2})-2C(\mathbf {s} _{1},\mathbf {s} _{2})$
Om ett stationärt slumpmässigt fält inte har något rumsligt beroende (dvs. $C(h)=0$ om $h\not =0$ ), är semivariogrammet konstanten $var(Z(\mathbf {s} ))$ överallt utom vid origo, där det är noll.
$\gamma (\mathbf {s} _{1},\mathbf {s} _{2})=E\left[|Z(\mathbf {s} _{1})-Z(\mathbf {s} _{2})|^{2}\right]=\gamma (\mathbf {s} _{2},\mathbf {s} _{1})$ är en symmetrisk funktion.
Följaktligen är $\gamma _{s}(h)=\gamma _{s}(-h)$ en jämn funktion .
Om det slumpmässiga fältet är stationärt och ergodiskt är lim ${\displaystyle \lim _{h\to \infty }\gamma _{s}($ motsvarar fältets varians. Gränsen för semivariogrammet kallas också dess tröskel .
Som en konsekvens kan semivariogrammet vara icke-kontinuerligt endast vid ursprunget. Höjden på hoppet vid utgångspunkten kallas ibland nugget eller nugget effekt.

Parametrar

Sammanfattningsvis används följande parametrar ofta för att beskriva variogram:

nugget $n$ : Höjden på semivariogrammets hopp vid diskontinuiteten vid origo.
tröskel $s$ : Gräns för variogrammet som tenderar till oändliga fördröjningsavstånd.
range $r$ : Avståndet där skillnaden mellan variogrammet och tröskeln blir försumbar. I modeller med fast tröskel är det avståndet från vilket detta först nås; för modeller med en asymptotisk tröskel, anses det konventionellt vara avståndet när semivariansen först når 95 % av tröskeln.

Empiriskt variogram

I allmänhet behövs ett empiriskt variogram för uppmätta data, eftersom exempelinformation $Z$ inte är tillgänglig för varje plats. Provinformationen kan till exempel vara koncentration av järn i jordprover eller pixelintensitet på en kamera. Varje del av exempelinformation har koordinater $\mathbf {s} =(x,y)$ för ett 2D-exempelutrymme där $x$ och $y$ är geografiska koordinater. När det gäller järnet i jorden kan provutrymmet vara tredimensionellt. Om det också finns tidsvariationer (t.ex. fosforhalt i en sjö) så $\mathbf {s}$ vara en 4-dimensionell vektor $(x,y, z,t)$ . För det fall då dimensioner har olika enheter (t.ex. avstånd och tid) kan en skalningsfaktor $B$ tillämpas på var och en för att erhålla ett modifierat euklidiskt avstånd.

Provobservationer betecknas $displaystyle Z(\mathbf {s} _{i})=z_{i}}$ . Prover kan tas på $k$ totalt olika platser. Detta skulle tillhandahålla som en uppsättning sampel $z_{1},\ldots ,z_{k}$ på platserna $\mathbf {s} _{1 },\ldots ,\mathbf {s} _{k}$ . I allmänhet visar diagram semivariogramvärdena som en funktion av provpunktseparationen $h$ . I fallet med empiriskt semivariogram används separationsavståndsfack ${\displaystyle h\pm \delta } snarare än exakta avstånd, och vanligtvis antas isotropa förhållanden (dvs. att$ $\gamma$ bara är en funktion av $h$ och är inte beroende av andra variabler såsom mittposition). Sedan kan det empiriska semivariogrammet ${\hat {\gamma }}(h\pm \delta )$ beräknas för varje bin:

{\hat {\gamma }}(h\pm \delta ):={\frac {1}{2|N(h\pm \delta )|}}\summa _{(i,j) \in N(h\pm \delta )}|z_{i}-z_{j}|^{2}

Eller med andra ord, varje par av punkter separerade med $h$ (plus eller minus ett toleransområde för bin-bredd $\delta$ ) hittas. Dessa bildar uppsättningen av punkter $N(h\pm \delta )\equiv \{(\mathbf {s} _{i},\mathbf {s} _{j}):|\mathbf {s} _{i},\mathbf {s} _{j}|=h\pm \delta ;i,j=1,\ldots ,N\}$ . Antalet av dessa punkter i det här facket är $|N(h\pm \delta )|$ . Sedan hittas för varje par av punkter ${\displaystyle i,j} kvadraten på skillnaden i observationen (t.ex. jordprovsinnehåll eller pixelintensitet) ($ $| z_{i}-z_{j}|^{2}$ ). Dessa kvadratiska skillnader adderas och normaliseras med det naturliga talet $|N(h\pm \delta )|$ . Per definition divideras resultatet med 2 för semivariogrammet vid denna separation.

För beräkningshastighet behövs bara de unika poängparen. Till exempel, för 2 observationer par [ $(z_{a},z_{b}),(z_{c},z_{d})$ ] tagna från platser med separation $h\pm \delta$ endast [ $(z_{a},z_{b}), (z_{c},z_{d})$ ] måste beaktas, eftersom paren [ $(z_{b},z_{a} ),(z_{d},z_{c})$ ] ger ingen ytterligare information.

Variogram modeller

Det empiriska variogrammet kan inte beräknas vid varje fördröjningsavstånd $h$ och på grund av variation i uppskattningen är det inte säkerställt att det är ett giltigt variogram, enligt definitionen ovan. Vissa geostatistiska metoder som kriging kräver dock giltiga semivariogram. I tillämpad geostatistik är de empiriska variogrammen därför ofta approximerade av modellfunktioner som säkerställer validitet (Chiles&Delfiner 1999). Några viktiga modeller är (Chiles&Delfiner 1999, Cressie 1993):

$\gamma (h)=(sn)(1-\exp(-h/(ra)))+n1_{(0,\infty )}(h).$
variogrammodellen
Den sfäriska variogrammodellen
$\gamma (h)=(sn)\left(\left({\frac {3h}{2r}}-{\frac {h^{3}}{2r^{3}}}\right) 1_{(0,r)}(h)+1_{[r,\infty )}(h)\right)+n1_{(0,\infty )}(h).$
$\gamma (h)=(sn)\left(1-\exp \left(-{\frac {h^{2}}{r^{2}a}}\right)\right)+n1_ {(0,\infty )}(h).$
variogrammodellen

Parametern $a$ har olika värden i olika referenser, på grund av tvetydigheten i definitionen av intervallet. T.ex. $a=1/3$ är värdet som används i (Chiles&Delfiner 1999). Funktionen $1_{A}(h)$ är 1 om $h\in A$ och 0 annars.

Diskussion

Tre funktioner används i geostatistik för att beskriva den rumsliga eller tidsmässiga korrelationen av observationer: dessa är korrelogrammet , kovariansen och semivariogrammet . Det sista kallas också enklare variogram .

Variogrammet är nyckelfunktionen inom geostatistik eftersom det kommer att användas för att passa en modell av det observerade fenomenets tidsmässiga/ spatiala korrelation . Man gör alltså en distinktion mellan det experimentella variogrammet som är en visualisering av en möjlig spatial/temporal korrelation och variogrammodellen som vidare används för att definiera krigingfunktionens vikter . Observera att det experimentella variogrammet är en empirisk uppskattning av kovariansen av en Gaussprocess . Som sådan kanske den inte är positiv definitivt och därför inte direkt användbar i kriging , utan begränsningar eller ytterligare bearbetning. Detta förklarar varför endast ett begränsat antal variogrammodeller används: oftast den linjära, den sfäriska, den Gaussiska och de exponentiella modellerna.

Ansökningar

Det empiriska variogrammet används i geostatistik som en första uppskattning av den variogrammodell som behövs för rumslig interpolation med kriging .

Empiriska variogram för den spatiotemporala variabiliteten av koldioxidgenomsnittad koldioxid användes för att bestämma sammanfallskriterier för satellit- och markbaserade mätningar.
Empiriska variogram beräknades för densiteten av ett heterogent material (Gilsocarbon).
Empiriska variogram beräknas från observationer av starka markrörelser från jordbävningar . Dessa modeller används för seismiska risk- och förlustbedömningar av rumsligt fördelad infrastruktur.

Relaterade begrepp

Den kvadratiska termen i variogrammet, till exempel $(Z(\mathbf {s} _{1})-Z(\mathbf {s} _{2 }))^{2}$ , kan ersättas med olika potenser: Ett madogram definieras med den absoluta skillnaden , ${\displaystyle |Z(\mathbf {s} _{1})-Z(\mathbf {s} _{2})|} ,$ och ett rodogram definieras med kvadratroten av den absoluta skillnaden, $|Z(\mathbf {s} _{1})-Z(\mathbf {s} _{2})|^{0.5}$ . Estimatorer baserade på dessa lägre befogenheter sägs vara mer resistenta mot extremvärden . De kan generaliseras som ett "variogram av ordning α ",

2\gamma (\mathbf {s} _{1},\mathbf {s} _{2})=E\left[\left|Z(\mathbf {s} _{1})- Z(\mathbf {s} _{2})\right|^{\alpha }\right]

,

där ett variogram är av ordningen 2, ett madogram är ett variogram av ordningen 1 och ett rodogram är ett variogram av ordningen 0,5.

När ett variogram används för att beskriva korrelationen mellan olika variabler kallas det korsvariogram . Cross-variogram används vid co-kriging. Skulle variabeln vara binär eller representera klasser av värden, talar man då om indikatorvariogram . Indikatorvariogram används i indikatorkriging.

Vidare läsning

Cressie, N., 1993, Statistics for spatial data, Wiley Interscience.
Chiles, JP, P. Delfiner, 1999, Geostatistics, Modeling Spatial Uncertainty, Wiley-Interscience.
Wackernagel, H., 2003, Multivariate Geostatistics, Springer.
Burrough, PA och McDonnell, RA, 1998, Principles of Geographical Information Systems.
Isobel Clark, 1979, Practical Geostatistics, Applied Science Publishers .
Clark, I., 1979, Practical Geostatistics , Applied Science Publishers.
David, M., 1978, Geostatistical Ore Reserve Estimation , Elsevier Publishing.
Hald, A., 1952, Statistisk teori med tekniska tillämpningar , John Wiley & Sons, New York.
Journel, AG och Huijbregts, Ch. J., 1978 Mining Geostatistics , Academic Press.
Glass, HJ, 2003, Metod för att bedöma kvaliteten på variogrammet, The Journal of The South African Institute of Mining and Metallurgy .

externa länkar