Problem med modifierbar arealenhet

MAUP distortion example
Ett exempel på problemet med modifierbar arealenhet och förvrängningen av hastighetsberäkningar

Problemet med modifierbara arealenheter ( MAUP ) är en källa till statistisk fördom som avsevärt kan påverka resultaten av statistiska hypoteser . MAUP påverkar resultaten när punktbaserade mått på rumsliga fenomen aggregeras i distrikt, till exempel befolkningstäthet eller sjuktal . De resulterande sammanfattningsvärdena (t.ex. totaler, hastigheter, proportioner, densiteter) påverkas av både formen och skalan på aggregationsenheten.

Till exempel kan folkräkningsdata aggregeras i länsdistrikt, folkräkningstraktater, postnummerområden, polisområden eller någon annan godtycklig rumslig uppdelning. Resultaten av dataaggregering är således beroende av kartmakarens val av vilken "modifierbar arealenhet" som ska användas i sin analys. En census choropleth-karta som beräknar befolkningstäthet med hjälp av statsgränser kommer att ge radikalt andra resultat än en karta som beräknar täthet baserat på länsgränser. Dessutom kan folkräkningsdistriktens gränser också ändras över tid, vilket innebär att MAUP måste beaktas när man jämför tidigare data med nuvarande data.

Bakgrund

Frågan uppmärksammades först av Gehlke och Biehl 1934 och beskrevs senare i detalj i ett inlägg i serien Concepts and Techniques in Modern Geography (CATMOG) av Stan Openshaw (1984) och i boken av Giuseppe Arbia (1988). Speciellt, Openshaw (1984) observerade att "de areella enheterna (zonobjekt) som används i många geografiska studier är godtyckliga, modifierbara och föremål för nycker och fantasier hos den som gör, eller gjorde, aggregeringen". Problemet är särskilt uppenbart när de aggregerade data används för klusteranalys för rumslig epidemiologi , rumslig statistik eller koropletkartering , där misstolkningar lätt kan göras utan att inse det. Många vetenskapsområden, särskilt mänsklig geografi, är benägna att bortse från MAUP när man drar slutsatser från statistik baserad på aggregerade data. MAUP är nära besläktat med ämnet ekologisk felslutning och ekologisk fördom (Arbia, 1988).

Ekologisk bias orsakad av MAUP har dokumenterats som två separata effekter som vanligtvis inträffar samtidigt under analysen av aggregerad data. För det första orsakar skaleffekten variation i statistiska resultat mellan olika nivåer av aggregering (radialt avstånd). Därför beror sambandet mellan variabler på storleken på areella enheter för vilka data rapporteras. Generellt ökar korrelationen när arealenhetens storlek ökar. Zoneffekten beskriver variation i korrelationsstatistik orsakad av omgruppering av data till olika konfigurationer i samma skala (arealform).

Sedan 1930-talet har forskning funnit extra variation i statistiska resultat på grund av MAUP. Standardmetoderna för beräkning av varians inom grupp och mellan grupp tar inte hänsyn till den extra varians som ses i MAUP-studier när grupperingarna ändras. MAUP kan användas som en metod för att beräkna övre och nedre gränser samt genomsnittliga regressionsparametrar för flera uppsättningar av rumsliga grupperingar. MAUP är en kritisk felkälla i rumsliga studier, vare sig det är observationsmässigt eller experimentellt. Som sådan är enhetskonsistens, särskilt i en tidsserie tvärsnittskontext (TSCS), väsentlig. Vidare bör robusthetskontroller av enhetens känslighet för alternativ rumslig aggregering utföras rutinmässigt för att mildra associerade biaser på resulterande statistiska uppskattningar.

Föreslagna lösningar

Flera förslag har gjorts i litteraturen för att minska aggregeringsbias under regressionsanalys . En forskare kan korrigera varians-kovariansmatrisen med hjälp av prover från data på individnivå. Alternativt kan man fokusera på lokal rumslig regression snarare än global regression. En forskare kan också försöka designa areella enheter för att maximera ett visst statistiskt resultat. Andra har hävdat att det kan vara svårt att konstruera en enda uppsättning optimala aggregeringsenheter för flera variabler, som var och en kan uppvisa icke-stationaritet och rumslig autokorrelation över rymden på olika sätt. Andra har föreslagit att man utvecklar statistik som förändras över skalor på ett förutsägbart sätt, kanske använder fraktal dimension som ett skaloberoende mått på rumsliga relationer. Andra har föreslagit Bayesianska hierarkiska modeller som en allmän metod för att kombinera aggregerade och individuella data för ekologisk slutledning.

Studier av MAUP baserade på empiriska data kan endast ge begränsad insikt på grund av en oförmåga att kontrollera relationer mellan flera rumsliga variabler. Datasimulering är nödvändig för att ha kontroll över olika egenskaper hos data på individnivå. Simuleringsstudier har visat att det rumsliga stödet av variabler kan påverka omfattningen av ekologisk fördom som orsakas av aggregering av rumslig data.

MAUP känslighetsanalys

Med hjälp av simuleringar för univariat data, förespråkade Larsen användningen av en Variance Ratio för att undersöka effekten av rumslig konfiguration, rumslig association och dataaggregering. En detaljerad beskrivning av variationen av statistik på grund av MAUP presenteras av Reynolds, som visar vikten av det rumsliga arrangemanget och den rumsliga autokorrelationen av datavärden. Reynolds simuleringsexperiment utökades av Swift, där en serie om nio övningar började med simulerad regressionsanalys och rumslig trend, och sedan fokuserade på ämnet MAUP i samband med rumslig epidemiologi. En metod för MAUP-känslighetsanalys presenteras som visar att MAUP inte är ett helt problem. MAUP kan användas som ett analytiskt verktyg för att förstå rumslig heterogenitet och rumslig autokorrelation .

Detta ämne är särskilt viktigt eftersom dataaggregering i vissa fall kan skymma en stark korrelation mellan variabler, vilket gör att sambandet verkar svagt eller till och med negativt. Omvänt kan MAUP göra att slumpvariabler ser ut som om det finns en signifikant association där det inte finns det. Multivariata regressionsparametrar är mer känsliga för MAUP än korrelationskoefficienter. Tills en mer analytisk lösning till MAUP upptäcks, rekommenderas rumslig känslighetsanalys med användning av en mängd olika arealenheter som en metod för att uppskatta osäkerheten för korrelation och regressionskoefficienter på grund av ekologisk bias. Ett exempel på datasimulering och återaggregering med hjälp av ArcPy-biblioteket finns tillgängligt.

I transportplanering är MAUP kopplat till Traffic Analysis Zoning (TAZ). En viktig utgångspunkt för att förstå problem inom transportanalys är insikten att rumslig analys har vissa begränsningar förknippade med diskretisering av rymden. Bland dem är modifierbara areaenheter och gränsproblem direkt eller indirekt relaterade till transportplanering och analys genom utformning av trafikanalyszoner – de flesta transportstudier kräver direkt eller indirekt definition av TAZ. Den modifierbara gränsen och skalafrågorna bör alla ägnas särskild uppmärksamhet under specifikationen av en TAZ på grund av effekterna som dessa faktorer utövar på statistiska och matematiska egenskaper hos rumsliga mönster (dvs. problemet med modifierbara arealenheter – MAUP). I studierna av Viegas, Martinez och Silva (2009, 2009b) föreslår författarna en metod där resultaten från studien av rumsliga data inte är oberoende av skalan, och aggregeringseffekterna är implicita i valet av zongränser. Avgränsningen av zongränser för TAZ har en direkt inverkan på verkligheten och noggrannheten hos resultaten som erhålls från transportprognosmodeller. I detta dokument mäts och analyseras MAUP-effekterna på TAZ-definitionen och modellerna för transportbehov med hjälp av olika rutnät (i storlek och ursprungsplats). Denna analys utvecklades genom att bygga en applikation integrerad i kommersiell GIS-mjukvara och genom att använda en fallstudie (Lissabon Metropolitan Area) för att testa dess implementeringsförmåga och prestanda. Resultaten avslöjar konflikten mellan statistisk och geografisk precision, och deras samband med förlusten av information i trafiktilldelningssteget i transportplaneringsmodellerna.

Se även

Allmänna ämnen

Specifika tillämpningar

Källor

  • Arbia, Giuseppe (1988). Rumslig datakonfiguration i då statistisk analys av regionala ekonomiska och relaterade problem . Dordrecht: Kluwer Academic Publishers.
  • CC BY icon.svg Den här artikeln innehåller citat från problem med modifierbara arealer på GIS Wiki, som är tillgänglig under licensen Creative Commons Attribution 3.0 Unported (CC BY 3.0).
  •   Gehlke, CE; Biehl, Katherine (mars 1934). "Vissa effekter av gruppering på storleken på korrelationskoefficienten i folkräkningsmaterial". Journal of the American Statistical Association . 29 (185A): 169–170. doi : 10.2307/2277827 . JSTOR 2277827 .
  •    Openshaw, Stan (1984). Problemet med modifierbar arealenhet . Norwick: Geoböcker. ISBN 0860941345 . OCLC 12052482 .
  • Unwin, DJ (1996). "GIS, rumslig analys och rumslig statistik." Framsteg i mänsklig geografi. 20 : 540–551.
  • Cressie, N. (1996). "Ändring av support och problemet med modifierbara arealenheter." "Geografiska system", 3:159–180.
  • Viegas, J., EA Silva, L. Martinez (2009a). "Effekter av problemet med modifierbara områdesenheter på avgränsningen av trafikanalyszoner" "Miljö och planering B - Planering och design", 36(4): 625–643.
  • Viegas, J., EA Silva, L. Martinez (2009a). "En trafikanalyszondefinition: en ny metod och algoritm" "Transport". 36 (5): 6", 36 (5): 6 .

Vidare läsning