Toponymupplösning
I geografiska informationssystem är toponymupplösning relationsprocessen mellan en toponym , dvs omnämnandet av en plats, och ett entydigt rumsligt fotavtryck av samma plats .
De platser som nämns i digitaliserade textsamlingar utgör en rik datakälla för forskare inom många discipliner. Toponymer i språkanvändning är dock tvetydiga och svåra att tilldela en definitiv referent i verkligheten . Med tiden kan etablerade geografiska namn ändras (som i "Byzantium" > "Konstantinopel" > "Istanbul"); eller så kan de återanvändas ordagrant (("Boston" i England, Storbritannien vs. "Boston" i Massachusetts, USA), eller med modifieringar (som i "York" vs. "New York"). För att kartlägga en uppsättning platsnamn eller toponymer som förekommer i ett dokument till deras motsvarande latitud / longitudkoordinater , en polygon eller något annat rumsligt fotavtryck, är ett disambigueringssteg nödvändigt. En toponymupplösningsalgoritm är en automatisk metod som utför en mappning från en toponym till ett rumsligt fotavtryck.
Vissa metoder för toponymupplösning använder en tidskrift över möjliga mappningar mellan namn och rumsliga fotspår.
Upplösningsprocessen
Det "entydiga rumsliga fotavtrycket från samma plats" av definitionen kan i själva verket vara entydigt, eller "inte så entydigt". Det finns några olika sammanhang av osäkerhet där lösningsprocessen kan inträffa:
- När bevisen är geografiska och utan osäkerhet. Till exempel för att få landsnamnet på en fotoplats, när platsen är en GPS-position (10 meters fel), på 1000 km långt från landsgränserna.
- När bevisen är geografiska, men med stor osäkerhet. Föreställ dig ett liknande scenario där GPS-felet är 100 meter och platsen ligger nära, ~100 meter, av landsgränserna.
- När bevisen bara är textmässiga. Föreställ dig ett brev där berättaren är en turist som berättar om sin resa efter att han kommit tillbaka från semestern. De enda bevisen är textuella, i berättelsen.
- Blandade beviskällor: mer än ett bevis, ingen exakt.
Från geografiska bevis
Toponymupplösningen är ibland en enkel konvertering från namn till förkortning, speciellt när förkortningen används som standard geokod . Till exempel konvertera det officiella landsnamnet Afghanistan till en ISO-landskod , AF
.
Vid annotering av media och metadata är omvandlingen med hjälp av en karta och de geografiska bevisen (t.ex. GPS), den vanligaste metoden för att få toponym, eller en geokod som representerar toponymen.
Från textbevis
I motsats till geokodning av postadresser, som vanligtvis lagras i strukturerade databasposter , tillämpas toponymupplösning vanligtvis på stora ostrukturerade textdokumentsamlingar för att associera de platser som nämns i dem med kartor. Om några av dessa textdokument är geotaggade --- t.ex. för att de är mikroblogginlägg med latitud och longitud automatiskt tillagda --- kan de användas för att sluta sig till den varierande geografiska specificiteten hos godtyckliga termer, t.ex. "linbana" eller "hög" tidvattnet".
Processen att kommentera media (t.ex. bild, text, video) med hjälp av rumsliga fotspår kallas geotaggning . För att automatiskt geotagga ett textdokument, utförs vanligtvis följande steg: toponymigenkänning (dvs. hitta textreferenser till geografiska platser) och toponymupplösning (dvs. välja en lämplig platstolkning för varje geografisk referens).
Toponymigenkänning kan betraktas som ett specialfall av namngiven enhetsigenkänning där syftet är att bara härleda lokaliseringsenheter. Men resultatet av namngivna enheter kan förbättras ytterligare med hjälp av handgjorda regler eller statistiska regler.
För att erhålla platstolkningar tenderar upplösningsmodeller att utnyttja gazetteers (dvs enorma databaser med platser) som GeoNames och OpenStreetMap . En naiv metod för att lösa toponymer är att välja den mest befolkade tolkningen från listan över kandidater. Till exempel i följande utdrag:
Toronto man som bor och arbetar i London "osäker på framtiden" i Storbritannien efter Brexit
— CBC
Det naiva tillvägagångssättet verkar lönsamt eftersom toponymer Toronto och London hänvisar till deras vanligaste tolkning, lokaliserade i Kanada respektive Storbritannien, medan i följande stycke från en nyhetsartikel:
Höghastighetståg mellan Toronto och London 2025
— CBC
Detta tillvägagångssätt misslyckas med att peka ut toponymen London som staden som ligger i Ontario, Kanada . Att välja den högsta populationen kan därför inte fungera bra för toponymer i ett lokalt sammanhang.
Dessutom tar toponymupplösning inte upp metonymi i allmänhet. Icke desto mindre kan en upplösningsteknik fortfarande disambiguera en metonymireferens så länge den identifieras som en toponym i igenkänningsfasen. Till exempel i följande utdrag:
Kanada justerar också sina körlagar för att ta hänsyn till cannabis DUI.
— Esquire
Kanada anger en metonymi och hänvisar till "Kanadas regering". Den kan dock identifieras som en plats av en generisk namngiven enhetsidentifierare och således kan en toponymupplösare disambiguera den.
Närmar sig
Toponymupplösningsmetoder kan generellt delas in i övervakade och oövervakade modeller. Övervakade metoder betraktar vanligtvis problemet som en inlärningsuppgift där modellen först extraherar kontextuella och icke-kontextuella egenskaper och sedan tränas en klassificerare på en märkt datauppsättning. Adaptiv modell är en av de framträdande modellerna som föreslås för att lösa toponymer. För varje tolkning av en toponym härleder modellen kontextkänsliga drag baserade på geografisk närhet och syskonrelationer med andra tolkningar. Förutom sammanhangsrelaterade funktioner drar modellen nytta av sammanhangsfria funktioner inklusive befolkning och publikplats. Å andra sidan, oövervakade modeller garanterar inte kommenterade data. De är överlägsna övervakade modeller när den kommenterade korpusen inte är tillräckligt stor, och övervakade modeller kanske inte generaliserar bra.
Oövervakade modeller tenderar att bättre utnyttja samspelet mellan toponymer som nämns i ett dokument. Context-Hierarchy Fusion-modellen uppskattar den geografiska omfattningen av dokument och utnyttjar kopplingarna mellan närliggande ortnamn som bevis för att lösa toponymer. Genom att kartlägga problemet till ett konfliktfritt uppsättningsskyddsproblem , uppnår denna modell en sammanhängande och robust lösning.
Dessutom har antagandet av Wikipedia och kunskapsbaser visat sig vara effektivt i toponymupplösning. TopoCluster modellerar ordens geografiska betydelser genom att införliva Wikipedia-sidor med platser och disambiguerar toponymer med hjälp av de rumsliga betydelserna av orden i texten.
Geoparsing
Geoparsing är en speciell toponymupplösningsprocess för att konvertera fritextbeskrivningar av platser (som "tjugo mil nordost om Jalalabad") till entydiga geografiska identifierare, såsom geografiska koordinater uttryckta som latitud - longitud . Man kan också geoparsa platsreferenser från andra former av media, till exempel ljudinnehåll där en talare nämner en plats. Med geografiska koordinater kan funktionerna kartläggas och läggas in i geografiska informationssystem . Två primära användningsområden för de geografiska koordinaterna som härrör från ostrukturerat innehåll är att plotta delar av innehållet på kartor och att söka i innehållet med hjälp av en karta som filter.
Geoparsing går längre än geokodning . Geokodning analyserar entydiga strukturerade platsreferenser, såsom postadresser och rigoröst formaterade numeriska koordinater. Geoparsing hanterar tvetydiga referenser i ostrukturerad diskurs, som "Al Hamra", som är namnet på flera platser, inklusive städer i både Syrien och Jemen.
En geoparser är en mjukvara eller en (webb)tjänst som hjälper till i denna process. Några exempel:
- GEOLocate automatiserad georeferensing
- BioGeomancer – Halvautomatisk georeferens
- GEOnet Names Server – Gratis tillgänglig GIS-information för områden utanför USA och Antarktis, uppdaterad månadsvis av National Geospatial-Intelligence Agency (NGA) och US Board on Geographic Names (US BGN)
- Geographic Names Information System (GNIS) – fritt tillgänglig databas som innehåller information om nästan 2 miljoner fysiska funktioner, platser och landmärken i USA
- CLAVIN – CLAVIN (Cartographic Location And Vicinity INdexer) är ett mjukvarupaket med öppen källkod för dokumentgeotaggning och geoparsing som använder kontextbaserad geografisk enhetsupplösning.
- Geoparser.io – Geoparser.io är en webbtjänst som identifierar platser som nämns i text, disambiguerar dessa platser och returnerar GeoJSON med detaljerad metadata om platserna som finns i texten.
- Geocode.xyz – Geocode.xyz är en webbtjänst som identifierar både ortnamn och gatuadresser som nämns i text.
- geoparsepy – geoparsepy är ett gratis Python geoparsing-bibliotek som stöder fritextidentifiering och disambiguering med hjälp av OpenStreetMap-databasen
- Tagbox.ai – Tagbox är en geoparser API-tjänst