Filformat (GIS)

Ett GIS-filformat är en standard för att koda geografisk information till en datorfil , som en specialiserad typ av filformat för användning i geografiska informationssystem (GIS) och andra geospatiala applikationer. Sedan 1970-talet har dussintals format skapats utifrån olika datamodeller för olika ändamål. De har skapats av statliga kartläggningsbyråer (som USGS eller National Geospatial-Intelligence Agency ), GIS-programvaruleverantörer, standardiseringsorgan som Open Geospatial Consortium , informella användargemenskaper och till och med enskilda utvecklare.

Historia

De första GIS-installationerna på 1960-talet, såsom Canada Geographic Information System, baserades på skräddarsydd programvara och lagrade data i skräddarsydda filstrukturer utformade för det specifika projektets behov. När fler av dessa dök upp kunde de jämföras för att hitta bästa praxis och gemensamma strukturer. När GIS-programvara för allmänt bruk utvecklades på 1970-talet och början av 1980-talet, inklusive program från akademiska laboratorier som Harvard Laboratory for Computer Graphics and Spatial Analysis, statliga myndigheter (t.ex. Map Overlay and Statistical System (MOSS) utvecklat av USA Fish & Wildlife Service och Bureau of Land Management ), och nya GIS-programvaruföretag som Esri och Intergraph , var varje program byggt kring sitt eget proprietära (och ofta hemliga) filformat. Eftersom varje GIS-installation effektivt var isolerad från alla andra, var utbyte mellan dem inte en viktig faktor.

I början av 1990-talet ledde spridningen av GIS över hela världen och ett ökande behov av att dela data, snabbt accelererat av uppkomsten av World Wide Web och rumsliga datainfrastrukturer , till behovet av interoperabla data och standardformat. Ett tidigt försök till standardisering var US Spatial Data Transfer Standard , som släpptes 1994 och utformades för att koda en mängd olika federala myndigheters data. Även om just detta format misslyckades med att få brett stöd, ledde det till andra standardiseringsinsatser, särskilt Open Geospatial Consortium (OGC), som har utvecklat eller antagit flera leverantörsneutrala standarder, av vilka några har antagits av International Standards Organization (ISO) ).

En annan utveckling på 1990-talet var den offentliga utgivningen av proprietära filformat av GIS-programvaruleverantörer, vilket gjorde att de kunde användas av annan programvara. Det mest anmärkningsvärda exemplet på detta var publiceringen av Esri Shapefile -formatet, som i slutet av 1990-talet hade blivit den mest populära de facto -standarden för datadelning av hela den geospatiala industrin. När proprietära format inte delades (till exempel ESRI ARC/INFO-täckningen), omvandlade mjukvaruutvecklare dem ofta för att möjliggöra import och export i annan programvara, vilket ytterligare underlättade datautbytet. Ett resultat av detta var framväxten av fria och öppna programvarubibliotek , såsom Geospatial Data Abstraction Library (GDAL), som avsevärt har underlättat integrationen av rumslig data i alla format i en mängd olika programvaror.

Under 2000-talet minskade behovet av specialiserade rumsliga filer något genom uppkomsten av rumsliga databaser , som inkorporerade rumslig data i relationsdatabaser för allmänna ändamål. Men nya filformat har fortsatt att dyka upp, särskilt med spridningen av webbkartläggning; format som Keyhole Markup Language (KML) och GeoJSON kan enklare integreras i webbutvecklingsspråk än traditionella GIS-filer.

Formategenskaper

Över hundra distinkta format har skapats för lagring av rumslig data, av vilka 20-30 för närvarande används för olika ändamål. Dessa kan särskiljas på ett antal sätt:

Öppna format utvecklas kollektivt av en gemenskap och är tillgängliga för alla att implementera och bidra med förbättringar, medan proprietära format har utvecklats av ett mjukvaruföretag för användning endast i deras egen programvara och i allmänhet upprätthålls som en affärshemlighet (även om de ofta är omvända -konstruerad av andra). En tredje kategori mellan dessa skulle inkludera format som uteslutande ägs av ett företag eller en organisation, men som är publicerade och tillgängliga för implementering av vem som helst, till exempel Esri Shapefile .
Vissa filformat är textfiler som kan läsas av människor (som de som är baserade på XML eller JSON ), särskilt de som är avsedda för datautbyte, medan andra är binära filer , oftast de som är designade för inbyggt bruk i GIS-programvara.
Rumsliga format utformades specifikt för att lagra geografiska data, medan andra är rumsliga tillägg till format utformade för mer allmän användning (t.ex. GeoTIFF , rumsliga databaser ).
Många dataformat innehåller någon form av datakomprimering , särskilt rasterfiler. I allmänhet är förlustfria komprimeringsmetoder att föredra framför förlustmetoder , eftersom de ursprungliga datavärdena måste hämtas.

Rasterformat

Digital höjdmodell, karta (bild) och vektordata

Precis som alla digitala bilder är raster-GIS-data baserad på en regelbunden tessellation av rymden i ett rektangulärt rutnät av rader och kolumner av celler (även känd som pixlar ), där varje cell har ett uppmätt värde lagrat. Den stora skillnaden från ett fotografi är att rutnätet är registrerat till geografiskt utrymme snarare än ett synfält. Upplösningen för rasterdatauppsättningen är dess cellbredd i markenheter .

Eftersom ett rutnät är ett urval av ett kontinuerligt utrymme, används rasterdata oftast för att representera geografiska fält , där en egenskap varierar kontinuerligt eller diskret över rymden. Vanliga exempel inkluderar fjärranalysbilder , terräng/höjder , befolkningstäthet , väder och klimat , markegenskaper och många andra. Rasterdata kan vara bilder där varje pixel (eller cell) innehåller ett färgvärde. Värdet som registreras för varje cell kan vara av vilken mätningsnivå som helst, inklusive ett diskret kvalitativt värde, såsom markanvändningstyp, eller ett kontinuerligt kvantitativt värde, såsom temperatur, eller ett nollvärde om ingen data är tillgänglig. Medan en rastercell lagrar ett enstaka värde kan det utökas genom att använda rasterband för att representera RGB (röd, grön, blå) färger, färgkartor (en mappning mellan en tematisk kod och RGB-värde) eller en utökad attributtabell med en rad för varje unikt cellvärde. Det kan också användas för att representera diskreta geografiska särdrag , men vanligtvis bara under tuffa omständigheter.

Rasterdata lagras i olika format; från en standardfilbaserad struktur av TIFF, JPEG, etc. till binära stora objekt (BLOB) data lagrade direkt i ett relationsdatabashanteringssystem (RDBMS) liknande andra vektorbaserade funktionsklasser. Databaslagring, när den är korrekt indexerad, tillåter vanligtvis snabbare hämtning av rasterdata men kan kräva lagring av miljontals poster av betydande storlek.

Exempel på rasterformat

ADRG – National Geospatial-Intelligence Agency (NGA):s ARC Digitaliserad Raster Graphics
Binär fil – En oformaterad fil som består av rasterdata skrivna i en av flera datatyper , där flera band lagras i BSQ (band sekventiell), BIP (band interfolierat av pixel) eller BIL (band interfolierat av linje). Georeferencing och annan metadata lagras i en eller flera sidvagnsfiler .
Digital rastergrafik (DRG) – digital skanning av en USGS topografisk karta på papper
ECRG – National Geospatial-Intelligence Agency (NGA)'s Enhanced Compressed ARC Raster Graphics (bättre upplösning än CADRG och ingen färgförlust)
ECW – Enhanced Compressed Wavelet (från ERDAS). Ett komprimerat wavelet-format, ofta förlorat.
Esri grid – proprietärt binärt rasterformat som använts av Esri sedan mitten av 1980-talet
GeoTIFF – TIFF -variant berikad med GIS-relevant metadata, särskilt georeferensing . Ett öppet format som har blivit ett av de vanligaste formaten för datadelning.
IMG – ERDAS IMAGINE bildfilformat
JPEG2000 – Rasterformat med öppen källkod. Ett komprimerat format, tillåter både förlustfri och förlustfri komprimering.
MrSID – Multi-Resolution Seamless Image Database (av Lizardtech). Ett komprimerat wavelet-format, tillåter både förlustfri och förlustfri komprimering.
netCDF -CF – netCDF-filformat med CF-medadatakonventioner för geovetenskapliga data. Binär lagring i öppet format med valfri komprimering. Tillåter direkt webbåtkomst av delmängder/aggregationer av kartor genom OPeNDAP -protokoll.
RPF – Raster Product Format, militärt filformat specificerat i MIL-STD-2411
- CADRG – Komprimerad ADRG, utvecklad av NGA , nominell komprimering av 55:1 över ADRG (typ av rasterproduktformat)
- CIB – Controlled Image Base, utvecklad av NGA (typ av Raster Product Format)
USGS DEM – USGS Digital Elevation Model
- GTOPO30 – Stor komplett jordhöjdsmodell på 30 bågsekunder, levererad i USGS DEM-format
DTED – National Geospatial-Intelligence Agency (NGA):s Digital Terrain Elevation Data, den militära standarden för höjddata
Världsfil – Georeferering av en rasterbildsfil (t.ex. JPEG, BMP)

Vektorformat

En enkel vektorkarta med vart och ett av vektorelementen: punkter för brunnar, linjer för floder och en polygon för sjön

En vektordatauppsättning (kallas ibland en funktionsdatauppsättning ) lagrar information om diskreta objekt, med hjälp av en kodning av den vektorlogiska datamodellen för att representera platsen eller geometrin för varje objekt, och en kodning av dess andra egenskaper som vanligtvis är baserad på relationsdatabasteknologi . Vanligtvis samlar en enskild datauppsättning information om en uppsättning närbesläktade eller liknande objekt, till exempel alla vägar i en stad.

Vektordatamodellen använder koordinatgeometri för att representera varje form som en av flera geometriska primitiver , oftast punkter (en enda koordinat med nolldimension ) , linjer (en endimensionell ordnad lista med koordinater sammankopplade med räta linjer) och polygoner (en självstängande gränslinje som omsluter ett tvådimensionellt område). Många datastrukturer har utvecklats för att koda dessa primitiver som digitala data, men de flesta moderna vektorfilformat är baserade på Open Geospatial Consortium (OGC) Simple Features- specifikationen, som ofta direkt innehåller dess välkända text (WKT) eller välkända binära (WKB)-kodningar.

Förutom geometrin för varje objekt måste en vektordatauppsättning också kunna lagra dess attribut . Till exempel kan en databas som beskriver sjöar innehålla varje sjös djup, vattenkvalitet och föroreningsnivå. Sedan 1970-talet har nästan alla vektorfilformat antagit relationsdatabasmodellen, antingen i princip eller direkt med RDBMS- programvara. Således lagras hela datamängden i en tabell , där varje rad representerar ett enda objekt som innehåller kolumner för varje attribut.

Två strategier har använts för att integrera geometrin och attributen i en enda vektorfilformatstruktur:

Ett georelationellt format lagrar dem som två separata filer, där geometrin och attributen för varje objekt länkas genom filordning eller en primärnyckel . Detta var vanligast från 1970-talet till början av 1990-talet, eftersom GIS-programutvecklare var tvungna att uppfinna sina egna geometridatastrukturer, men införlivade befintliga relationsdatabasfilformat för attributen. Till exempel Esri Shapefile- formatet .dbf-filen från DOS dBase- programvaran.
Den objektbaserade modellen lagrar dem i en enda struktur, löst eller direkt baserat på objekten i objektorienterade programmeringsspråk . Detta är grunden för de flesta moderna filformat, inklusive rumsliga databaser som inkluderar en geometrikolumn tillsammans med de andra attributen i en enda relationstabell. Andra format, som GeoJSON , använder olika strukturer för geometri och attribut, men kombinerar dem för varje objekt i samma fil.

Geospatial topologi är ofta en viktig del av vektordata, som representerar de inneboende rumsliga förhållandena (särskilt närliggande) mellan objekt. Topologi har hanterats i vektorfilformat på fyra sätt. I en topologisk datastruktur , framför allt Harvards POLYVRT och är efterföljaren ARC/INFO -täckningen, är topologiska kopplingar mellan punkter, linjer och polygoner en inneboende del av kodningen av dessa funktioner. Omvänt innehåller icke-topologiska data eller spagettidata (som Esri Shapefile och de flesta rumsliga databaser ) ingen topologiinformation, där varje geometri är helt oberoende av alla andra. En topologidatauppsättning (används ofta i nätverksanalys ) utökar spagettidata med en separat fil som kodar de topologiska anslutningarna. En topologiregelbas är en lista över önskade topologiregler som används för att framtvinga rumslig integritet i spagettidata, såsom "länspolygoner får inte överlappa" och "tillståndspolygoner måste dela gränser med länspolygoner."

Vektordatauppsättningar representerar vanligtvis diskreta geografiska egenskaper , såsom människor, byggnader, träd och län. De kan emellertid också användas för att representera geografiska fält genom att lagra platser där det rumsligt kontinuerliga fältet har tagits prov. Provpunkter (t.ex. väderstationer och sensornätverk ), konturlinjer och triangulerade oregelbundna nätverk (TIN) används för att representera höjd eller andra värden som ändras kontinuerligt över rymden. TIN:er registrerar värden på punktplatser, som är sammankopplade med linjer för att bilda ett oregelbundet nät av trianglar. Trianglarnas yta representerar terrängytan.

Exempel på vektorfilformat

Format som är vanliga i nuvarande användning:

Shapefile – ett populärt vektordata-GIS-format, utvecklat av Esri
Geography Markup Language (GML) – XML-baserad öppen standard (av OpenGIS ) för GIS-datautbyte
GeoJSON – ett lättviktsformat baserat på JSON , som används av många GIS-paket med öppen källkod
GeoMedia – Intergraphs Microsoft Access- baserade format för rumslig vektorlagring
Keyhole Markup Language (KML) – XML-baserad öppen standard (av OpenGIS ) för GIS-datautbyte
MapInfo TAB-format – MapInfos vektordataformat med TAB-, DAT-, ID- och MAP-filer
Measure Map Pro-format – XML -dataformat för att lagra GIS-data
National Transfer Format (NTF) – National Transfer Format (används mest av UK Ordnance Survey)
Spatialite – en rumslig tillägg till SQLite , som tillhandahåller vektorgeodatabasfunktionalitet. Det liknar PostGIS , Oracle Spatial och SQL Server med rumsliga tillägg
Enkla funktioner – Öppna Geospatial Consortium- specifikation för vektordata
- Välkänt text (WKT) – Ett textmarkeringsspråk för att representera funktionsgeometri, utvecklat av Open Geospatial Consortium
- Välkänt binär (WKB) – Binär version av välkänd text, som används i många rumsliga databaser
SOSI – ett rumslig dataformat som används för allt offentligt utbyte av rumslig data i Norge
AutoCAD DXF – dataöverföringsformat för AutoCAD- data (av Autodesk )
Geografiska datafiler (GDF) — Ett utbytesfilformat för geografiska data

Historiska format används sällan idag:

ArcInfo Coverage - topologisk datastruktur använd i Arc/INFO från 1981 till 2000
Esri TIN – proprietärt binärt format för triangulerade oregelbundna nätverksdata som används av Esri
Digital line graph (DLG) – ett USGS-format för vektordata
TIGER – Topologiskt integrerad geografisk kodning och referens
Vector Product Format (VPF) – National Geospatial-Intelligence Agency (NGA) format för vektordata för stora geografiska databaser
Spatial Data File – Autodesks högpresterande geodatabasformat, inbyggt i MapGuide
ISFC – Intergraphs MicroStation - baserade CAD-lösning som kopplar vektorelement till en relationell Microsoft Access- databas
Dual Independent Map Encoding (DIME) – Ett historiskt GIS-filformat, utvecklat på 1960-talet

Fördelar och nackdelar

Det finns några viktiga fördelar och nackdelar med att använda en raster- eller vektordatamodell för att representera verkligheten:

Rasterdatauppsättningar registrerar ett värde för alla punkter i det täckta området som kan kräva mer lagringsutrymme än att representera data i ett vektorformat som bara kan lagra data där det behövs.
Rasterdata är beräkningsmässigt billigare att rendera än vektorgrafik
Att kombinera värden och skriva anpassade formler för att kombinera värden från olika lager är mycket enklare med rasterdata.
Det finns problem med transparens och alias när du lägger över flera staplade bitar av rasterbilder.
Vektordata möjliggör visuellt smidig och enkel implementering av överlagringsoperationer, särskilt när det gäller grafik och formdriven information som kartor, rutter och anpassade typsnitt, som är svårare med rasterdata.
Vektordata kan visas som vektorgrafik som används på traditionella kartor, medan rasterdata visas som en bild som kan ha ett blockigt utseende för objektgränser. (beroende på rasterfilens upplösning).
Vektordata kan vara lättare att registrera, skala och omprojektera, vilket kan förenkla att kombinera vektorlager från olika källor.
Vektordata är mer kompatibla med relationsdatabasmiljöer, där de kan ingå i en relationstabell som en normal kolumn och bearbetas med en mängd operatorer.
Vektorfilstorlekar är vanligtvis mindre än rasterdata, som kan vara tiotals, hundratals eller fler gånger större än vektordata (beroende på upplösning).
Vektordata är enklare att uppdatera och underhålla, medan en rasterbild måste reproduceras helt. (Exempel: en ny väg läggs till).
Vektordata tillåter mycket mer analysförmåga, särskilt för "nätverk" som vägar, el, järnväg, telekommunikation, etc. (Exempel: Bästa rutt, största hamn, flygfält anslutna till tvåfiliga motorvägar). Rasterdata kommer inte att ha alla egenskaperna hos de funktioner den visar.

Integrerade filformat

Moderna objektrelationsdatabaser kan nu lagra en mängd komplexa data med hjälp av den binära datatypen för stora objekt, inklusive både rasternät och vektorgeometrier. Detta gör det möjligt för vissa rumsliga databassystem att lagra data från båda modellerna i samma databas.

Esri File Geodatabase - Ett proprietärt format för att lagra "funktion" (vektor) och rasterdata lokalt
Esri Enterprise Geodatabase - En egenutvecklad modell för att lagra en geodatabasstruktur i en mängd olika kommersiella och öppen källkodshanteringssystem för relationsdatabas
GeoPackage (GPKG) – Ett standardbaserat öppet format baserat på SQLite-databasformatet för både vektor- och rasterdata, antaget av Open Geospatial Consortium

Se även

Datum (geodesi)
GDAL/OGR , ett bibliotek för att läsa och skriva många format
Feature Manipulation Engine (FME), ett kommersiellt program för att konvertera data mellan ett stort antal format