Integrering av webbdata
Web data integration (WDI) är processen att aggregera och hantera data från olika webbplatser till ett enda, homogent arbetsflöde. Denna process inkluderar dataåtkomst, transformation, kartläggning, kvalitetssäkring och sammanslagning av data. Data som hämtas och struktureras från webbplatser kallas "webbdata". WDI är en förlängning och specialisering av dataintegration som ser webben som en samling heterogena databaser.
Dataintegrationstekniker i webbsammanhang utgör grunden för att företag kan dra nytta av data som finns på det ständigt ökande antalet offentligt tillgängliga webbplatser. Företagens utgifter på detta område uppgick till cirka 2,5 miljarder USD 2017, och det förväntas att marknaden år 2020 kommer att nå nästan 7 miljarder USD.
Källor
Webbdataintegration utökar och specialiserar dataintegration för att se webben som en samling vyer av databaser som är tillgängliga via webbprotokollen, inklusive men inte begränsat till:
- Öppna datakataloger
- Regeringens datakataloger
- Webbapplikationer och webbplatser
- UI ( web scraping )
- API
- Den semantiska webben (SPARQL)
- HTML-inbäddad strukturerad data
- HTML-datatabeller
- Kalkylblad
- PDF-filer
- Online uppslagsverk
Dataåtkomst och transformation
WDI har tekniska utmaningar som skiljer sig från dataintegration på grund av att dataåtkomst och transformation som krävs för webbdatakällorna ofta är ostrukturerad eller semistrukturerad data utan en standardfrågemekanism.
Datakvalitet
Att förstå kvaliteten och sanningshalten hos data är ännu viktigare i WDI än vid dataintegration, eftersom data generellt sett är mindre implicit pålitlig och av lägre kvalitet än den som samlas in från en pålitlig källa. Det finns försök att försöka automatisera en förtroendeklassificering för webbdata.
Datakvalitet i dataintegration kan i allmänhet ske efter dataåtkomst och transformation, men i WDI kan kvalitet behöva övervakas när data samlas in, på grund av både tiden och kostnaden för att återinsamla data.
Ansökningar
WDI har applikationer inom många områden, inklusive bioinformatik, sökmotorer, prisjämförelser och kriminalteknisk sökdataanalys, business intelligence, e-handel, hälsovård, läkemedel och produktutveckling.
De flesta prisjämförelsemotorer och rekommendationssystem använder användargenererad data för att skapa rekommendationer för sina användare. På samma sätt använder hälso- och sjukvårdssystem resultat från tävlingar som genomförs på webbplatser som Kaggle för att se riktigheten av data och för att skapa användarfokuserade produkter. Faktum är att IBM uppskattar att dålig kvalitet WDI kostar företag över 3 biljoner dollar i intäkter varje år.