OpenRefine

OpenRefine
Utvecklare Freebase , sedan Google , nu öppen källkodsgemenskap
Initial release 10 november 2010 ; 12 år sedan ( 2010-11-10 )
Stabil frisättning
Edit this on Wikidata 3.7.0 / 15 februari 2023 ; 16 dagar sedan ( 15 februari 2023 )
Förvar
Skrivet i Java
Plattform Microsoft Windows , Linux , macOS
Tillgänglig i engelska, italienska, kinesiska, japanska, franska, tyska
Typ
Licens BSD-licens
Hemsida openrefine .org  Edit this on Wikidata

OpenRefine är ett skrivbordsprogram med öppen källkod för datarensning och omvandling till andra format, en aktivitet som vanligtvis kallas datatvistelse . Det liknar kalkylbladsapplikationer och kan hantera kalkylbladsfilformat som CSV, men det beter sig mer som en databas.

Det fungerar på rader av data som har celler under kolumner, liknande det sätt på vilket relationsdatabastabeller fungerar. OpenRefine-projekt består av en tabell, vars rader kan filtreras med hjälp av fasetter som definierar kriterier (till exempel visar rader där en given kolumn inte är tom).

Till skillnad från kalkylblad görs de flesta operationer i OpenRefine på alla synliga rader, till exempel transformering av alla celler i alla rader under en kolumn, eller skapandet av en ny kolumn baserat på befintliga data. Åtgärder som utförs på en datauppsättning lagras i projektet och kan "spelas upp" på andra datauppsättningar. Formler lagras inte i celler utan används för att transformera data. Transformation görs bara en gång. Formeluttryck kan skrivas i General Refine Expression Language (GREL) , i Jython (dvs Python) och i Clojure .

Programmet fungerar som en lokal webbapp: det startar en webbserver och öppnar standardwebbläsaren till 127.0.0.1 :3333.

Används

  • Rensa smutsiga data : om du till exempel arbetar med en textfil med vissa semi-strukturerade data, kan den redigeras med hjälp av transformationer, fasetter och klustring för att göra datan rent strukturerad.
  • Transformation av data : konvertera värden till andra format, normalisera och denormalisera.
  • Analysera data från webbplatser : OpenRefine har en URL-hämtningsfunktion och jsoup HTML-parser och DOM-motor.
  • Lägga till data till dataset genom att hämta det från webbtjänster ( dvs returnera JSON ). Kan till exempel användas för att geokoda adresser till geografiska koordinater .
  • Justera till Wikidata (tidigare Freebase ): detta involverar avstämning — mappning av strängvärden i celler till entiteter i Wikidata.

Format som stöds

Import stöds från följande format:

Om indata är i ett icke-standardiserat textformat kan det importeras som hela rader, utan att delas upp i kolumner, och sedan kolumner extraheras senare med OpenRefines verktyg. Arkiverade och komprimerade filer stöds (.zip, .tar.gz, .tgz, .tar.bz2, .gz eller .bz2) och Refine kan ladda ner indatafiler från en URL . För att använda webbsidor som indata är det möjligt att importera en lista med URL:er och sedan anropa en URL-hämtningsfunktion.

Export stöds i följande format:

Hela OpenRefine-projekt i eget format kan exporteras som ett .tar.gz -arkiv.

Utveckling

OpenRefine startade livet som Freebase Gridworks, utvecklat av Metaweb och har varit tillgängligt som öppen källkod sedan januari 2010. Den 16 juli 2010 förvärvade Google Metaweb, skaparna av Freebase , och den 10 november 2010 döpte det om Freebase Gridwords till Google Refine , och släppte version 2.0. Den 2 oktober 2012 meddelade den ursprungliga författaren David Huynh att Google snart skulle stoppa sitt aktiva stöd till Google Refine. Sedan dess har kodbasen varit i övergång till ett öppen källkodsprojekt vid namn OpenRefine.

externa länkar