Forskningsdataarkivering

Forskningsdataarkivering är den långsiktiga lagringen av vetenskaplig forskningsdata , inklusive naturvetenskap, samhällsvetenskap och biovetenskap. De olika akademiska tidskrifterna har olika policy för hur mycket av deras data och metoder som forskare måste lagra i ett offentligt arkiv, och vad som faktiskt arkiveras varierar stort mellan olika discipliner. På samma sätt har de stora anslagsgivande institutionerna olika attityder till offentlig arkivering av data. I allmänhet har vetenskapstraditionen varit att publikationer innehåller tillräcklig information för att medforskare ska kunna replikera och därför testa forskningen. På senare år har detta tillvägagångssätt blivit allt mer ansträngt eftersom forskning inom vissa områden är beroende av stora datamängder som inte enkelt kan replikeras oberoende.

Dataarkivering är viktigare inom vissa områden än andra. I ett fåtal fält finns all data som behövs för att replikera arbetet redan tillgänglig i tidskriftsartikeln. Vid läkemedelsutveckling genereras en hel del data och måste arkiveras så att forskare kan verifiera att de rapporter som läkemedelsföretagen publicerar återspeglar data korrekt.

Kravet på dataarkivering är en ny utveckling i vetenskapens historia . Det möjliggjordes av framsteg inom informationsteknologin som gjorde att stora mängder data kunde lagras och nås från centrala platser. Till exempel American Geophysical Union (AGU) sin första policy för dataarkivering 1993, ungefär tre år efter början av WWW . Denna policy kräver att datauppsättningar som citeras i AGU-dokument måste arkiveras av ett erkänt datacenter; det tillåter skapandet av "datapapper"; och det fastställer AGU:s roll i att underhålla dataarkiv. Men det ställer inga krav på pappersförfattare att arkivera sina data.

Före organiserad dataarkivering måste forskare som vill utvärdera eller replikera ett dokument begära information om data och metoder från författaren. Det akademiska samfundet förväntar sig att författare delar med sig av kompletterande data . Denna process erkändes som slöseri med tid och energi och gav blandade resultat. Information kan gå förlorad eller skadas med åren. I vissa fall vägrar författare helt enkelt att ge informationen.

Behovet av dataarkivering och due diligence ökar kraftigt när forskningen handlar om hälsofrågor eller allmän policybildning.

Utvalda policyer av tidskrifter

Biotropica

Biotropica kräver, som ett villkor för publicering, att data som stödjer resultaten i uppsatsen och metadata som beskriver dem måste arkiveras i ett lämpligt offentligt arkiv såsom Dryad , Figshare , GenBank , TreeBASE eller NCBI . Författare kan välja att göra informationen tillgänglig för allmänheten så snart artikeln har publicerats eller, om arkivets teknik tillåter, embargo åtkomst till uppgifterna upp till tre år efter artikelns publicering. Ett uttalande som beskriver datatillgänglighet kommer att inkluderas i manuskriptet enligt beskrivningen i instruktionerna till författarna. Undantag från den erforderliga arkiveringen av data kan beviljas efter bedömning av chefredaktören för studier som inkluderar känslig information (t.ex. var hotade arter befinner sig). Vår ledare som förklarar motiven till denna policy finns här . En mer omfattande lista över dataförråd finns här . Främja en samarbetskultur med forskare som samlar in och arkiverar data: De data som samlas in av tropiska biologer är ofta långsiktiga, komplexa och dyra att samla in. Redaktionsstyrelsen för Biotropica uppmuntrar starkt författare som återanvänder dataarkiv arkiverade datamängder att inkludera som fullt engagerade medarbetare de forskare som ursprungligen samlade in dem. Vi tror att detta kommer att avsevärt förbättra kvaliteten och effekten av den resulterande forskningen genom att dra nytta av datainsamlarens djupa insikter i studiesystemets naturhistoria, minska risken för fel i nya analyser och stimulera det tvärvetenskapliga och tvärkulturella samarbete och utbildning för vilka ATBC och Biotropica är allmänt erkända.

OBS: Biotropica är en av endast två tidskrifter som betalar avgiften för författare som deponerar data hos Dryad.

Den amerikanska naturforskaren

The American Naturalist kräver att författare deponerar data som är associerade med accepterade artiklar i ett offentligt arkiv. För gensekvensdata och fylogenetiska träd krävs deponering i GenBank respektive TreeBASE . Det finns många möjliga arkiv som kan passa en viss datamängd, inklusive Dryad -förvaret för ekologiska och evolutionära biologidata. Alla anslutningsnummer för GenBank, TreeBASE och Dryad måste inkluderas i godkända manuskript innan de går till produktion. Om uppgifterna deponeras någon annanstans, vänligen ange en länk. Om uppgifterna hämtas från publicerad litteratur, vänligen deponera de samlade uppgifterna i Dryad för att underlätta för dina läsare. Eventuella hinder för datadelning bör uppmärksammas av redaktionen vid tidpunkten för inlämningen så att lämpliga arrangemang kan utarbetas.

Journal of Heredity

De primära data som ligger till grund för slutsatserna i en artikel är avgörande för verifierbarheten och transparensen av det vetenskapliga företaget, och bör bevaras i användbar form i årtionden i framtiden. Av denna anledning Journal of Heredity att nyligen rapporterade nukleotid- eller aminosyrasekvenser, och strukturella koordinater, skickas till lämpliga offentliga databaser (t.ex. GenBank; EMBL Nucleotide Sequence Database; DNA Database of Japan; Protein Data Bank ; och Swiss -Prot ). Accessnummer måste finnas med i den slutliga versionen av manuskriptet. För andra former av data (t.ex. mikrosatellitgenotyper, länkkartor, bilder) stöder tidskriften principerna för Joint Data Archiving Policy (JDAP) för att uppmuntra alla författare att arkivera primära datamängder i ett lämpligt offentligt arkiv, såsom Dryad, TreeBASE eller Knowledge Network for Biocomplexity. Författare uppmuntras att göra data allmänt tillgängliga vid tidpunkten för publicering eller, om arkivets teknik tillåter, välja att embargo åtkomst till data under en period upp till ett år efter publicering. American Genetic Association erkänner också enskilda forskares stora investering i att generera och kurera stora datamängder. Följaktligen rekommenderar vi att denna investering respekteras i sekundära analyser eller metaanalyser i en nådig samarbetsanda.

oxfordjournals.org

Molekylär ekologi

Molecular Ecology förväntar sig att data som stöder resultaten i uppsatsen ska arkiveras i ett lämpligt offentligt arkiv, såsom GenBank, Gene Expression Omnibus , TreeBASE, Dryad, Knowledge Network for Biocomplexity, din egen institutionella eller finansiär arkiv, eller som stödjande information om webbplatsen Molecular Ecology. Data är viktiga produkter från det vetenskapliga företaget, och de bör bevaras och användas i årtionden i framtiden. Författare kan välja att ha uppgifterna offentligt tillgängliga vid publiceringstillfället, eller, om arkivets teknik tillåter, välja att embargo åtkomst till uppgifterna under en period upp till ett år efter publiceringen. Undantag kan beviljas efter redaktörens gottfinnande, särskilt för känslig information som data om människor eller var hotade arter befinner sig.

Wiley

Natur

Sådant material måste finnas på en ackrediterad oberoende webbplats (URL och åtkomstnummer tillhandahålls av författaren), eller skickas till Nature- tidskriften vid inlämning, antingen laddad upp via tidskriftens onlinetjänst för inlämning, eller om filerna är för stora eller i ett olämpligt format för detta ändamål, på CD/DVD (fem exemplar). Sådant material kan inte enbart lagras på en författares personliga eller institutionella webbplats. Naturen kräver att granskaren avgör om alla kompletterande data och metoder har arkiverats. Policyn råder granskare att överväga flera frågor, inklusive: "Bör författarna uppmanas att tillhandahålla kompletterande metoder eller data för att följa uppsatsen online? (Sådana data kan innefatta källkod för modelleringsstudier, detaljerade experimentella protokoll eller matematiska härledningar.)

Vetenskap

Vetenskapen stöder arbetet med databaser som samlar publicerade data för användning av forskarsamhället. Före publicering måste därför stora datamängder (inklusive mikroarraydata, protein- eller DNA-sekvenser och atomkoordinater eller elektronmikroskopiska kartor för makromolekylära strukturer) deponeras i en godkänd databas och ett åtkomstnummer anges för inkludering i den publicerade artikeln. "Material och metoder" – Vetenskapen kräver nu att författare i allmänhet placerar huvuddelen av sin beskrivning av material och metoder online som stödmaterial, och tillhandahåller bara så mycket metodbeskrivning i det tryckta manuskriptet som är nödvändigt för att följa textens logik . (Självklart kommer denna begränsning inte att gälla om uppsatsen i grunden är en studie av en ny metod eller teknik.)

kungligt samhälle

För att andra ska kunna verifiera och bygga vidare på det arbete som publicerats i Royal Societys tidskrifter, är det ett villkor för publicering att författare tillhandahåller data, kod och forskningsmaterial som stödjer resultaten i artikeln.

Datauppsättningar och kod bör deponeras i ett lämpligt, erkänt, allmänt tillgängligt arkiv. Om det inte finns något dataspecifikt arkiv, bör författare deponera sina datauppsättningar i ett allmänt arkiv som Dryad (repository) eller Figshare .

Journal of Archaeological Science

Journal of Archaeological Science har haft en policy för dataavslöjande sedan åtminstone 2013. Deras policy säger att "all data som rör artikeln måste göras tillgänglig i kompletterande filer eller deponeras i externa arkiv och länkas till i artikeln. Policyn rekommenderar att data deponeras i ett arkiv som Archaeology Data Service , Digital Archaeological Record eller PANGEA . En studie från 2018 fann en datatillgänglighetsgrad på 53 %, vilket återspeglar antingen svag tillämpning av denna policy eller en ofullständig förståelse bland redaktörer, granskare och författare av hur man tolkar och implementerar denna policy.

Politik från finansiärer

I USA har National Science Foundation (NSF) skärpt kraven på dataarkivering. Forskare som söker finansiering från NSF måste nu lämna in en datahanteringsplan som ett tvåsidigt tillägg till bidragsansökan.

NSF Datanet -initiativet har resulterat i finansiering av Data Observation Network for Earth- projektet ( DataONE ), som kommer att tillhandahålla vetenskaplig dataarkivering för ekologiska och miljömässiga data producerade av forskare över hela världen. DataONEs uttalade mål är att bevara och ge tillgång till multi-skala, multidisciplinär och multinationell data. Användargemenskapen för DataONE inkluderar forskare, ekosystemförvaltare, beslutsfattare, studenter, lärare och allmänheten.

Tyska DFG kräver att forskningsdata ska arkiveras i forskarens egen institution eller en lämplig rikstäckande infrastruktur i minst 10 år.

British Digital Curation Center har en översikt över finansiärens datapolicy.

Databibliotek

Dataförråd och ett arkivförråd

Forskningsdata arkiveras i databibliotek eller dataarkiv . Ett databibliotek , dataarkiv eller dataarkiv är en samling numeriska och/eller geospatiala datamängder för sekundär användning i forskning. Ett databibliotek är normalt en del av en större institution (akademisk, företags, vetenskaplig, medicinsk, statlig, etc.). inrättats för arkivering av forskningsdata och för att betjäna den organisationens dataanvändare. Databiblioteket tenderar att hysa lokala datainsamlingar och ger tillgång till dem på olika sätt ( CD -/ DVD -ROM eller central server för nedladdning). Ett databibliotek kan också ha prenumerationer på licensierade dataresurser för att dess användare ska få tillgång till informationen. Huruvida ett databibliotek också anses vara ett dataarkiv kan bero på omfattningen av unika innehav i samlingen, om långsiktiga bevarandetjänster erbjuds och om det tjänar en bredare gemenskap (som nationella dataarkiv gör). De flesta offentliga databibliotek är listade i Registry of Research Data Repositories .

Betydelse och tjänster

I augusti 2001 publicerade Association of Research Libraries (ARL) en rapport som presenterar resultat från en undersökning av ARL-medlemsinstitutioner som är involverade i att samla in och tillhandahålla tjänster för numeriska dataresurser.

Bibliotekstjänst som tillhandahåller stöd på institutionell nivå för användning av numeriska och andra typer av datamängder i forskning. Bland de stödaktiviteter som vanligtvis är tillgängliga:

  • Referenshjälp — lokalisering av numeriska eller geospatiala datauppsättningar som innehåller mätbara variabler om ett visst ämne eller en grupp av ämnen, som svar på en användarförfrågan.
  • Användarinstruktion — tillhandahåller praktisk utbildning till grupper av användare i att hitta dataresurser om särskilda ämnen, hur man laddar ner data och läser den i kalkylblad, statistik, databas eller GIS-paket, hur man tolkar kodböcker och annan dokumentation.
  • Teknisk assistans - inklusive förenklade registreringsprocedurer, felsökning av problem med datamängden, såsom fel i dokumentationen, formatering av data till något som en användare kan arbeta med och hjälp med statistisk metodik.
  • Samlingsutveckling och -hantering - skaffa, underhålla och hantera en samling datafiler som används för sekundär analys av den lokala användargemenskapen; köpa institutionella dataabonnemang; fungera som platsrepresentant för dataleverantörer och nationella dataarkiv för institutionen.
  • Bevarande och datadelningstjänster - agera efter en strategi för bevarande av datamängder i samlingen, såsom mediauppfriskningar och filformatmigrering; ladda ner och föra register över uppdaterade versioner från ett centralt arkiv. Hjälp också användare att förbereda originaldata för sekundär användning av andra; antingen för deponering i ett centralt eller institutionellt arkiv, eller för mindre formella sätt att dela data. Detta kan också innebära att märka upp data till en lämplig XML-standard, såsom Data Documentation Initiative, eller lägga till annan metadata för att underlätta upptäckt online.

Exempel på databibliotek

Naturvetenskap

Följande lista hänvisar till vetenskapliga dataarkiv.

Samhällsvetenskap

Inom samhällsvetenskapen kallas databibliotek för dataarkiv. Dataarkiv är professionella institutioner för inhämtning, beredning, bevarande och spridning av sociala och beteendemässiga data. Dataarkiv inom samhällsvetenskapen utvecklades på 1950-talet och har uppfattats som en internationell rörelse:

År 1964 hade International Social Science Council (ISSC) sponsrat en andra konferens om Social Science Data Archives och hade en stående kommitté för Social Science Data, som båda stimulerade dataarkivrörelsen. I början av det tjugoförsta århundradet hade de flesta utvecklade länder och vissa utvecklingsländer organiserat formella och välfungerande nationella dataarkiv. Dessutom har högskolor och universitet ofta "databibliotek" som gör data tillgänglig för sin fakultet, personal och studenter; de flesta av dessa bär minimalt med arkivansvar och förlitar sig för den funktionen på en nationell institution (Rockwell, 2001, s. 3227).

Se även

Anteckningar

Vidare läsning

  • Clubb, J., Austin, E. och Geda, C. "'Dela forskningsdata inom samhällsvetenskapen'." I Sharing Research Data , S. Fienberg, M. Martin och M. Straf, Eds. National Academy Press, Washington, DC, 1985, 39-88.
  • Geraci, D., Humphrey, C. och Jacobs, J. Data Basics . Canadian Library Association, Ottawa, ON, 2005.
  • Heim, Kathleen M. "Socialvetenskaplig informationsbehov för numeriska data: utvecklingen av den internationella dataarkivinfrastrukturen." Collection Management 9 (våren 1987): 1-53.
  • Martinez, Luis & Macdonald, Stuart, "'Stöd till lokala dataanvändare i det akademiska samhället i Storbritannien'" . Ariadne , nummer 44, juli 2005.
  • Se IASSIST Bibliography of Selected Works Archived 2016-03-03 at the Wayback Machine för artiklar som spårar historien om databibliotek och dess relation till arkivarieryrket, som går tillbaka till 1960- och 70-talen fram till 1996.
  • Se IASSIST Quarterly -artiklar från 1993 till idag, med fokus på databibliotek, dataarkiv, datastöd och informationsteknologi för samhällsvetenskap.

externa länkar

Föreningar

  • IASSIST (International Association for Social Science Information and Service Technology)
  • DISC-UK (Data Information Specialists Committee—Storbritannien)
  • APDU (Association of Public Data Users - USA)
  • CAPDU (Canadian Association of Public Data Users)