Bioprover
Innehåll | |
---|---|
Beskrivning | En databas som innehåller aggregerad information som hänför sig till referensprover och prover lagrade i European Bioinformatics Institutes analysdatabaser. |
Datatyper infångade |
Biologiska provmetadata |
Organismer | Allt |
Kontakt | |
Forskningscenter | European Bioinformatics Institute . |
Författare | Mikhail Gostev |
Primärt citat | Göstev et al. (2012) |
Utgivningsdatum | 2011 |
Tillgång | |
Dataformat | XML , RDF |
Hemsida | EBI-sida , NCBI-sida |
Ladda ner URL | EBI FTP |
Webbtjänstens URL | RESTEN |
Sparql- slutpunkt | BioSD Sparql |
Verktyg | |
webb | Provvisning, avancerad sökning efter prover och grupper, sortering efter kolumner, länkar till analysdatabaspost |
Diverse | |
Licens | Obegränsad |
Versionering | Ja |
Frekvens för datautgivning |
Dagligen |
Kurationspolicy | Ja (manuell) |
Bokmärkbara enheter |
Ja - prover och provgrupper |
BioSamples (BioSD) är en databas vid European Bioinformatics Institute för information om de biologiska prover som används vid sekvensering .
metadata från avsändaren om det biologiska material från vilket data som lagras i National Center for Biotechnology Informations ( NCBI) primära dataarkiv härrör. NCBI:s arkiv är värd för data som hänför sig till olika typer av prover från många arter, och som sådan är BioSample-databasen lika mångfaldig. Exempel på ett bioprov inkluderar en primär vävnadsbiopsi, en enskild organism eller ett miljöisolat.
BioSamples-databasen fångar provmetadata på ett strukturerat sätt genom att uppmuntra användningen av kontrollerade ordförråd för fältnamn för exempelattribut. Denna metadata är nyckeln för att ge exempeldatakontexten, så att den kan förstås mer fullständigt, återanvändas och möjliggör aggregering av olika datamängder.
Exempelmetadata är kopplat till relevant experimentell data i många arkivdatabaser, vilket avlastar insändarbördan genom att möjliggöra en engångsskick av exempelbeskrivning. De kan sedan referera till det provet, när det behövs, när de gör datainsättningar till andra arkiv.
BioSample-poster är indexerade och sökbara, vilket stöder korsdatabasfrågor genom exempelbeskrivning.
Historia
BioSamples-databasen lanserades 2011 för att hjälpa till att aggregera och standardisera provmetadata . Historiskt sett hade varje arkiv skapat sin egen konvention för insamling av provmetadata. Dessa var vanligtvis begränsade i sin standardisering och hade ingen metod för att indikera när ett prov användes över flera datamängder. Utöver detta finns det en växande medvetenhet bland forskarvärlden om att provmetadata är avgörande för att förstå de underliggande data. Dessutom ökar chanserna för återanvändning, aggregering och integration av data med förbättrad metadata. Databasen fylldes initialt med befintliga beskrivningar extraherade från SRA , EST , GSS och dbGaP. I maj 2013 är databasen värd för nästan 2 miljoner BioSample-poster som omfattar 18 000 arter.
Innehåll
BioSamples-databasen har fördubblats i storlek sedan januari 2012 då 1 miljon prover beskrevs i BioSamples-databasen, från och med oktober 2013 finns 2 846 137 prover tillgängliga som 80 232 grupper. Den snabba tillväxten beror främst på nya datakällor och ökad mängd data från befintliga källor. Nya datakällor inkluderar 22 288 prover från The Cancer Genome Atlas och 920 441 prover från Catalog of Somatic Mutation in Cancer (COSMIC).
Attribut definierar materialet som undersöks med hjälp av strukturerade namn: värdepar, till exempel:
vävnad: leverinsamlingsdatum
: 2013-jan-31
Efter att ha angett provtypen får användaren en lista med obligatoriska och valfria attributfält att fylla i, samt möjligheten att ange valfritt antal anpassade beskrivande attribut. BioSample-databasen är utbyggbar genom att nya typer och attribut kan läggas till när nya standarder utvecklas. Förutom BioSample-typ och -attribut innehåller varje BioSample-post också:
ID:n | Ett identifierarblock som inte bara listar BioSample-accessionen som tilldelats den posten, utan även alla andra externa providentifierare, till exempel den som utfärdats av källdatabasen eller arkivet. |
---|---|
Organism | Organismens namn och taxonomiidentifierare. Det fullständiga taxonomiska trädet visas och är sökbart. |
Titel | BioSample titel. En titel genereras automatiskt om en inte tillhandahålls av insändaren. |
Beskrivning | [valfritt] Ett fritextfält för att lagra icke-strukturerad information om provet. |
Länkar | [valfritt] URL för att länka till relevant information på externa webbplatser. |
Ägare | Insändarinformation, inklusive namn och tillhörighet där tillgängligt. |
Datum | Information om när posten skickades in, släpptes och senast uppdaterades. |
Tillgång | Uttalande om huruvida posten är helt offentlig eller kontrollerad åtkomst |
Den fullständiga listan och definitionerna av BioSample-typer och attribut är tillgängliga för förhandsgranskning och nedladdning.
Datatillgång
Det finns ett antal sätt på vilka databasen kan nås. Den första utgåvan av BioSD till allmänheten gav endast tillgång till databasen via ett webbgränssnitt. Detta webbgränssnitt uppdaterades sedan i november 2012 och sedan igen i mars 2013 efter EBI-webbplatsens nylansering. släpptes ett offentligt Application Programming Interface (API) med hjälp av ett REST-system ( Representational State Transfer) . I oktober 2013, som en del av EBI:s nya RDF -plattform , släpptes en SPARQL- slutpunkt, som ger tillgång till data i RDF-format. Dessutom kan databasen laddas ner via EBI:s FTP -tjänst.
Webbgränssnitt
Webbgränssnittet tillåter användare att komma åt BioSD-databasen via en webbläsare. Det ger funktionalitet för både sökning efter provgrupper och efter prov själva. Sökningen innehåller inkrementell sökning för att hjälpa användare genom att förse dem med möjliga söktermer när de skriver. Avancerad sökning tillhandahålls och låter användare söka genom att använda de binära termerna, AND, OR och NOT, på sina söktermer. Dessutom kan ett jokertecken användas för att matcha alla kombinationer av tecken inklusive inga tecken. Ett frågetecken kan också användas för att matcha vilket enskilt tecken som helst. Exempel på dessa kan ses i följande tabell:
Sök fråga | Exempelresultat |
---|---|
mo*se | "mus", "älg", "mose", "mofoobarse" |
mo?se | "mus", "älg", "motse" |
Webbgränssnittet tillåter också användare att välja sökresultat och se ytterligare information om det sökresultatet. Den detaljerade vyn ger ytterligare information och gör en länk tillgänglig till analysdatabasen(-erna) från vilken data hämtas. Ordning efter kolumner tillhandahålls också.
Applikationsprogrammeringsgränssnitt
API tillhandahåller en lämplig metod för att hämta data på ett programmatiskt sätt. Den använder ett RESTful-system som tillåter användare att fråga URI- slutpunkter och ta emot XML som resultat. API:et har URI-slutpunkter för ett antal olika typer av förfrågningar. Dessa förfrågningar kan användas för att hitta specifika prov, hitta specifika grupper, söka efter grupper, söka efter prover och söka efter prov inom en grupp.
SPARQL-slutpunkt
SPARQL-slutpunkten tillåter användare att söka i databasen på ett mer omfattande sätt än standardwebbgränssnittet samtidigt som det kan användas från en webbläsare. Genom detta gränssnitt kan mycket mer komplexa frågor göras för att ytterligare möjliggöra för användare i sina sökningar. Det finns dock en ökad inlärningskurva med denna metod för att komma åt data. SPARQL-slutpunkten returnerar resultat i RDF-formatet som ursprungligen designades med metadata i åtanke och är därför anpassat till BioSDs behov.
Utveckling
Utvecklingsteamet är en del av Helen Parkinsons team på EMBL-EBI och innehåller mjukvaruingenjörer och webbutvecklare som får hjälp med domänspecifik kunskap av ontologer och bioinformatiker.
Det primära programmeringsspråket som används i projektet är programmeringsspråket Java . För att underlätta utvecklingen av projektet använder utvecklingsteamen den integrerade utvecklingsmiljön IntelliJ IDEA som tillhandahålls av JetBrains . Andra verktyg som används i projektet inkluderar Bamboo för kontinuerlig integration och hantering av mjukvaruversioner. Dessutom YourKit en Java-profilerare som hjälper till att optimera och eliminera buggar i BioSD-projektet.
Projektet är utvecklat som ett öppen källkodsprojekt där all källkod är fritt tillgänglig på GitHub .
Finansiering
För närvarande tillhandahålls den primära finansieringen för utveckling och underhåll av BioSD-databasen av kärnbudgeten för European Molecular Biology Laboratory (EMBL), som i sin tur finansieras av dess 20 medlemsländer. Det har också kommit ytterligare bidrag från EU-kommissionen i form av ett antal bidrag. Ytterligare finansiering har kommit från Human Induced Pluripotent Stem Cells Initiative från Wellcome Trust och Medical Research Council och från EBiSC Innovative Medicines Initiative .
Se även
- ^ a b c Gostev, Mikhail; Faulconbridge Adam; Brandizi Marco; Fernandez-Banet Julio; Sarkans Ugis; Brazma Alvis; Parkinson Helen (januari 2012). "The BioSample Database (BioSD) vid European Bioinformatics Institute" . Nucleic Acids Res . England. 40 (1): D64-70. doi : 10.1093/nar/gkr937 . PMC 3245134 . PMID 22096232 .
- ^ "Om biodelningsdatabas av genotyper och fenotyper (dbGaP)" (HTML) . Hämtad 11 september 2014 .
- ^ Barrett, Tanya (14 november 2013). "NCBI Handbook [Internet] 2nd edition" . Hämtad 11 september 2014 .
- ^ Faulconbridge, Adam; Tony Burdett; Marco Brandizi; Mikhail Gostev; Rui Pereira; Drashtti Vasant; Ugis Sarkans; Alvis Brazma; Helen Parkinson (20 november 2013). "Uppdateringar av BioSamples databas vid European Bioinformatics Institute" . Nukleinsyraforskning . England. 42 : D50-2. doi : 10.1093/nar/gkt1081 . PMC 3965081 . PMID 24265224 .
- ^ Shepherd, R; Bear D; Bamford S; Cole CG; Avdelning S; Bindal N; Gunasekaran P; Jia M; Kok CY; et al. (23 maj 2011). "Datautvinning med hjälp av katalogen över somatiska mutationer i Cancer BioMart" . Databas (Oxford) . England. 2011 : bar018. doi : 10.1093/database/bar018 . PMC 3263736 . PMID 21609966 .
- ^ "BioSample Template Generator" . EMBL-EBI (HTML) . Hämtad 11 september 2014 .
- ^ "BioSamples News" . EMBL-EBI (HTML). Arkiverad från originalet den 10 september 2014 . Hämtad 11 september 2014 .
- ^ "Hur man söker i BioSamples Database" . EMBL-EBI (HTML). Arkiverad från originalet den 11 september 2014 . Hämtad 11 september 2014 .
- ^ "BioSamples API-översikt" . EMBL-EBI (HTML) . Hämtad 29 september 2018 .
- ^ "BioSamples Database SPARQL Endpoint" . EMBL-EBI (HTML) . Hämtad 11 september 2014 .
- ^ "Bioprovdatabas RDF" . EMBL-EBI (HTML) . Hämtad 11 september 2014 .
- ^ "Om bioprover" . EMBL-EBI (HTML) . Hämtad 10 september 2014 .
- ^ "EBI BioSamples Databas GitHub Project" . GitHub (HTML) . Hämtad 10 september 2014 .
- ^ Faulconbridge, A.; Burdett, T.; Brandizi, M.; Gostev, M.; Pereira, R.; Vasant, D.; Sarkans, U.; Brazma, A.; Parkinson, H. (2013). "Uppdateringar av BioSamples databas vid European Bioinformatics Institute" . Nukleinsyraforskning . 42 (D1): D50–D52. doi : 10.1093/nar/gkt1081 . ISSN 0305-1048 . PMC 3965081 . PMID 24265224 .
- ^ "BioSamples: Snabb rundtur" . EMBL-EBI (HTML). Arkiverad från originalet den 10 september 2014 . Hämtad 10 september 2014 .