Keplers vetenskapliga arbetsflödessystem

Kepler Scientific Workflow System
Stabil frisättning
2,5 / 2015-10-28
Förvar
Skrivet i Java
Operativ system Linux , Mac OS X , Windows
Typ Vetenskapligt arbetsflödessystem
Licens BSD-licens
Hemsida kepler-project.org

Kepler är ett gratis programvarusystem för att designa, exekvera, återanvända, utveckla, arkivera och dela vetenskapliga arbetsflöden . Keplers anläggningar tillhandahåller process- och dataövervakning, härkomstinformation och höghastighetsdataförflyttning. Arbetsflöden i allmänhet, och vetenskapliga arbetsflöden i synnerhet, är riktade grafer där noderna representerar diskreta beräkningskomponenter, och kanterna representerar vägar längs vilka data och resultat kan flöda mellan komponenter. I Kepler kallas noderna 'Actors' och kanterna kallas 'kanaler'. Kepler inkluderar ett grafiskt användargränssnitt för att komponera arbetsflöden i en skrivbordsmiljö, en körningsmotor för att köra arbetsflöden inom GUI och oberoende av en kommandorad, och ett distribuerat beräkningsalternativ som gör att arbetsflödesuppgifter kan distribueras mellan beräkningsnoder i ett datorkluster eller datorrutnät . Kepler-systemet är huvudsakligen inriktat på användningen av en arbetsflödesmetafor för att organisera beräkningsuppgifter som är riktade mot särskilda vetenskapliga analyser och modelleringsmål. Således modellerar Keplers vetenskapliga arbetsflöden generellt flödet av data från ett steg till ett annat i en serie beräkningar som uppnår ett visst vetenskapligt mål.

Vetenskapligt arbetsflöde

Ett vetenskapligt arbetsflöde är processen att kombinera data och processer till en konfigurerbar, strukturerad uppsättning steg som implementerar halvautomatiska beräkningslösningar på ett vetenskapligt problem. Vetenskapliga arbetsflödessystem tillhandahåller ofta grafiska användargränssnitt för att kombinera olika teknologier tillsammans med effektiva metoder för att använda dem, och därmed öka effektiviteten för forskarna.

Tillgång till vetenskapliga data

Kepler ger direkt tillgång till vetenskaplig data som har arkiverats i många av de vanligaste dataarkiven. Till exempel ger Kepler åtkomst till data som lagras i Knowledge Network for Biocomplexity (KNB) Metacat-server och beskrivs med Ecological Metadata Language . Ytterligare datakällor som stöds inkluderar data som är tillgängliga med DiGIR-protokollet, OPeNDAP- protokollet, GridFTP, JDBC , SRB och andra.

Beräkningsmodeller

Kepler skiljer sig från många av de andra bioinformatiska arbetsflödeshanteringssystemen genom att den separerar strukturen för arbetsflödesmodellen från dess beräkningsmodell, så att olika modeller för beräkning av arbetsflödet kan bindas till en given arbetsflödesgraf. Kepler ärver flera vanliga beräkningsmodeller från Ptolemaios-systemet , inklusive Synchronous Data Flow (SDF), Continuous Time (CT), Process Network (PN) och Dynamic Data Flow (DDF), bland andra.

Hierarkiska arbetsflöden

Kepler stöder hierarki i arbetsflöden, vilket gör att komplexa uppgifter kan vara sammansatta av enklare komponenter. Den här funktionen tillåter arbetsflödesförfattare att bygga återanvändbara, modulära komponenter som kan sparas för användning i många olika arbetsflöden.

Arbetsflödessemantik

Kepler tillhandahåller en modell för semantisk annotering av arbetsflödeskomponenter med termer hämtade från en ontologi . Dessa anteckningar stöder många avancerade funktioner, inklusive förbättrade sökfunktioner, automatisk validering av arbetsflöden och förbättrad redigering av arbetsflöden.

Dela arbetsflöden

Kepler-komponenter kan delas genom att exportera arbetsflödet eller komponenten till en Kepler Archive-fil (KAR), som är en förlängning av JAR-filformatet från Java. När en KAR-fil har skapats kan den skickas via e-post till kollegor, delas på webbplatser eller laddas upp till Kepler Component Repository. Component Repository är ett centraliserat system för att dela Kepler-arbetsflöden som är tillgängligt via både en webbportal och ett webbtjänstgränssnitt . Användare kan direkt söka efter och använda komponenter från arkivet från Keplers arbetsflödessammansättningsgränssnitt.

Ursprung

Härkomst är ett kritiskt begrepp i vetenskapliga arbetsflöden, eftersom det gör det möjligt för forskare att förstå ursprunget till sina resultat, att upprepa sina experiment och att validera de processer som användes för att härleda dataprodukter. För att ett arbetsflöde ska kunna reproduceras måste härkomstinformation registreras som indikerar var datan kommer från, hur den ändrades och vilka komponenter och vilka parameterinställningar som användes. Detta kommer att tillåta andra forskare att göra om experimentet, vilket bekräftar resultaten. Lite stöd finns i nuvarande system för att tillåta slutanvändare att fråga om härkomstinformation på vetenskapligt meningsfulla sätt, särskilt när avancerade modeller för exekvering av arbetsflöden går längre än enkla DAG:er (som i processnätverk).

Keplers historia

Kepler-projektet skapades 2002 av medlemmar i projektet Science Environment for Ecological Knowledge (SEEK) och projektet Scientific Data Management (SDM). Projektet grundades av forskare vid National Center for Ecological Analysis and Synthesis (NCEAS) vid University of California, Santa Barbara och San Diego Supercomputer Center vid University of California, San Diego . Kepler utökar Ptolemy II, som är ett mjukvarusystem för modellering, simulering och design av inbyggda system i realtid som samtidigt utvecklats vid UC Berkeley. Samarbetet kring Kepler växte snabbt när medlemmar av olika vetenskapliga discipliner insåg fördelarna med vetenskapliga arbetsflöden för analys och modellering och började bidra till systemet. Från och med 2008 kommer Kepler-medarbetare från många vetenskapsdiscipliner, inklusive ekologi, molekylärbiologi, genetik, fysik, kemi, naturvårdsvetenskap, oceanografi, hydrologi, biblioteksvetenskap, datavetenskap och andra. Kepler är en arbetsflödesorkestreringsmotor som används för att göra arbetsflöden för att göra arbetet mycket enklare, i form av skådespelare.

Se även

  1. ^ https://kepler-project.org/users/whats-new/kepler-2.5-released [ död länk ]
  2. ^ Ludäscher B., Altintas I., Berkley C., Higgins D., Jaeger-Frank E., Jones M., Lee E., Tao J., Zhao Y. 2006. Scientific Workflow Management and the Kepler System. Specialutgåva: Arbetsflöde i Grid Systems. Samtidighet och beräkning: Practice & Experience 18(10): 1039-1065.
  3. ^ Altintas I, Berkley C, Jaeger E, Jones M, Ludäscher B, Mock S. 2004. Kepler: Ett utbyggbart system för design och utförande av vetenskapliga arbetsflöden. Proceedings of the Future of Grid Data Environments, Global Grid Forum 10.
  4. ^ a b Michener, William K., James H. Beach, Matthew B. Jones, Bertram Ludaescher, Deana D. Pennington, Ricardo S. Pereira, Arcot Rajasekar och Mark Schildhauer. 2007. "A Knowledge Environment for the Biodiversity and Ecological Sciences", Journal of Intelligent Information Systems, 29(1): 111-126. doi : 10.1007/s10844-006-0034-8
  5. ^   Taylor, IJ; Deelman, E.; Gannon, DB; Shields, M. (red.), "Workflows for e-Science: Scientific Workflows for Grids", 530 s., Springer. ISBN 978-1-84628-519-6 .
  6. ^ Jones, Matthew B., C. Berkley, J. Bojilova, M. Schildhauer. 2001. Hantering av vetenskaplig metadata. IEEE Internet Computing 5 (5): 59-68.
  7. ^ Berkley, Chad, Shawn Bowers, Matthew B. Jones, Bertram Ludaescher, Mark Schildhauer, Jing Tao. 2005. Integrating Semantics in Scientific Workflow Authoring. 17:e internationella konferensen om vetenskaplig och statistisk databashantering. IEEE Data Society.
  8. ^ "WebHome < Utmaning < TWiki" . Arkiverad från originalet 2008-07-06 . Hämtad 2009-04-06 .
  9. ^ http://www.adambarker.org/papers/ppam08.pdf [ bar URL PDF ]
  10. ^ Shawn Bowers, Timothy McPhillips, Bertram Ludascher, Shirley Cohen, Susan B. Davidson 2006. En modell för användarorienterad datauppkomst i pipelinerade vetenskapliga arbetsflöden.

externa länkar