Discovery Net

Discovery Net är ett av de tidigaste exemplen på ett vetenskapligt arbetsflödessystem som tillåter användare att koordinera utförandet av fjärrtjänster baserade på standarder för webbtjänster och Grid Services (OGSA och Open Grid Services Architecture) . Systemet designades och implementerades vid Imperial College London som en del av Discovery Net-pilotprojektet finansierat av UK e-Science Program ( E-Science § UK-programmet) . Många av koncepten som Discovery Net banat väg för har senare införlivats i en mängd andra vetenskapliga arbetsflödessystem.

Historia: Discovery Net e-Science Pilot Project

Discovery Net-systemet utvecklades som en del av Discovery Net-pilotprojektet (2001–2005), ett forskningsprojekt på 2 miljoner pund som finansierades av EPSRC under det brittiska e-Science-programmet ( E-Science § UK-programmet ). Forskningen om projektet genomfördes vid Imperial College London som ett samarbete mellan institutionerna för beräkning, fysik, biokemi och geovetenskap och teknik. Eftersom projektet var ett enda institutionsprojekt var projektet unikt jämfört med de andra 10 pilotprojekten som finansierades av EPSRC och som alla var multiinstitutionella.

Syftet med Discovery Net-projektet var att undersöka och ta itu med nyckelfrågorna i utvecklingen av en e-Science- plattform för vetenskaplig upptäckt från data som genererats av en mängd olika högkapacitetsenheter. Den övervägde ursprungligen krav från tillämpningar inom life science, geo-hazard-övervakning, miljömodellering och förnybar energi. Projektet uppnådde framgångsrikt alla sina mål, inklusive utvecklingen av Discovery Nets arbetsflödesplattform och arbetsflödessystem. Under åren har systemet utvecklats för att hantera tillämpningar inom många andra områden, inklusive bioinformatik , keminformatik , hälsoinformatik , textutvinning och finansiella och affärstillämpningar.

Vetenskapligt arbetsflödessystem

Discovery Net-systemet som utvecklats inom projektet är ett av de tidigaste exemplen på vetenskapliga arbetsflödessystem . Det är en e-Science-plattform baserad på en arbetsflödesmodell som stöder integrationen av distribuerade datakällor och analytiska verktyg, vilket gör det möjligt för slutanvändarna att hämta ny kunskap från enheter, sensorer, databaser, analyskomponenter och beräkningsresurser som finns på Internet eller rutnät.

Arkitektur och arbetsflödesserver

Systemet är baserat på en flerskiktsarkitektur, med en arbetsflödesserver som tillhandahåller ett antal stödjande funktioner som behövs för att skapa och köra arbetsflöden, såsom integration och åtkomst till fjärrberäknings- och dataresurser, samarbetsverktyg, visualiserare och publiceringsmekanismer. Arkitekturen i sig har utvecklats under åren med fokus på det interna i arbetsflödesservern (Ghanem et al. 2009) för att stödja utökbarhet över flera applikationsdomäner såväl som olika exekveringsmiljöer.

Författare av visuellt arbetsflöde

Discovery Net-arbetsflöden representeras och lagras med DPML (Discovery Process Markup Language), ett XML-baserat representationsspråk för arbetsflödesgrafer som stöder både en dataflödesmodell för beräkning (för analytiska arbetsflöden) och en kontrollflödesmodell (för att orkestrera flera osammanhängande arbetsflöden) .

Som med de flesta moderna arbetsflödessystem stödde systemet ett dra-och-släpp visuellt gränssnitt som gör det möjligt för användare att enkelt konstruera sina applikationer genom att koppla samman noder.

Inom DPML representerar varje nod i ett arbetsflödesdiagram en körbar komponent (t.ex. ett beräkningsverktyg eller ett omslag som kan extrahera data från en viss datakälla). Varje komponent har ett antal parametrar som kan ställas in av användaren och även ett antal in- och utportar för att ta emot och överföra data.

Varje riktad kant i grafen representerar en anslutning från en utgångsport, nämligen kanten av kanten, till en ingångsport, nämligen kantens huvud. En port är ansluten om det finns en eller flera anslutningar från/till den porten. Dessutom tillhandahåller varje nod i grafen metadata som beskriver komponentens in- och utportar, inklusive typen av data som kan skickas till komponenten och parametrar för tjänsten som en användare kanske vill ändra. Sådan information används för att verifiera arbetsflöden och för att säkerställa meningsfull kedja av komponenter. En anslutning mellan en ingång och en utgångsport är endast giltig om typerna är kompatibla, vilket är strikt tillämpat.

Separation mellan data och kontrollflöden

Ett viktigt bidrag från systemet är dess rena separation mellan dataflödes- och kontrollflödesmodeller för beräkningar inom ett vetenskapligt arbetsflöde. Detta uppnås genom konceptet med inbäddning som möjliggör att kompletta dataflödesfragment bäddas in med blockstrukturerade fragment av kontrollflödeskonstruktioner. Detta resulterar både i enklare arbetsflödesgrafer jämfört med andra vetenskapliga arbetsflödessystem, t.ex. Taverna workbench och Keplers vetenskapliga arbetsflödessystem och ger även möjlighet att tillämpa formella metoder för analys av deras egenskaper.

Datahantering och flera datamodeller

En nyckelfunktion i designen av systemet har varit dess stöd för datahantering inom själva arbetsflödesmotorn. Detta är en viktig egenskap eftersom vetenskapliga experiment vanligtvis genererar och använder stora mängder heterogena och distribuerade datamängder. Systemet utformades således för att stödja beständighet och cachning av mellanliggande dataprodukter och även för att stödja skalbart arbetsflödesexekvering över potentiellt stora datamängder med hjälp av fjärrberäkningsresurser.

En andra viktig aspekt av Discovery Net-systemet är baserat på ett maskinskrivet arbetsflödesspråk och dess utbyggbarhet för att stödja godtyckliga datatyper som definieras av användaren. Datatypning förenklar arbetsflödesvetenskaplig arbetsflödesutveckling, förbättrar optimering av arbetsflöden och förbättrar felkontroll för arbetsflödesvalidering. Systemet inkluderade ett antal standarddatatyper i syfte att stödja datautvinning i en mängd olika vetenskapliga tillämpningar. Dessa inkluderade en relationsmodell för tabelldata, en bioinformatikdatamodell ( FASTA ) för att representera gensekvenser och en stand-off-markeringsmodell för textutvinning baserad på Tipster -arkitekturen.

Varje modell har en associerad uppsättning dataimport- och exportkomponenter, såväl som specifika visualisatorer, som integreras med de generiska import-, export- och visualiseringsverktygen som redan finns i systemet. Som ett exempel kan kemiska föreningar representerade i det allmänt använda SMILES-formatet ( Simplified molecular input line entry specification ) importeras in i datatabeller, där de kan återges på lämpligt sätt med antingen en tredimensionell representation eller dess strukturformel. Relationsmodellen fungerar också som basdatamodell för dataintegration och används för de flesta generiska datarensnings- och transformationsuppgifter.

Ansökningar

Systemet vann "Most Innovative Data Intensive Application Award" vid ACM SC02 (Supercomputing 2002) konferens och utställning, baserat på en demonstration av en fullt interaktiv distribuerad genomannoteringspipeline för en malariagenomfallstudie. Många av funktionerna i systemet (arkitekturfunktioner, visuell front-end, förenklad åtkomst till fjärrwebb- och nättjänster och inkludering av en arbetsflödesbutik) ansågs vara nya på den tiden och har sedan funnit sin väg in i andra akademiska och kommersiella system , och särskilt funktioner som finns i bioinformatiska arbetsflödeshanteringssystem .

Utöver det ursprungliga Discovery Net-projektet har systemet använts i ett stort antal vetenskapliga tillämpningar, till exempel BAIR: Biological Atlas of Insulin Resistance-projektet finansierat av Wellcome Trust och även i ett stort antal projekt finansierade av både EPSRC och BBSRC i Storbritannien. Discovery Net-teknologin och systemet har också utvecklats till kommersiella produkter genom Imperial College spinout-företaget InforSense Ltd, som ytterligare utökade och tillämpade systemet i en mängd olika kommersiella tillämpningar såväl som genom ytterligare forskningsprojekt, inklusive SIMDAT, TOPCOMBI, BRIDGE och ARGUGRID [ citat behövs ] .

Se även

  1.    Ghanem, M; Guo, Y; Rowe, A; Wendel, P (2002). "Grid-baserade kunskapsupptäcktstjänster för högkapacitetsinformatik". Proceedings 11:e IEEE International Symposium on High Performance Distributed Computing . sid. 416. doi : 10.1109/HPDC.2002.1029946 . ISBN 0-7695-1686-6 . S2CID 28782519 .
  2.    Ćurčin, V; Ghanem, M; Guo, Y; Köhler, M; Rowe, A; Syed, J; Wendel, P (2002). "Upptäcktsnät". Proceedings från den åttonde ACM SIGKDD internationella konferensen om Knowledge Discovery and data mining - KDD '02 . s. 658–63. doi : 10.1145/775047.775145 . ISBN 1-58113-567-X . S2CID 14652611 .
  3. Jameel Syed, Moustafa Ghanem, Yike Guo. Upptäcktsprocesser: representation och återanvändning . Proceedings of the First UK e-Science All-hands Conference, Sheffield, Storbritannien. september 2002.
  4. Nikolaos Giannadakis, Moustafa Ghanem, Yike Guo. Informationsintegration för e-Science . Proceedings of the First UK e-Science All-hands Conference, Sheffield, Storbritannien. september 2002.
  5.   Ghanem, Moustafa M; Guo, Yike; Lodhi, Huma; Zhang, Yong (2002). "Automatisk vetenskaplig textklassificering med hjälp av lokala mönster". ACM SIGKDD Explorations nyhetsbrev . 4 (2): 95. doi : 10.1145/772862.772876 . S2CID 6328759 .
  6.   Rowe, A; Kalaitzopoulos, D; Osmond, M; Ghanem, M; Guo, Y (2003). "Upptäcktsnätsystemet för bioinformatik med hög genomströmning" . Bioinformatik . 19 Suppl 1: i225–31. doi : 10.1093/bioinformatics/btg1031 . PMID 12855463 .
  7.   Alsairafi, Salman; Emmanouil, Filippia-Sofia; Ghanem, Moustafa; Giannadakis, Nikolaos; Guo, Yike; Kalaitzopoulos, Dimitrios; Osmond, Michelle; Rowe, Anthony; Syed, Jameel; Wendel, Patrick (2016). "The Design of Discovery Net: Towards Open Grid Services for Knowledge Discovery". The International Journal of High Performance Computing Applications . 17 (3): 297. doi : 10.1177/1094342003173003 . S2CID 15707637 .
  8. Giannadakis, Nikolaos; Rowe, Anthony; Ghanem, Moustafa; Guo, Yi-ke (2003). "InfoGrid: Tillhandahåller informationsintegration för kunskapsupptäckt". Informationsvetenskap . 155 (3–4): 199–226. doi : 10.1016/S0020-0255(03)00170-1 .
  9. Moustafa Ghanem, Yike Guo, Anthony Rowe. Integrerad data- och textutvinning till stöd för bioinformatik . Proceedings of the 3rd UK e-Science All-hands Conference AHM 2004, Nottingham, UK. september 2004.
  10. Vasa Curcin, Moustafa Ghanem, Yike Guo. SARS-analys på nätet . Proceedings of the 3rd UK e-Science All-hands Conference AHM 2004, Nottingham, UK. september 2004
  11. Peter Au, Vasa Curcin, Moustafa Ghanem, Nikolaos Giannadakis, Yike Guo, Mohammad Jafri, Michelle Osmond, Anthony Rowe, Jameel Syed, Patrick Wendel, Yong Zhang. Varför Grid-baserad datamining är viktigt? Bekämpa naturkatastrofer på nätet: Från SARS till landras . Proceedings of the 3rd UK e-Science All-hands Conference AHM 2004. September, 2004
  12.    Curcin, V; Ghanem, M; Yike Guo; Rowe, A; Han, W; Hao Pei; Lu Qiang; Yuanyuan Li (2004). "IT-tjänstinfrastruktur för integrativ systembiologi". IEEE International Conference on Services Computing, 2004. (SCC 2004). Förfaranden. 2004 . s. 123–31. doi : 10.1109/SCC.2004.1357998 . ISBN 0-7695-2225-4 . S2CID 28687432 .
  13. Moustafa Ghanem, Vasa Curcin, Yike Guo, Neil Davis, Rob Gaizauskas, Yikun Guo, Henk Harkema, Ian Roberts, Jonathan Ratcliffe. GoTag: En fallstudie av att använda en delad brittisk e-Science-infrastruktur . 4:e brittiska e-Science All Hands Meeting 2005. September, 2005
  14. Neil Davis, Henk Harkema, Rob Gaizauskas, Yikun Guo, Moustafa Ghanem, Tom Barnwell, Yike Guo, Jonathan Ratcliffe. Tre tillvägagångssätt för GO-taggning av biomedicinska sammanfattningar . CEUR Workshop Proceedings. april 2006.
  15.   Ghanem, Moustafa; Azam, Nabeel; Boniface, Mike; Ferris, Justin (2006). "Grid-aktiverade arbetsflöden för industriell produktdesign" (PDF) . 2006 Andra IEEE internationella konferens om e-Science och Grid Computing (e-Science'06) . sid. 96. doi : 10.1109/E-SCIENCE.2006.261180 . ISBN 0-7695-2734-5 .
  16. Moustafa Ghanem, Nabeel Azam, Mike Boniface. Arbetsflödesinteroperabilitet i nätbaserade system . Cracow Grid Workshop 2006. Oktober 2006
  17. Vasa Curcin, Moustafa Ghanem, Yike Guo, Kostas Stathis, Francesca Toni. Bygga nästa generations tjänsteorienterade arkitekturer med hjälp av argumentationsagenter . 3:e internationella konferensen om teknik och ledning av nättjänster (GSEM 2006). Springer Verlag. september 2006.
  18. Patrick Wendel, Arnold Fung, Moustafa Ghanem, Yike Guo. Designa en Java-baserad Grid-schemaläggare med hjälp av råvarutjänster . Proceedings of the UK e-Science All Hands Meeting 2006. Nottingham, Storbritannien, september 2006.
  19. Qiang Lu, Xinzhong Li, Moustafa Ghanem, Yike Guo, Haiyan Pan. Integrera R i Discovery Net . Proceedings of the UK e-Science All Hands Meeting 2006. September, 2006.
  20.   "CSDL | IEEE Computer Society". doi : 10.1109/E-SCIENCE.2006.17 . S2CID 18097525 . {{ citera journal }} : Citera journal kräver |journal= ( hjälp )
  21. Richards, M; Ghanem, M; Osmond, M; Guo, Y; Hassard, J (2006). "Grid-baserad analys av luftföroreningsdata". Ekologisk modellering . 194 (1–3): 274–286. doi : 10.1016/j.ecolmodel.2005.10.042 .
  22.   Syed, Jameel; Ghanem, Moustafa; Guo, Yike (2007). "Stödjer vetenskapliga upptäcktsprocesser i Discovery Net". Samtidighet och beräkning: övning och erfarenhet . 19 (2): 167. doi : 10.1002/cpe.1049 . S2CID 16212949 .
  23. Vasa Curcin, Moustafa Ghanem, Yike Guo, John Darlington. Minska biverkningar av läkemedel med e-vetenskapliga arbetsflöden . Proceedings of the 4th Cairo International Biomedical Engineering Conference, 2008. CIBEC 2008. December, 2008.
  24.    Curcin, V; Ghanem, M (2008). "Vetenskapliga arbetsflödessystem - kan en storlek passa alla?". 2008 Cairo International Biomedical Engineering Conference . s. 1–9. doi : 10.1109/CIBEC.2008.4786077 . ISBN 978-1-4244-2694-2 . S2CID 1885579 .
  25.   Ghanem, Moustafa; Curcin, Vasa; Wendel, Patrick; Guo, Yike (2009). "Bygga och använda analytiska arbetsflöden i Discovery Net". Data Mining-tekniker i Grid Computing-miljöer . s. 119–39. doi : 10.1002/9780470699904.ch8 . ISBN 978-0-470-69990-4 .
  26.   Curcin, Vasa; Ghanem, Moustafa M; Guo, Yike (2009). "Analysera vetenskapliga arbetsflöden med Computational Tree Logic". Cluster Computing . 12 (4): 399. doi : 10.1007/s10586-009-0099-6 . S2CID 12600641 .
  27. Antje Wolf, Martin Hofmann-Apitius, Moustafa Ghanem, Nabeel Azam, Dimitrios Kalaitzopoulos, Kunqian Yu, Vinod Kasam. DockFlow - Ett prototypiskt PharmaGrid för virtuell screening som integrerar fyra olika dockningsverktyg . I Proceedings of HealthGrid 2009 Volym 147, s. 3–12 Studies in Health Technology and Informatics maj, 2009

externa länkar