Orange (mjukvara)
Utvecklare | Universitetet i Ljubljana |
---|---|
Initial release | 10 oktober 1996 |
Stabil frisättning | 3.34.0 / 5 december 2022
|
Förvar | Orange förråd |
Skrivet i | Python , Cython , C++ , C |
Operativ system | Cross-plattform |
Typ | Maskininlärning , Datautvinning , Datavisualisering , Dataanalys |
Licens | GPLv3 eller senare |
Hemsida |
|
Orange är ett verktyg för datavisualisering , maskininlärning och datautvinning med öppen källkod . Den har ett visuellt programmeringsgränssnitt för utforskande kvalitativ dataanalys och interaktiv datavisualisering .
Beskrivning
Orange är ett komponentbaserat mjukvarupaket för visuell programmering för datavisualisering , maskininlärning , datautvinning och dataanalys .
Orange komponenter kallas widgets. De sträcker sig från enkel datavisualisering, urval av delmängder och förbearbetning till empirisk utvärdering av inlärningsalgoritmer och prediktiv modellering .
Visuell programmering implementeras genom ett gränssnitt där arbetsflöden skapas genom att länka fördefinierade eller användardesignade widgets , medan avancerade användare kan använda Orange som ett Python-bibliotek för datamanipulation och widgetändring.
programvara
Orange är ett mjukvarupaket med öppen källkod släppt under GPL och värd på GitHub . Versioner upp till 3.0 inkluderar kärnkomponenter i C++ med omslag i Python . Från version 3.0 och framåt använder Orange vanliga Python-bibliotek med öppen källkod för vetenskaplig beräkning, såsom numpy , scipy och scikit-learn , medan dess grafiska användargränssnitt fungerar inom Qt - ramverket för flera plattformar .
Standardinstallationen inkluderar ett antal maskininlärnings-, förbearbetnings- och datavisualiseringsalgoritmer i 6 widgetuppsättningar (data, transformera, visualisera, modellera, utvärdera och utan tillsyn). Ytterligare funktioner finns tillgängliga som tillägg (text-mining, bildanalys, bioinformatik, etc.).
Orange stöds på macOS , Windows och Linux och kan även installeras från Python Package Index- förvaret ( pipinstallera Orange3) .
Funktioner
Orange består av ett dukgränssnitt som användaren placerar widgets på och skapar ett arbetsflöde för dataanalys. Widgets erbjuder grundläggande funktioner som att läsa data, visa en datatabell, välja funktioner, träna prediktorer, jämföra inlärningsalgoritmer, visualisera dataelement, etc. Användaren kan interaktivt utforska visualiseringar eller mata in den valda delmängden till andra widgets.
- Canvas : grafiskt gränssnitt för dataanalys
-
Widgets :
- Data : widgets för datainmatning, datafiltrering, sampling, imputering, funktionsmanipulation och funktionsval
- Visualisera : widgets för vanlig visualisering (boxplot, histogram, scatterplot) och multivariat visualisering (mosaikdisplay, siktdiagram).
- Klassificera : en uppsättning övervakade maskininlärningsalgoritmer för klassificering
- Regression : en uppsättning övervakade maskininlärningsalgoritmer för regression
- Utvärdera : korsvalidering, urvalsbaserade procedurer, tillförlitlighetsuppskattning och poängsättning av prediktionsmetoder
- Oövervakad : oövervakad inlärningsalgoritm för klustring (k-medel, hierarkisk klustring) och dataprojektionstekniker (flerdimensionell skalning, huvudkomponentanalys, korrespondensanalys).
Tillägg
Orange användare kan utöka sin kärnuppsättning av komponenter med komponenter i tilläggen. Tillägg som stöds inkluderar:
- Associate : komponenter för gruvdrift av frekventa föremålsuppsättningar och associationsregelinlärning .
- Bioinformatik : komponenter för genuttrycksanalys, anrikning och tillgång till uttrycksdatabaser (t.ex. Gene Expression Omnibus) och vägbibliotek.
- Datafusion : komponenter för sammansmältning av olika datamängder , kollektiv matrisfaktorisering och utforskning av latenta faktorer.
- Utbildning : komponenter för att lära ut maskininlärningskoncept, såsom k-medelkluster , polynomregression , stokastisk gradientnedstigning , ...
- Explain : ger en förlängning med komponenter för modellförklaringen, inklusive Shapley- värdeanalys
- Geo : komponenter för att arbeta med geospatiala data .
- Bildanalys : komponenter för att arbeta med bilder och ImageNet -inbäddningar
- Nätverk : komponenter för graf- och nätverksanalys .
- Text mining : komponenter för naturlig språkbehandling och text mining .
- Tidsserier : widgetkomponenter för tidsserieanalys och modellering.
- Enkelcell : stöd för analys av encellsgenexpression, inklusive komponenter för att ladda encellsdata, filtrering och batcheffektborttagning , upptäckt av markörgener, poängsättning av celler och gener och förutsägelse av celltyp.
- Spektroskopi : komponenter för analys och visualisering av (hyper)spektrala datamängder.
- Överlevnadsanalys : tillägg för dataanalys som handlar om överlevnadsdata. Den innehåller widgets för standardtekniker för överlevnadsanalys, såsom Kaplan-Meier- plotten, Cox-regressionsmodellen och flera derivat-widgets.
- World Happiness : stöd för nedladdning av socioekonomisk data från en databas, inklusive OECD och World Development Indicators . Ger tillgång till tusentals landindikatorer från olika ekonomiska databaser.
Mål
Programmet tillhandahåller en plattform för val av experiment, rekommendationssystem och prediktiv modellering och används inom biomedicin , bioinformatik , genomforskning och undervisning. Inom vetenskapen används den som en plattform för att testa nya maskininlärningsalgoritmer och för att implementera nya tekniker inom genetik och bioinformatik. Inom utbildningen användes den för att lära ut maskininlärning och datautvinningsmetoder för studenter inom biologi, biomedicin och informatik.
Tillägg
Olika projekt bygger på Orange antingen genom att utöka kärnkomponenterna med tillägg eller endast använda Orange Canvas för att utnyttja de implementerade visuella programmeringsfunktionerna och GUI.
- OASYS — ORange SYnchrotron Suite
- scOrange — encellsbiostatistik
- Quasar — dataanalys inom naturvetenskap
Historia
- 1996 startade universitetet i Ljubljana och Jožef Stefan Institute utvecklingen av ML*, ett ramverk för maskininlärning i C++ .
- 1997 utvecklades Python- bindningar för ML*, som tillsammans med framväxande Python-moduler bildade ett gemensamt ramverk kallat Orange.
- Under de följande åren har de flesta större algoritmer för datautvinning och maskininlärning utvecklats i C++ (Oranges kärna) eller Python-moduler.
- År 2002 designades de första prototyperna för att skapa ett flexibelt grafiskt användargränssnitt med Pmw Python megawidgets .
- 2003 gjordes det grafiska användargränssnittet om och omutvecklades för Qt- ramverket med PyQt Python-bindningar. Ramverket för visuell programmering definierades och utvecklingen av widgets (grafiska komponenter i dataanalyspipelinen) började.
- skapades tillägg för dataanalys inom bioinformatik .
- Under 2008 utvecklades Mac OS X DMG och Fink -baserade installationspaket.
- Under 2009 skapades och underhålls över 100 widgets.
- Sedan 2009 är Orange i 2.0 beta, och webbplatsen erbjuder installationspaket baserade på den dagliga kompileringscykeln.
- Under 2012 infördes en ny objekthierarki som ersatte den gamla modulbaserade strukturen.
- Under 2013 inkluderade en betydande omdesign av det grafiska användargränssnittet en ny verktygslåda och skildring av arbetsflöden.
- 2015 släpptes Orange 3.0. Orange lagrar data i NumPy -arrayerna; maskininlärningsalgoritmer använder oftast scikit-learn .
- 2015 släpptes ett textanalystillägg för Orange3.
- 2016 finns Orange i version 3.3. Utvecklingen använder en månatlig stabil utgivningscykel.
- Under 2016 startade utvecklingen och lanseringen av Image Analytics-tillägget, med djupa neurala nätverk på serverplatsen för bildinbäddning
- 2017 introducerades Spectroscopy add-on för analys av spektraldata.
- Under 2017 introducerades Geo, ett tillägg för hantering av geo-platsdata och visualisering av geokartor
- Under 2018 startades utveckling och lansering av tillägg för encellsdataanalys.
- Under 2019 utvecklas Oranges grafiska gränssnitt som ett separat projekt, orange-canvas-core
- introduceras Explain-tillägget med widgets för att förklara klassificering eller regressionsmodell . Den förklarar vilka funktioner som bidrar mest och hur de bidrar till att förutsäga en specifik klass.
- 2022 introduceras World Happiness, ett tillägg till Orange3-sviten för datautvinning. Den tillhandahåller widgets för att komma åt socioekonomiska data från olika databaser som World Happiness Report , World Development Indicators, OECD.
- År 2022 utökas Explain-tillägget med en plot för individuella villkorliga förväntningar och tekniken Permutation Feature Importance.
Vidare läsning
- Demšar, Janez och Blaž Zupan, Data Mining Fruitful and Fun - A Historical Perspective , Informatica 37, sid. 55–60, (2013).
externa länkar
- Tillämpningar av artificiell intelligens
- Gratis programvara för flera plattformar
- Programvara för datautvinning och maskininlärning
- Programvara för datavisualisering
- Gratis programvara för plottning
- Gratis vetenskap programvara
- Gratis programvara programmerad i Python
- Numerisk programvara
- Vetenskapsprogramvara som använder Qt
- Programvara som använder GPL-licensen
- Programvara för tidsserier