Oracle Data Mining

Oracle Data Mining (ODM) är ett alternativ i Oracle Database Enterprise Edition. Den innehåller flera datautvinnings- och dataanalysalgoritmer för klassificering , förutsägelse , regression , associationer , funktionsval , anomalidetektering , funktionsextraktion och specialiserad analys. Det tillhandahåller medel för att skapa, hantera och driftsätta modeller för datautvinning i databasmiljön.

Oracle Data Mining
Utvecklare Oracle Corporation
Stabil frisättning
11gR2 / September 2009
Typ datautvinning och analys
Licens Proprietär
Hemsida Oracle Data Mining

Översikt

Oracle Corporation har implementerat en mängd olika datautvinningsalgoritmer i sin relationsdatabasprodukt Oracle Database . Dessa implementeringar integreras direkt med Oracles databaskärna och fungerar naturligt på data som lagras i relationsdatabastabellerna . Detta eliminerar behovet av extrahering eller överföring av data till fristående gruv-/analytiska servrar . Den relationella databasplattformen utnyttjas [ av vem? ] för att säkert hantera modeller och för att effektivt utföra SQL- frågor på stora datamängder. Systemet är organiserat kring ett fåtal generiska operationer som ger ett allmänt enhetligt gränssnitt för datautvinningsfunktioner . Dessa operationer inkluderar funktioner för att skapa , tillämpa , testa och manipulera datautvinningsmodeller . Modeller skapas och lagras som databasobjekt, och deras hantering sker inom databasen - liknande tabeller, vyer, index och andra databasobjekt.

Inom datautvinning kallas processen att använda en modell för att härleda förutsägelser eller beskrivningar av beteende som ännu inte har inträffat "scoring". I traditionella analytiska arbetsbänkar måste en modell inbyggd i analysmotorn distribueras i ett verksamhetskritiskt system för att poängsätta ny data, eller så flyttas data från relationstabeller till analytiska arbetsbänkar - de flesta arbetsbänkar erbjuder proprietära poänggränssnitt. ODM förenklar modelldistribution genom att erbjuda Oracle SQL-funktioner för att poängsätta data som lagras direkt i databasen. På så sätt kan användaren/applikationsutvecklaren dra nytta av Oracle SQLs fulla kraft - när det gäller möjligheten att pipeline och manipulera resultaten över flera nivåer, och när det gäller parallellisering och partitionering av dataåtkomst för prestanda.

Modeller kan skapas och hanteras på ett av flera sätt. Oracle Data Miner tillhandahåller ett grafiskt användargränssnitt som leder användaren genom processen att skapa, testa och tillämpa modeller (t.ex. i linje med CRISP-DM- metoden). Applikations- och verktygsutvecklare kan bädda in prediktiva och beskrivande miningfunktioner med hjälp av PL/SQL eller Java API :er . Affärsanalytiker kan snabbt experimentera med, eller demonstrera kraften i, prediktiv analys med hjälp av Oracle Spreadsheet Add-In för Predictive Analytics, ett dedikerat Microsoft Excel- adaptergränssnitt. ODM erbjuder ett urval av välkända maskininlärning som Decision Trees , Naive Bayes , Support vector machines , Generalized Linear Model (GLM) för predictive mining, Associationsregler , K-means och Orthogonal Partitioning Clustering och Icke-negativ matrisfaktorisering för beskrivande gruvdrift. En minsta beskrivningslängdbaserad teknik för att gradera den relativa betydelsen av inmatade gruvattribut för ett givet problem tillhandahålls också. De flesta Oracle Data Mining-funktioner tillåter också textutvinning genom att acceptera textattribut ( ostrukturerade data) som indata. Användare behöver inte konfigurera alternativ för textutvinning - Database_options hanterar detta bakom kulisserna.

Historia

Oracle Data Mining introducerades först 2002 och dess utgåvor är namngivna enligt motsvarande Oracle-databasversion:

  • Oracle Data Mining 9iR2 (9.2.0.1.0 - maj 2002)
  • Oracle Data Mining 10gR1 (10.1.0.2.0 - februari 2004)
  • Oracle Data Mining 10gR2 (10.2.0.1.0 - juli 2005)
  • Oracle Data Mining 11gR1 (11.1 - september 2007)
  • Oracle Data Mining 11gR2 (11.2 - september 2009)

Oracle Data Mining är en logisk efterföljare till Darwins verktygsuppsättning för datautvinning som utvecklades av Thinking Machines Corporation i mitten av 1990-talet och senare distribuerades av Oracle efter förvärvet av Thinking Machines 1999. Produkten i sig är dock en fullständig omdesign och omskrivning från grunden -up - medan Darwin var en klassisk GUI-baserad analytisk arbetsbänk, erbjuder ODM en utvecklings-/distributionsplattform för datautvinning integrerad i Oracle-databasen, tillsammans med Oracle Data Miner GUI.

Oracle Data Miner 11gR2 New Workflow GUI förhandsvisades på Oracle Open World 2009. Ett uppdaterat Oracle Data Miner GUI släpptes 2012. Det är gratis och finns tillgängligt som ett tillägg till Oracle SQL Developer 3.1.

Funktionalitet

Från och med release 11gR1 innehåller Oracle Data Mining följande dataminingfunktioner :

Ingångskällor och databeredning

De flesta Oracle Data Mining-funktioner accepterar en relationstabell eller vy som indata. Platta data kan kombineras med transaktionsdata genom att använda kapslade kolumner, vilket möjliggör utvinning av data som involverar en-till-många-relationer (t.ex. ett stjärnschema ). Hela SQL- funktionaliteten kan användas när man förbereder data för datautvinning, inklusive datum och rumslig data.

Oracle Data Mining särskiljer numeriska, kategoriska och ostrukturerade (text)attribut. Produkten tillhandahåller också verktyg för databeredningssteg före modellbyggande, såsom avvikande behandling, diskretisering , normalisering och binning ( sortering i allmänhet)

Grafiskt användargränssnitt: Oracle Data Miner

Användare kan komma åt Oracle Data Mining genom Oracle Data Miner, en GUI -klientapplikation som ger tillgång till datautvinningsfunktioner och strukturerade mallar (kallade Mining Activities) som automatiskt föreskriver operationsordningen, utför nödvändiga datatransformationer och ställer in modellparametrar. Användargränssnittet tillåter också automatisk generering av Java- och/eller SQL -kod associerad med datautvinningsaktiviteterna . Java Code Generator är ett tillägg till Oracle JDeveloper . Ett oberoende gränssnitt finns också: Spreadsheet Add-In för Predictive Analytics som möjliggör åtkomst till Oracle Data Mining Predictive Analytics PL/SQL- paketet från Microsoft Excel .

Från version 11.2 av Oracle-databasen integreras Oracle Data Miner med Oracle SQL Developer .

PL/SQL och Java-gränssnitt

Oracle Data Mining tillhandahåller ett inbyggt PL/SQL- paket (DBMS_DATA_MINING) för att skapa, förstöra, beskriva, tillämpa, testa, exportera och importera modeller. Koden nedan illustrerar ett typiskt anrop för att bygga en klassificeringsmodell :


   
                
                  
           
       
       
      
 BÖRJA  DBMS_DATA_MINING  .  CREATE_MODEL  (  model_name  =>  'credit_risk_model'  ,  function  =>  DBMS_DATA_MINING  .  classification  ,  data_table_name  =>  'credit_card_data'  ,  case_id_column_name  =>  'customer_id'  ,  target_column_name  =>  'credit_risk_name' , riskinställningar = 'credit_table_name'   ,  risk_inställningar  =  'kredit_risk_namn'  );  SLUT  ; 

där 'credit_risk_model' är modellnamnet, byggt i det uttryckliga syftet att klassificera framtida kunders 'credit_risk', baserat på utbildningsdata som tillhandahålls i tabellen 'credit_card_data', varje fall kännetecknas av ett unikt 'customer_id', med resten av modellparametrar som anges i tabellen 'credit_risk_model_settings'.

Oracle Data Mining stöder också ett Java API som överensstämmer med Java Data Mining -standarden (JDM) för datautvinning (JSR-73) för att möjliggöra integration med webb- och Java EE -applikationer och för att underlätta portabilitet mellan plattformar.

SQL-poängfunktioner

Från och med release 10gR2 innehåller Oracle Data Mining inbyggda SQL-funktioner för poängsättning av datautvinningsmodeller. Dessa enradsfunktioner stöder klassificering, regression, avvikelsedetektering, klustring och extraktion av funktioner. Koden nedan illustrerar en typisk användning av en klassificeringsmodell :

 
   
            SELECT  customer_name  FROM  credit_card_data  WHERE  PREDICTION  (  credit_risk_model  USING  *  )  =  'LOW'  AND  customer_value  =  'HIGH'  ; 

PMML

I Release 11gR2 (11.2.0.2) stöder ODM import av externt skapad PMML för några av datautvinningsmodellerna. PMML är en XML-baserad standard för att representera data mining-modeller.

Predictive analytics Microsoft Excel-tillägg

PL /SQL -paketet DBMS_PREDICTIVE_ANALYTICS automatiserar datautvinningsprocessen inklusive dataförbearbetning , modellbygge och utvärdering och poängsättning av ny data. PREDICT-operationen används för att förutsäga klassificering eller regression av målvärden medan EXPLAIN rangordnar attribut i inflytandeordning för att förklara ett urval av målkolumnsfunktioner. Den nya 11g-funktionen PROFILE hittar kundsegment och deras profiler, givet ett målattribut. Dessa operationer kan användas som en del av en operativ pipeline som ger handlingsbara resultat eller visas för tolkning av slutanvändare.

Referenser och vidare läsning

  • TH Davenport, Competing on Analytics , Harvard Business Review, januari 2006.
  •   I. Ben-Gal, Outlier detection , In: Maimon O. och Rockach L. (Eds.) Data Mining and Knowledge Discovery Handbook: A Complete Guide for Practitioners and Researchers," Kluwer Academic Publishers, 2005, ISBN 0-387-24435 -2 .
  •   MM Campos, PJ Stengard och BL Milenova, Datacentrerad Automated Data Mining. Vid den fjärde internationella konferensen om maskininlärning och tillämpningar 2005, 15–17 december 2005. pp8, ISBN 0-7695-2495-8
  •   MF Hornick, Erik Marcade och Sunil Venkayala. Java Data Mining: strategi, standard och praxis. Morgan-Kaufmann, 2006, ISBN 0-12-370452-9 .
  •   BL Milenova, JS Yarmus och MM Campos. SVM i Oracle-databas 10g: tar bort hindren för utbredd användning av stödvektormaskiner. Ingår i den 31:a internationella konferensen om mycket stora databaser (Trondheim, Norge, 30 augusti - 2 september 2005). pp1152–1163, ISBN 1-59593-154-6 .
  •   BL Milenova och MM Campos. O-kluster: skalbar klustring av stora högdimensionella datamängder. Vid 2002 års IEEE International Conference on Data Mining: ICDM 2002 . pp290–297, ISBN 0-7695-1754-4 .
  •   P. Tamayo, C. Berger, MM Campos, JS Yarmus, BLMilenova, A. Mozes, M. Taft, M. Hornick, R. Krishnan, S.Thomas, M. Kelly, D. Mukhin, R. Haberstroh, S. Stephens och J. Myczkowski. Oracle Data Mining - Data Mining i databasmiljön. I del VII av Data Mining and Knowledge Discovery Handbook , Maimon, O.; Rokach, L. (Eds.) 2005, s315-1329, ISBN 0-387-24435-2 .
  • Brendan Tierney, Predictive Analytics using Oracle Data Miner: för dataforskaren, orakelanalytikern, orakelutvecklaren & DBA, Oracle Press, McGraw Hill, våren 2014.

Se även

  • Oracle LogMiner - i motsats till generisk datautvinning, inriktar sig på utvinning av information från de interna loggarna i en Oracle-databas

externa länkar