Begreppsdrift

Inom prediktiv analys , datavetenskap , maskininlärning och relaterade områden är konceptdrift eller drift en utveckling av data som ogiltigförklarar datamodellen . Det händer när de statistiska egenskaperna hos målvariabeln, som modellen försöker förutsäga, förändras över tid på oförutsedda sätt. Detta orsakar problem eftersom förutsägelserna blir mindre exakta med tiden. Driftdetektering och driftanpassning är av största vikt inom de områden som involverar dynamiskt förändrade data och datamodeller.

Prediktiv modellförfall

Inom maskininlärning och prediktiv analys kallas detta driftfenomen konceptdrift. Inom maskininlärning är ett vanligt inslag i en datamodell de statistiska egenskaperna, såsom sannolikhetsfördelningen av den faktiska datan. Om de avviker från de statistiska egenskaperna för träningsdatauppsättningen kan de inlärda förutsägelserna bli ogiltiga om driften inte åtgärdas.

Datakonfiguration förfaller

Ett annat viktigt område är mjukvaruteknik , där tre typer av datadrift som påverkar datatillförlitlighet kan kännas igen. Ändringar i mjukvarumiljön ("infrastrukturdrift") kan ogiltigförklara konfigurationen av programvarans infrastruktur. "Strukturell drift" inträffar när dataschemat ändras , vilket kan göra databaser ogiltiga. "Semantisk drift" är förändringar i betydelsen av data medan strukturen inte förändras. I många fall kan detta hända i komplicerade applikationer då oberoende utvecklare kan införa förändringar utan ordentlig medvetenhet om effekterna av deras ändringar i andra delar av mjukvarusystemet.

För många applikationssystem kan karaktären av data som de arbetar på ändras av olika anledningar, t.ex. på grund av förändringar i affärsmodell, systemuppdateringar eller byte av plattform som systemet fungerar på.

När det gäller cloud computing kan infrastrukturdrift som kan påverka applikationer som körs på molnet orsakas av uppdateringar av molnprogramvara.

Det finns flera typer av skadliga effekter av datadrift på datatrohet. Datakorrosion skickar oupptäckt data in i systemet. Dataförlust inträffar när giltiga data ignoreras på grund av bristande överensstämmelse med det tillämpade schemat. Slöseri är fenomenet när nya datafält introduceras uppströms databehandlingspipelinen, men någonstans nedströms där saknas datafält.

Inkonsekventa data

"Datadrift" kan hänvisa till fenomenet när databasposter misslyckas med att matcha verkliga data på grund av förändringar i den senare över tiden. Detta är ett vanligt problem med databaser som involverar människor, såsom kunder, anställda, medborgare, invånare, etc. Människodata kan orsakas av oregistrerade ändringar i personuppgifter, såsom bostadsort eller namn, samt på grund av fel under dataingång.

"Datadrift" kan hänvisa till inkonsekvens av dataelement i flera repliker av en databas. Orsakerna kan vara svåra att identifiera. En enkel driftdetektering är att köra kontrollsumma regelbundet. Men botemedlet kanske inte är så lätt.

Exempel

I en bedrägeridetekteringsapplikation kan målkonceptet vara ett binärt attribut bedrägligt med värdena "ja" eller "nej" som indikerar om en given transaktion är bedräglig. Eller, i en väderprognosapplikation kan det finnas flera målbegrepp som temperatur, tryck och luftfuktighet.

Kundernas beteende i en onlinebutik kan förändras över tiden. Till exempel om veckoförsäljning av varor ska förutsägas, och en prediktiv modell har utvecklats som fungerar tillfredsställande. Modellen kan använda indata som hur mycket pengar som spenderas på annonsering , kampanjer som körs och andra mätvärden som kan påverka försäljningen. Modellen kommer sannolikt att bli mindre och mindre exakt med tiden – detta är konceptdrift. I varuförsäljningsapplikationen kan en orsak till konceptavvikelse vara säsongsvariationer, vilket innebär att köpbeteendet ändras säsongsmässigt. Kanske blir det högre försäljning under vintersemestern än under sommaren till exempel. Begreppsavvikning uppstår vanligtvis när kovariaterna som utgör datamängden börjar förklara variationen av din måluppsättning mindre exakt - det kan finnas vissa förvirrande variabler som har dykt upp och som man helt enkelt inte kan ta hänsyn till, vilket gör att modellens noggrannhet gradvis minskar med tid. I allmänhet rekommenderas det att utföra hälsokontroller som en del av efterproduktionsanalysen och att träna om modellen med nya antaganden om tecken på konceptdrift.

Möjliga botemedel

För att förhindra försämring av prediktionsnoggrannheten på grund av konceptdrift kan reaktiva lösningar och spårningslösningar användas. Reaktiva lösningar tränar om modellen som reaktion på en triggningsmekanism, såsom ett förändringsdetekteringstest, för att explicit detektera konceptdrift som en förändring i statistiken för den datagenererande processen. När konceptdrift detekteras är den nuvarande modellen inte längre uppdaterad och måste ersättas av en ny för att återställa prediktionsnoggrannheten. En brist med reaktiva tillvägagångssätt är att prestandan kan försämras tills förändringen upptäcks. Spårningslösningar försöker spåra förändringarna i konceptet genom att kontinuerligt uppdatera modellen. Metoder för att uppnå detta inkluderar maskininlärning online , frekvent omskolning av de senast observerade proverna och underhåll av en ensemble av klassificerare där en ny klassificerare tränas på den senaste satsen av exempel och ersätter den äldsta klassificeraren i ensemblen.

Kontextuell information, när den är tillgänglig, kan användas för att bättre förklara orsakerna till konceptavvikelsen: till exempel i applikationen för försäljningsprognoser kan konceptavvikelsen kompenseras genom att lägga till information om säsongen i modellen. Genom att tillhandahålla information om tiden på året kommer sannolikt graden av försämring av din modell att minska, konceptdrift kommer sannolikt inte att elimineras helt. Detta beror på att det faktiska shoppingbeteendet inte följer någon statisk, ändlig modell. Nya faktorer kan uppstå när som helst som påverkar shoppingbeteendet, påverkan av de kända faktorerna eller deras interaktioner kan förändras.

Begreppsdrift kan inte undvikas för komplexa fenomen som inte styrs av fasta naturlagar . Alla processer som uppstår från mänsklig aktivitet, såsom socioekonomiska processer och biologiska processer, kommer sannolikt att uppleva konceptdrift. Därför är periodisk omskolning, även känd som uppfriskande, av vilken modell som helst nödvändig.

programvara

  • NannyML : Ett Python- bibliotek med öppen källkod för att detektera univariat och multivariat distributionsdrift och uppskatta prestanda för maskininlärningsmodeller utan marksanningsetiketter.
  • RapidMiner : Formerly Yet Another Learning Environment (YALE): gratis programvara med öppen källkod för kunskapsupptäckande, datautvinning och maskininlärning, som också innehåller dataströmsutvinning, inlärning av tidsvarierande koncept och spårning av driftkoncept. Den används i kombination med dess plugin för dataströmsutvinning (tidigare konceptdriftplugin).
  • EDDM ( Early Drift Detection Method ): gratis implementering med öppen källkod av driftdetekteringsmetoder i Weka .
  • MOA (Massive Online Analysis) : gratis programvara med öppen källkod specifik för att bryta dataströmmar med konceptdrift. Den innehåller en prekventiell utvärderingsmetod, EDDM-konceptdriftmetoderna, en läsare av ARFF-verkliga datauppsättningar och artificiella strömgeneratorer som SEA-koncept, STAGGER, roterande hyperplan, slumpmässigt träd och slumpmässiga radiebaserade funktioner. MOA stöder dubbelriktad interaktion med Weka .

Datauppsättningar

Verklig

  • USP Data Stream Repository , 27 verkliga strömdatauppsättningar med konceptdrift sammanställd av Souza et al. (2020). Tillgång
  • Flygbolag , cirka 116 miljoner flygankomst- och avgångsrekord (städade och sorterade) sammanställd av E. Ikonomovska. Referens: Data Expo 2009 Competition [1] . Tillgång
  • Datauppsättningar Chess.com (onlinespel) och Luxemburg (social survey) sammanställda av I. Zliobaite. Tillgång
  • ECUE spam 2-datauppsättningar som var och en består av mer än 10 000 e-postmeddelanden som samlats in under en period på cirka 2 år av en individ. Åtkomst från SJDelany webbsida
  • Elec2 , elbehov, 2 klasser, 45 312 instanser. Referens: M. Harries, Splice-2 jämförande utvärdering: Elprissättning, teknisk rapport, University of South Wales, 1999. Åtkomst från J.Gama webbsida. Kommentar om tillämplighet .
  • PAKDD'09 tävlingsdata representerar kreditvärderingsuppgiften. Den samlas in under en femårsperiod. Tyvärr släpps de riktiga etiketterna endast för den första delen av data. Tillgång
  • sensorström och strömförsörjning finns tillgängliga från X. Zhus Stream Data Mining Repository. Tillgång
  • SMEAR är en referensdataström med många saknade värden. Miljöobservationsdata över 7 år. Förutsäg molnighet. Tillgång
  • Text mining , en samling text mining -dataset med konceptdrift, underhållen av I. Katakis. Tillgång
  • Gas Sensor Array Drift Dataset , en samling av 13 910 mätningar från 16 kemiska sensorer som används för driftkompensation i en diskrimineringsuppgift med 6 gaser vid olika koncentrationsnivåer. Tillgång

Övrig

  • KDD'99 tävlingsdata innehåller simulerade intrång i en militär nätverksmiljö. Det används ofta som ett riktmärke för att utvärdera hanteringskonceptdrift. Tillgång

Syntetisk

Ramverk för datagenerering

Projekt

  • INFER : Computational Intelligence Platform for Evolving and Robust Predictive Systems (2010–2014), Bournemouth University (Storbritannien), Evonik Industries (Tyskland), Research and Engineering Center (Polen)
  • HaCDAIS : Handling Concept Drift in Adaptive Information Systems (2008–2012), Eindhovens tekniska universitet (Nederländerna)
  • KDUS : Kunskapsupptäckt från Ubiquitous Streams, INESC Porto och Laboratory of Artificial Intelligence and Decision Support (Portugal)
  • ADEPT : Adaptive Dynamic Ensemble Prediction Techniques, University of Manchester (UK), University of Bristol (UK)
  • ALADDIN : autonoma lärandeagenter för decentraliserade data- och informationsnätverk (2005–2010)
  • GAENARI : C++ inkrementell beslutsträdsalgoritm. det minimerar konceptdriftskador. (2022)
  • Exempel på konceptdriftanalys

Riktmärken

  • NAB : Numenta Anomaly Benchmark, riktmärke för att utvärdera algoritmer för avvikelsedetektering i streaming, realtidsapplikationer. (2014–2018)

Möten

  • 2014
    • [2] Specialsession om "Concept Drift, Domain Adaptation & Learning in Dynamic Environments" @IEEE IJCNN 2014
  • 2013
    • RealStream Real-World Challenges for Data Stream Mining Workshop-Diskussion vid ECML PKDD 2013, Prag, Tjeckien.
    • LEAPS 2013 Den första internationella workshopen om lärandestrategier och databearbetning i icke-stationära miljöer
  • 2011
    • LEE 2011 specialsession om lärande i utvecklande miljöer och dess tillämpning på verkliga problem på ICMLA'11
    • HaCDAIS 2011 Den andra internationella workshopen om hantering av konceptdrift i adaptiva informationssystem
    • ICAIS 2011 Spår om inkrementellt lärande
    • IJCNN 2011 specialsession om konceptdrift och inlärningsdynamiska miljöer
    • CIDUE 2011 symposium om beräkningsintelligens i dynamiska och osäkra miljöer
  • 2010
    • HaCDAIS 2010 internationella workshop om hantering av konceptdrift i adaptiva informationssystem: betydelse, utmaningar och lösningar
    • ICMLA10 Specialsession om dynamiskt lärande i icke-stationära miljöer
    • SAC 2010 Dataströmmar spår vid ACM Symposium on Applied Computing
    • SensorKDD 2010 Internationell workshop om kunskapsupptäckt från sensordata
    • StreamKDD 2010 Novel Data Stream Pattern Mining Techniques
    • Konceptdrift och lärande i icke-stationära miljöer vid IEEE World Congress on Computational Intelligence
    • MLMDS'2010 specialsession om maskininlärningsmetoder för dataströmmar vid den 10:e internationella konferensen om intelligent design och tillämpningar, ISDA'10

Se även

Bibliografiska referenser

Många artiklar har publicerats som beskriver algoritmer för detektering av konceptdrift. Endast recensioner, undersökningar och översikter finns här:

Recensioner