Begreppsdrift

Inom prediktiv analys , datavetenskap , maskininlärning och relaterade områden är konceptdrift eller drift en utveckling av data som ogiltigförklarar datamodellen . Det händer när de statistiska egenskaperna hos målvariabeln, som modellen försöker förutsäga, förändras över tid på oförutsedda sätt. Detta orsakar problem eftersom förutsägelserna blir mindre exakta med tiden. Driftdetektering och driftanpassning är av största vikt inom de områden som involverar dynamiskt förändrade data och datamodeller.

Prediktiv modellförfall

Inom maskininlärning och prediktiv analys kallas detta driftfenomen konceptdrift. Inom maskininlärning är ett vanligt inslag i en datamodell de statistiska egenskaperna, såsom sannolikhetsfördelningen av den faktiska datan. Om de avviker från de statistiska egenskaperna för träningsdatauppsättningen kan de inlärda förutsägelserna bli ogiltiga om driften inte åtgärdas.

Datakonfiguration förfaller

Ett annat viktigt område är mjukvaruteknik , där tre typer av datadrift som påverkar datatillförlitlighet kan kännas igen. Ändringar i mjukvarumiljön ("infrastrukturdrift") kan ogiltigförklara konfigurationen av programvarans infrastruktur. "Strukturell drift" inträffar när dataschemat ändras , vilket kan göra databaser ogiltiga. "Semantisk drift" är förändringar i betydelsen av data medan strukturen inte förändras. I många fall kan detta hända i komplicerade applikationer då oberoende utvecklare kan införa förändringar utan ordentlig medvetenhet om effekterna av deras ändringar i andra delar av mjukvarusystemet.

För många applikationssystem kan karaktären av data som de arbetar på ändras av olika anledningar, t.ex. på grund av förändringar i affärsmodell, systemuppdateringar eller byte av plattform som systemet fungerar på.

När det gäller cloud computing kan infrastrukturdrift som kan påverka applikationer som körs på molnet orsakas av uppdateringar av molnprogramvara.

Det finns flera typer av skadliga effekter av datadrift på datatrohet. Datakorrosion skickar oupptäckt data in i systemet. Dataförlust inträffar när giltiga data ignoreras på grund av bristande överensstämmelse med det tillämpade schemat. Slöseri är fenomenet när nya datafält introduceras uppströms databehandlingspipelinen, men någonstans nedströms där saknas datafält.

Inkonsekventa data

"Datadrift" kan hänvisa till fenomenet när databasposter misslyckas med att matcha verkliga data på grund av förändringar i den senare över tiden. Detta är ett vanligt problem med databaser som involverar människor, såsom kunder, anställda, medborgare, invånare, etc. Människodata kan orsakas av oregistrerade ändringar i personuppgifter, såsom bostadsort eller namn, samt på grund av fel under dataingång.

"Datadrift" kan hänvisa till inkonsekvens av dataelement i flera repliker av en databas. Orsakerna kan vara svåra att identifiera. En enkel driftdetektering är att köra kontrollsumma regelbundet. Men botemedlet kanske inte är så lätt.

Exempel

I en bedrägeridetekteringsapplikation kan målkonceptet vara ett binärt attribut bedrägligt med värdena "ja" eller "nej" som indikerar om en given transaktion är bedräglig. Eller, i en väderprognosapplikation kan det finnas flera målbegrepp som temperatur, tryck och luftfuktighet.

Kundernas beteende i en onlinebutik kan förändras över tiden. Till exempel om veckoförsäljning av varor ska förutsägas, och en prediktiv modell har utvecklats som fungerar tillfredsställande. Modellen kan använda indata som hur mycket pengar som spenderas på annonsering , kampanjer som körs och andra mätvärden som kan påverka försäljningen. Modellen kommer sannolikt att bli mindre och mindre exakt med tiden – detta är konceptdrift. I varuförsäljningsapplikationen kan en orsak till konceptavvikelse vara säsongsvariationer, vilket innebär att köpbeteendet ändras säsongsmässigt. Kanske blir det högre försäljning under vintersemestern än under sommaren till exempel. Begreppsavvikning uppstår vanligtvis när kovariaterna som utgör datamängden börjar förklara variationen av din måluppsättning mindre exakt - det kan finnas vissa förvirrande variabler som har dykt upp och som man helt enkelt inte kan ta hänsyn till, vilket gör att modellens noggrannhet gradvis minskar med tid. I allmänhet rekommenderas det att utföra hälsokontroller som en del av efterproduktionsanalysen och att träna om modellen med nya antaganden om tecken på konceptdrift.

Möjliga botemedel

För att förhindra försämring av prediktionsnoggrannheten på grund av konceptdrift kan reaktiva lösningar och spårningslösningar användas. Reaktiva lösningar tränar om modellen som reaktion på en triggningsmekanism, såsom ett förändringsdetekteringstest, för att explicit detektera konceptdrift som en förändring i statistiken för den datagenererande processen. När konceptdrift detekteras är den nuvarande modellen inte längre uppdaterad och måste ersättas av en ny för att återställa prediktionsnoggrannheten. En brist med reaktiva tillvägagångssätt är att prestandan kan försämras tills förändringen upptäcks. Spårningslösningar försöker spåra förändringarna i konceptet genom att kontinuerligt uppdatera modellen. Metoder för att uppnå detta inkluderar maskininlärning online , frekvent omskolning av de senast observerade proverna och underhåll av en ensemble av klassificerare där en ny klassificerare tränas på den senaste satsen av exempel och ersätter den äldsta klassificeraren i ensemblen.

Kontextuell information, när den är tillgänglig, kan användas för att bättre förklara orsakerna till konceptavvikelsen: till exempel i applikationen för försäljningsprognoser kan konceptavvikelsen kompenseras genom att lägga till information om säsongen i modellen. Genom att tillhandahålla information om tiden på året kommer sannolikt graden av försämring av din modell att minska, konceptdrift kommer sannolikt inte att elimineras helt. Detta beror på att det faktiska shoppingbeteendet inte följer någon statisk, ändlig modell. Nya faktorer kan uppstå när som helst som påverkar shoppingbeteendet, påverkan av de kända faktorerna eller deras interaktioner kan förändras.

Begreppsdrift kan inte undvikas för komplexa fenomen som inte styrs av fasta naturlagar . Alla processer som uppstår från mänsklig aktivitet, såsom socioekonomiska processer och biologiska processer, kommer sannolikt att uppleva konceptdrift. Därför är periodisk omskolning, även känd som uppfriskande, av vilken modell som helst nödvändig.

programvara

NannyML : Ett Python- bibliotek med öppen källkod för att detektera univariat och multivariat distributionsdrift och uppskatta prestanda för maskininlärningsmodeller utan marksanningsetiketter.
RapidMiner : Formerly Yet Another Learning Environment (YALE): gratis programvara med öppen källkod för kunskapsupptäckande, datautvinning och maskininlärning, som också innehåller dataströmsutvinning, inlärning av tidsvarierande koncept och spårning av driftkoncept. Den används i kombination med dess plugin för dataströmsutvinning (tidigare konceptdriftplugin).
EDDM ( Early Drift Detection Method ): gratis implementering med öppen källkod av driftdetekteringsmetoder i Weka .
MOA (Massive Online Analysis) : gratis programvara med öppen källkod specifik för att bryta dataströmmar med konceptdrift. Den innehåller en prekventiell utvärderingsmetod, EDDM-konceptdriftmetoderna, en läsare av ARFF-verkliga datauppsättningar och artificiella strömgeneratorer som SEA-koncept, STAGGER, roterande hyperplan, slumpmässigt träd och slumpmässiga radiebaserade funktioner. MOA stöder dubbelriktad interaktion med Weka .

Datauppsättningar

Verklig

USP Data Stream Repository , 27 verkliga strömdatauppsättningar med konceptdrift sammanställd av Souza et al. (2020). Tillgång
Flygbolag , cirka 116 miljoner flygankomst- och avgångsrekord (städade och sorterade) sammanställd av E. Ikonomovska. Referens: Data Expo 2009 Competition [1] . Tillgång
Datauppsättningar Chess.com (onlinespel) och Luxemburg (social survey) sammanställda av I. Zliobaite. Tillgång
ECUE spam 2-datauppsättningar som var och en består av mer än 10 000 e-postmeddelanden som samlats in under en period på cirka 2 år av en individ. Åtkomst från SJDelany webbsida
Elec2 , elbehov, 2 klasser, 45 312 instanser. Referens: M. Harries, Splice-2 jämförande utvärdering: Elprissättning, teknisk rapport, University of South Wales, 1999. Åtkomst från J.Gama webbsida. Kommentar om tillämplighet .
PAKDD'09 tävlingsdata representerar kreditvärderingsuppgiften. Den samlas in under en femårsperiod. Tyvärr släpps de riktiga etiketterna endast för den första delen av data. Tillgång
sensorström och strömförsörjning finns tillgängliga från X. Zhus Stream Data Mining Repository. Tillgång
SMEAR är en referensdataström med många saknade värden. Miljöobservationsdata över 7 år. Förutsäg molnighet. Tillgång
Text mining , en samling text mining -dataset med konceptdrift, underhållen av I. Katakis. Tillgång
Gas Sensor Array Drift Dataset , en samling av 13 910 mätningar från 16 kemiska sensorer som används för driftkompensation i en diskrimineringsuppgift med 6 gaser vid olika koncentrationsnivåer. Tillgång

Övrig

KDD'99 tävlingsdata innehåller simulerade intrång i en militär nätverksmiljö. Det används ofta som ett riktmärke för att utvärdera hanteringskonceptdrift. Tillgång

Syntetisk

Extrem verifieringsfördröjning benchmark Souza, VMA; Silva, DF; Gama, J.; Batista, GEAPA (2015). "Dataströmsklassificering vägleds av klustring i icke-stationära miljöer och extrem verifieringsfördröjning" . Proceedings of 2015 SIAM International Conference on Data Mining (SDM) . SIAM. s. 873–881. doi : 10.1137/1.9781611974010.98 . ISBN 9781611974010 . S2CID 19198944 . Åtkomst från icke-stationära miljöer – Arkiv.
Sinus, linje, plan, cirkel och booleska datamängder Minku, LL; White, AP; Yao, X. (2010). "Mångfaldens inverkan på ensemblelärande online i närvaro av konceptdrift" ( PDF) . IEEE-transaktioner på kunskaps- och datateknik . 22 (5): 730–742. doi : 10.1109/TKDE.2009.156 . S2CID 16592739 . Åtkomst från L.Minku webbsida.
SEA-koncept Street, NW; Kim, Y. (2001). "En strömningsensemblealgoritm (SEA) för storskalig klassificering" (PDF) . KDD'01: Proceedings of the sjunde ACM SIGKDD international conference on Knowledge discovery and data mining . s. 377–382. doi : 10.1145/502512.502568 . ISBN 978-1-58113-391-2 . S2CID 11868540 . Åtkomst från J.Gamas webbsida.
STAGGER Schlimmer, JC; Granger, RH (1986). "Inkrementellt lärande från bullriga data" . Mach. Lär dig . 1 (3): 317–354. doi : 10.1007/BF00116895 . S2CID 33776987 .
Mixed Gama, J.; Medas, P.; Castillo, G.; Rodrigues, P. (2004). "Lärande med driftdetektering" . Brasilianskt symposium om artificiell intelligens . Springer. s. 286–295. doi : 10.1007/978-3-540-28645-5_29 . ISBN 978-3-540-28645-5 .

Ramverk för datagenerering

Minku, White & Yao 2010 Ladda ner från L.Minku webbsida.
Lindström, P.; Delany, SJ; MacNamee, B. (2008). "Autopilot: Simulering av ändrade koncept i verkliga data" (PDF) . Proceedings från den 19:e irländska konferensen om artificiell intelligens och kognitiv vetenskap . s. 272–263.
Narasimhamurthy, A.; Kuncheva, LI (2007). "Ett ramverk för att generera data för att simulera föränderliga miljöer" . AIAP'07: Proceedings of the 25th IASTED International Multi-Conference: artificiell intelligens och tillämpningar . s. 384–389. Koda

Projekt

INFER : Computational Intelligence Platform for Evolving and Robust Predictive Systems (2010–2014), Bournemouth University (Storbritannien), Evonik Industries (Tyskland), Research and Engineering Center (Polen)
HaCDAIS : Handling Concept Drift in Adaptive Information Systems (2008–2012), Eindhovens tekniska universitet (Nederländerna)
KDUS : Kunskapsupptäckt från Ubiquitous Streams, INESC Porto och Laboratory of Artificial Intelligence and Decision Support (Portugal)
ADEPT : Adaptive Dynamic Ensemble Prediction Techniques, University of Manchester (UK), University of Bristol (UK)
ALADDIN : autonoma lärandeagenter för decentraliserade data- och informationsnätverk (2005–2010)
GAENARI : C++ inkrementell beslutsträdsalgoritm. det minimerar konceptdriftskador. (2022)
Exempel på konceptdriftanalys

Riktmärken

NAB : Numenta Anomaly Benchmark, riktmärke för att utvärdera algoritmer för avvikelsedetektering i streaming, realtidsapplikationer. (2014–2018)

Möten

2014
- [2] Specialsession om "Concept Drift, Domain Adaptation & Learning in Dynamic Environments" @IEEE IJCNN 2014
2013
- RealStream Real-World Challenges for Data Stream Mining Workshop-Diskussion vid ECML PKDD 2013, Prag, Tjeckien.
- LEAPS 2013 Den första internationella workshopen om lärandestrategier och databearbetning i icke-stationära miljöer
2011
- LEE 2011 specialsession om lärande i utvecklande miljöer och dess tillämpning på verkliga problem på ICMLA'11
- HaCDAIS 2011 Den andra internationella workshopen om hantering av konceptdrift i adaptiva informationssystem
- ICAIS 2011 Spår om inkrementellt lärande
- IJCNN 2011 specialsession om konceptdrift och inlärningsdynamiska miljöer
- CIDUE 2011 symposium om beräkningsintelligens i dynamiska och osäkra miljöer
2010
- HaCDAIS 2010 internationella workshop om hantering av konceptdrift i adaptiva informationssystem: betydelse, utmaningar och lösningar
- ICMLA10 Specialsession om dynamiskt lärande i icke-stationära miljöer
- SAC 2010 Dataströmmar spår vid ACM Symposium on Applied Computing
- SensorKDD 2010 Internationell workshop om kunskapsupptäckt från sensordata
- StreamKDD 2010 Novel Data Stream Pattern Mining Techniques
- Konceptdrift och lärande i icke-stationära miljöer vid IEEE World Congress on Computational Intelligence
- MLMDS'2010 specialsession om maskininlärningsmetoder för dataströmmar vid den 10:e internationella konferensen om intelligent design och tillämpningar, ISDA'10

Se även

Dataströmsutvinning
Data mining
Maskininlärning
Snyk , ett företag vars portfölj inkluderar driftdetektering i mjukvaruapplikationer

Bibliografiska referenser

Många artiklar har publicerats som beskriver algoritmer för detektering av konceptdrift. Endast recensioner, undersökningar och översikter finns här:

Recensioner

Souza, VMA; Reis, DM; Maletzke, AG; Batista, GEAPA (2020). "Utmaningar i benchmarking Strömma inlärningsalgoritmer med verkliga data" . Data Mining och Knowledge Discovery . 34 (6): 1805–58. arXiv : 2005.00113 . doi : 10.1007/s10618-020-00698-5 . S2CID 218470010 .
Krawczyk, B.; Minku, LL; Gama, J.; Stefanowski, J.; Wozniak, M. (2017). "Ensemble Learning for Data Stream Analysis: a survey" . Information Fusion . 37 : 132-156. doi : 10.1016/j.inffus.2017.02.004 . S2CID 1372281 .
Dal Pozzolo, A.; Boracchi, G.; Caelen, O.; Alippi, C.; Bontempi, G. (2015). "Detektering av kreditkortsbedrägerier och anpassning av konceptdrift med fördröjd övervakad information" ( PDF) . 2015 International Joint Conference on Neural Networks (IJCNN) . IEEE. s. 1–8. doi : 10.1109/IJCNN.2015.7280527 . ISBN 978-1-4799-1960-4 . S2CID 3947699 .
Alippi, C. (2014). "Lärande i icke-stationära och utvecklande miljöer" . Intelligens för inbyggda system . Springer. s. 211–247. doi : 10.1007/978-3-319-05278-6_9 . ISBN 978-3-319-05278-6 .
Gama, J.; Žliobaitė, I.; Bifet, A.; Pechenizkiy, M.; Bouchachia, A. (1 mars 2014), "A survey on concept drift adaptation" (PDF) , ACM Computing Surveys , 46 (4): 1–37, doi : 10.1145/2523813 , ISSN 0360-0300 , Wikidata Q5282044
Alippi, C.; Polikar, R. (januari 2014). "Gästredaktionellt lärande i icke-stationära och utvecklande miljöer" . IEEE-transaktioner på neurala nätverk och inlärningssystem . 25 (1): 9–11. doi : 10.1109/TNNLS.2013.2283547 . PMID 24806640 . S2CID 16547472 .
Dal Pozzolo, A.; Caelen, O.; Le Borgne, YA; Waterschoot, S.; Bontempi, G. (2014). "Lärda lektioner i att upptäcka kreditkortsbedrägerier ur ett praktikerperspektiv" ( PDF) . Expertsystem med applikationer . 41 (10): 4915–28. doi : 10.1016/j.eswa.2014.02.026 .
Zliobaite, I., Learning under Concept Drift: an Overview. Teknisk rapport. 2009, Fakulteten för matematik och informatik, Vilnius universitet: Vilnius, Litauen. PDF ^{[ permanent död länk ]}
Jiang, J. (2008). "En litteraturundersökning om domänanpassning av statistiska klassificerare" (PDF) . School of Computing and Information Systems, Singapore Management University.
Kuncheva, LI (2008). "Classifier-ensembler för att upptäcka konceptförändringar i strömmande data: Översikt och perspektiv" ( PDF) . Proceedings of the 2nd Workshop SUEMA 2008 (ECAI 2008) .
Gaber, MM; Zaslavsky, A.; Krishnaswamy, S. (juni 2005). "Mining Data Streams: A Review" (PDF) . ACM SIGMOD Record . 34 (2): 18–26. doi : 10.1145/1083784.1083789 . S2CID 705946 .
Kuncheva, LI (2004). "Classifier-ensembler för föränderliga miljöer" (PDF) . Flera klassificeringssystem. MCS 2004 . Föreläsningsanteckningar i datavetenskap. Vol. 3077. Springer. s. 1–15. doi : 10.1007/978-3-540-25966-4_1 . ISBN 978-3-540-25966-4 .
Tsymbal, A. (2004). Problemet med begreppsdrift: Definitioner och relaterat arbete (PDF) (Teknisk rapport). Dublin, Irland: Institutionen för datavetenskap, Trinity College. TCD-CS-2004-15.