Pedagogisk datautvinning

Educational data mining ( EDM ) är ett forskningsfält som handlar om tillämpningen av datautvinning , maskininlärning och statistik på information som genereras från utbildningsmiljöer (t.ex. universitet och intelligenta handledningssystem ). På en hög nivå försöker fältet utveckla och förbättra metoder för att utforska denna data, som ofta har flera nivåer av meningsfull hierarki , för att upptäcka nya insikter om hur människor lär sig i sådana sammanhang. Därmed har EDM bidragit till teorier om lärande som undersökts av forskare inom utbildningspsykologi och lärandevetenskaper . Fältet är nära knutet till inlärningsanalys , och de två har jämförts och kontrasteras.

Definition

Pedagogisk datautvinning hänvisar till tekniker, verktyg och forskning utformade för att automatiskt extrahera mening från stora datalager som genereras av eller relaterat till människors lärandeaktiviteter i utbildningsmiljöer. Ganska ofta är denna information omfattande, finkornig och exakt. Till exempel spårar flera lärandehanteringssystem (LMS) information som när varje elev fick åtkomst till varje lärobjekt , hur många gånger de fick åtkomst till det och hur många minuter lärobjektet visades på användarens datorskärm. Som ett annat exempel, intelligenta handledningssystem registrerar data varje gång en elev skickar in en lösning på ett problem. De kan samla in tidpunkten för inlämningen, oavsett om lösningen matchar den förväntade lösningen eller inte, hur lång tid som har gått sedan den senaste inlämningen, i vilken ordning lösningskomponenterna matades in i gränssnittet, etc. Precisionen för dessa data är sådan att även en ganska kort session med en datorbaserad lärmiljö ( t.ex. 30 minuter) kan producera en stor mängd processdata för analys.

I andra fall är uppgifterna mindre finkorniga. En students universitetsutskrift kan till exempel innehålla en tidsmässigt ordnad lista över kurser som studenten tagit, betyget som studenten fick i varje kurs och när studenten valde eller ändrade sitt akademiska huvudämne . EDM utnyttjar båda typerna av data för att upptäcka meningsfull information om olika typer av elever och hur de lär sig, strukturen av domänkunskap och effekten av instruktionsstrategier inbäddade i olika lärmiljöer. Dessa analyser ger ny information som skulle vara svår att urskilja genom att titta på rådata . Analys av data från ett lärosystem kan till exempel avslöja ett samband mellan lärobjekten som en student fick tillgång till under kursen och deras slutbetyg på kursen. På samma sätt kan en analys av studentutskriftsdata avslöja ett samband mellan en elevs betyg i en viss kurs och deras beslut att ändra sin akademiska huvudämne. Sådan information ger insikt i utformningen av lärmiljöer, vilket gör det möjligt för elever, lärare, skoladministratörer och utbildningspolitiska beslutsfattare att fatta välgrundade beslut om hur de ska interagera med, tillhandahålla och hantera utbildningsresurser.

Historia

Även om analys av utbildningsdata i sig inte är en ny praxis, har de senaste framstegen inom utbildningsteknologi , inklusive ökningen av datorkraft och förmågan att logga finkorniga data om elevers användning av en datorbaserad inlärningsmiljö, lett till en ökat intresse för att utveckla tekniker för att analysera de stora mängder data som genereras i utbildningsmiljöer. Detta intresse översattes till en serie EDM-workshops som hölls från 2000 till 2007 som en del av flera internationella forskningskonferenser . 2008 etablerade en grupp forskare vad som har blivit en årlig internationell forskningskonferens om EDM, varav den första ägde rum i Montreal, Quebec , Kanada.

När intresset för EDM fortsatte att öka, etablerade EDM-forskare en akademisk tidskrift 2009, Journal of Educational Data Mining, för att dela och sprida forskningsresultat. 2011 etablerade EDM-forskare International Educational Data Mining Society för att koppla samman EDM-forskare och fortsätta att växa inom området.

Med introduktionen av offentliga pedagogiska dataförråd 2008, såsom Pittsburgh Science of Learning Centres ( PSLC ) DataShop och National Center for Education Statistics (NCES), har offentliga datamängder gjort pedagogisk datautvinning mer tillgänglig och genomförbar, vilket har bidragit till dess tillväxt.

Mål

Ryan S. Baker och Kalina Yacef identifierade följande fyra mål för EDM:

  1. Förutsäga elevers framtida inlärningsbeteende – Med hjälp av elevmodellering kan detta mål uppnås genom att skapa elevmodeller som inkorporerar elevens egenskaper, inklusive detaljerad information som deras kunskap, beteenden och motivation att lära. Den studerandes användarupplevelse och deras övergripande tillfredsställelse med lärandet mäts också.
  2. Upptäcka eller förbättra domänmodeller – Genom de olika metoderna och tillämpningarna av EDM är det möjligt att upptäcka nya och förbättringar av befintliga modeller. Exempel inkluderar att illustrera det pedagogiska innehållet för att engagera eleverna och bestämma optimala instruktionssekvenser för att stödja elevens inlärningsstil.
  3. Att studera effekterna av pedagogiskt stöd som kan uppnås genom lärsystem.
  4. Förbättra vetenskaplig kunskap om lärande och elever genom att bygga och införliva studentmodeller, området för EDM-forskning och den teknik och programvara som används.

Användare och intressenter

Det finns fyra huvudanvändare och intressenter som är involverade i pedagogisk datautvinning. Dessa inkluderar:

  • Elever – Elever är intresserade av att förstå elevers behov och metoder för att förbättra elevens upplevelse och prestation. Elever kan till exempel också dra nytta av den upptäckta kunskapen genom att använda EDM-verktygen för att föreslå aktiviteter och resurser som de kan använda baserat på deras interaktioner med onlineinlärningsverktyget och insikter från tidigare eller liknande elever. För yngre elever kan pedagogisk datautvinning också informera föräldrar om deras barns inlärningsframsteg. Det är också nödvändigt att effektivt gruppera elever i en onlinemiljö. Utmaningen är att använda komplexa data för att lära sig och tolka dessa grupper genom att utveckla handlingsbara modeller.
  • Utbildare – Utbildare försöker förstå inlärningsprocessen och de metoder de kan använda för att förbättra sina undervisningsmetoder. Lärare kan använda tillämpningarna av EDM för att bestämma hur de ska organisera och strukturera läroplanen, de bästa metoderna för att leverera kursinformation och verktygen att använda för att engagera sina elever för optimala läranderesultat. Framför allt ger destillationen av data för mänsklig bedömningsteknik en möjlighet för lärare att dra nytta av EDM eftersom det gör det möjligt för utbildare att snabbt identifiera beteendemönster, vilket kan stödja deras undervisningsmetoder under kursens varaktighet eller för att förbättra framtida kurser. Lärare kan fastställa indikatorer som visar elevernas tillfredsställelse och engagemang i kursmaterialet, och även övervaka inlärningsframstegen.
  • Forskare – Forskare fokuserar på utveckling och utvärdering av datautvinningstekniker för effektivitet. En årlig internationell konferens för forskare inleddes 2008. Det breda utbudet av ämnen inom EDM sträcker sig från att använda datautvinning för att förbättra institutionell effektivitet till studentprestationer.
  • Administratörer – Administratörer ansvarar för att fördela resurserna för implementering i institutioner. Eftersom institutioner i allt högre grad hålls ansvariga för studentframgång, blir administrationen av EDM-ansökningar vanligare i utbildningsmiljöer. Fakulteten och rådgivare blir mer proaktiva när det gäller att identifiera och ta itu med riskstudenter. Det är dock ibland en utmaning att få informationen till beslutsfattarna för att administrera ansökan i tid och effektivt.

Faser

Eftersom forskning inom området pedagogisk datautvinning har fortsatt att växa, har en myriad av datautvinningstekniker tillämpats på en mängd olika utbildningssammanhang. I varje fall är målet att översätta rådata till meningsfull information om inlärningsprocessen för att kunna fatta bättre beslut om utformningen och banan för en lärandemiljö. Således består EDM i allmänhet av fyra faser:

  1. Den första fasen av EDM-processen ( förbearbetning räknas inte med ) är att upptäcka relationer i data. Detta innebär att man söker igenom ett arkiv med data från en utbildningsmiljö med målet att hitta konsekventa samband mellan variabler . Flera algoritmer för att identifiera sådana samband har använts, inklusive klassificering , regression , klustring , faktoranalys , sociala nätverksanalys , associationsregelutvinning och sekventiell mönsterutvinning .
  2. Upptäckta samband måste sedan valideras för att undvika överanpassning .
  3. Validerade relationer används för att göra förutsägelser om framtida händelser i lärmiljön.
  4. Förutsägelser används för att stödja beslutsprocesser och politiska beslut.

Under fas 3 och 4 visualiseras data ofta eller på annat sätt destilleras för mänskligt omdöme. En stor mängd forskning har utförts i bästa praxis för visualisering av data .

Huvudsakliga tillvägagångssätt

Av de allmänna kategorierna av metoder som nämns anses förutsägelse , klustring och relationsutvinning vara universella metoder för alla typer av datautvinning; Upptäckt med modeller och destillation av data för mänskligt omdöme anses dock vara mer framträdande tillvägagångssätt inom pedagogisk datautvinning.

Upptäckt med modeller

I Discovery with Model-metoden utvecklas en modell via förutsägelse, klustring eller genom kunskapsteknik för mänskligt resonemang och används sedan som en komponent i en annan analys, nämligen vid förutsägelse och relationsutvinning. Vid prediktionsmetoden används den skapade modellens prediktioner för att förutsäga en ny variabel . För användning av relationsmining möjliggör den skapade modellen analysen mellan nya förutsägelser och ytterligare variabler i studien. I många fall använder upptäckter med modeller validerade prediktionsmodeller som har bevisat generaliserbarhet över sammanhang.

Viktiga tillämpningar av denna metod inkluderar att upptäcka samband mellan elevers beteenden, egenskaper och kontextuella variabler i inlärningsmiljön. Ytterligare upptäckt av breda och specifika forskningsfrågor inom ett brett spektrum av sammanhang kan också utforskas med denna metod.

Destillering av data för mänskligt omdöme

Människor kan dra slutsatser om data som kan ligga utanför den omfattning som en automatiserad datautvinningsmetod ger. För användning av utbildningsdatautvinning destilleras data för mänskligt omdöme för två huvudändamål, identifiering och klassificering .

I identifieringssyfte destilleras data för att göra det möjligt för människor att identifiera välkända mönster, som annars kan vara svåra att tolka . Till exempel är inlärningskurvan , klassiskt för pedagogiska studier, ett mönster som tydligt speglar förhållandet mellan lärande och erfarenhet över tid.

Data destilleras också i syfte att klassificera egenskaper hos data, som för utbildningsdatautvinning används för att stödja utvecklingen av prediktionsmodellen. Klassificering hjälper till att påskynda utvecklingen av prediktionsmodellen, oerhört.

Målet med denna metod är att sammanfatta och presentera informationen på ett användbart, interaktivt och visuellt tilltalande sätt för att förstå de stora mängderna utbildningsdata och för att stödja beslutsfattande . I synnerhet är denna metod fördelaktig för utbildare när det gäller att förstå användningsinformation och effektivitet i kursaktiviteter. Nyckelapplikationer för destillering av data för mänskligt omdöme inkluderar att identifiera mönster i elevers lärande, beteende, möjligheter till samarbete och märkning av data för framtida användningar i prediktionsmodeller.

Ansökningar

En lista över de primära tillämpningarna av EDM tillhandahålls av Cristobal Romero och Sebastian Ventura. I deras taxonomi är EDM-applikationsområdena:

  • Analys och visualisering av data
  • Ge feedback till stödjande instruktörer
  • Rekommendationer till studenter
  • Förutsäga elevprestationer
  • Studentmodellering
  • Upptäcka oönskade elevbeteenden
  • Gruppera elever
  • Analys av sociala nätverk
  • Utveckla konceptkartor
  • Konstruera kursmaterial – EDM kan appliceras på kurshanteringssystem som Moodle med öppen källkod . Moodle innehåller användningsdata som inkluderar olika aktiviteter av användare såsom testresultat, antal slutförda avläsningar och deltagande i diskussionsforum . Data mining-verktyg kan användas för att anpassa inlärningsaktiviteter för varje användare och anpassa takten i vilken studenten slutför kursen. Detta är särskilt fördelaktigt för onlinekurser med varierande kompetensnivåer.
  • Planering och schemaläggning

Ny forskning om mobila lärmiljöer tyder också på att datautvinning kan vara användbart. Datautvinning kan användas för att tillhandahålla personligt anpassat innehåll till mobilanvändare, trots skillnaderna i hantering av innehåll mellan mobila enheter och vanliga datorer och webbläsare .

Nya EDM-applikationer kommer att fokusera på att tillåta icke-tekniska användare att använda och engagera sig i datautvinningsverktyg och -aktiviteter, vilket gör datainsamling och bearbetning mer tillgänglig för alla användare av EDM. Exempel inkluderar statistik- och visualiseringsverktyg som analyserar sociala nätverk och deras inflytande på inlärningsresultat och produktivitet.

Kurser

  1. I oktober 2013 erbjöd Coursera en gratis onlinekurs om "Big Data in Education" som lärde ut hur och när man använder nyckelmetoder för EDM. Den här kursen flyttade till edX sommaren 2015 och har fortsatt att köras på edX årligen sedan dess. Ett kursarkiv finns nu tillgängligt online.
  2. Teachers College, Columbia University erbjuder en MS i Learning Analytics.

Publiceringsplatser

Ansenliga mängder EDM-arbete publiceras på den peer-reviewed International Conference on Educational Data Mining, organiserad av International Educational Data Mining Society.

  • 1st International Conference on Educational Data Mining (2008) – Montreal, Kanada
  • 2nd International Conference on Educational Data Mining (2009) – Cordoba, Spanien
  • 3rd International Conference on Educational Data Mining (2010) – Pittsburgh, PA, USA
  • Fjärde internationella konferensen om utbildningsdatautvinning (2011) – Eindhoven, Nederländerna
  • 5th International Conference on Educational Data Mining (2012) – Chania, Grekland
  • 6:e internationella konferensen om utbildningsdatautvinning (2013) – Memphis, TN, USA
  • 7th International Conference on Educational Data Mining (2014) – London, Storbritannien
  • 8th International Conference on Educational Data Mining] (2015) – Madrid, Spanien
  • 9th International Conference on Educational Data Mining] (2016) – Raleigh, NC, USA
  • 10th International Conference on Educational Data Mining] (2017) – Wuhan, Kina
  • 11th International Conference on Educational Data Mining] (2018) – Buffalo, NY, USA
  • 12th International Conference on Educational Data Mining] (2019) – Montréal, QC, Kanada
  • 13th International Conference on Educational Data Mining] (2020) – Virtual
  • 14:e internationella konferensen om utbildningsdatautvinning (2021) – Paris, Frankrike

EDM-artiklar publiceras också i Journal of Educational Data Mining (JEDM).

Många EDM-artiklar publiceras rutinmässigt på relaterade konferenser, såsom artificiell intelligens och utbildning, intelligenta handledningssystem och användarmodellering, anpassning och personalisering .

2011 publicerade Chapman & Hall / CRC Press , Taylor och Francis Group den första Handbook of Educational Data Mining. Den här resursen skapades för dem som är intresserade av att delta i den pedagogiska datautvinningsgemenskapen.

Tävlingar

2010 genomfördes Föreningen för datormaskiners KDD Cup med hjälp av data från en utbildningsmiljö. Datauppsättningen tillhandahölls av DataShop och den bestod av över 1 000 000 datapunkter från studenter som använder en kognitiv handledare . Sexhundra lag tävlade om över 8 000 USD i prispengar (som donerades av Facebook ). Målet för de tävlande var att designa en algoritm som, efter att ha lärt sig av de tillhandahållna data, skulle göra de mest exakta förutsägelserna från ny data. Vinnarna skickade in en algoritm som använde funktionsgenerering (en form av representationsinlärning ), slumpmässiga skogar och Bayesianska nätverk .

Kostnader och utmaningar

Tillsammans med tekniska framsteg finns kostnader och utmaningar förknippade med implementering av EDM-applikationer. Dessa inkluderar kostnaderna för att lagra loggade data och kostnaderna för att anställa personal som är dedikerad till att hantera datasystem. Dessutom kan datasystem inte alltid integreras sömlöst med varandra och även med stöd av statistiska och visualiseringsverktyg kan det vara svårt att skapa en förenklad version av datan. Dessutom kan det vara svårt att välja vilken data som ska brytas och analyseras, vilket gör de inledande stadierna mycket tidskrävande och arbetskrävande. Från början till slut kräver EDM-strategin och implementeringen att man upprätthåller integritet och etik för alla involverade intressenter.

Kritik

  • Generaliserbarhet – Forskning inom EDM kan vara specifik för den speciella utbildningsmiljön och tiden under vilken forskningen utfördes, och som sådan kan den inte vara generaliserbar till andra institutioner. Forskning tyder också på att området pedagogisk datautvinning är koncentrerat till västländer och kulturer och att andra länder och kulturer kanske inte är representerade i forskningen och resultaten. Utveckling av framtida modeller bör beakta tillämpningar i flera sammanhang.
  • Sekretess – Individuell integritet är en fortsatt oro för tillämpningen av datautvinningsverktyg. Med kostnadsfria, tillgängliga och användarvänliga verktyg på marknaden kan elever och deras familjer utsättas för risker av informationen som eleverna ger till lärsystemet, i hopp om att få feedback som kommer att gynna deras framtida prestationer. När användare blir kunniga i sin förståelse av sekretess online måste administratörer av pedagogiska datautvinningsverktyg vara proaktiva för att skydda sina användares integritet och vara transparenta om hur och med vem informationen kommer att användas och delas . Utveckling av EDM-verktyg bör överväga att skydda individens integritet samtidigt som forskningen på detta område främjas.
  • Plagiat – Plagiatupptäckt är en ständig utmaning för lärare och lärare, oavsett om det är i klassrummet eller online. Men på grund av komplexiteten i samband med att upptäcka och förebygga digitalt plagiat i synnerhet, är pedagogiska datautvinningsverktyg för närvarande inte tillräckligt sofistikerade för att korrekt lösa detta problem. Därför bör utvecklingen av prediktiv förmåga i plagiatrelaterade frågor vara ett fokusområde i framtida forskning.
  • Adoption – Det är okänt hur utbrett antagandet av EDM är och i vilken utsträckning institutioner har tillämpat och övervägt att implementera en EDM-strategi. Som sådan är det oklart om det finns några hinder som hindrar användare från att anta EDM i sina utbildningsmiljöer.

Se även