SEMMA
SEMMA är en akronym som står för Sample , Explore , Modify , Model och Assess . Det är en lista med sekventiella steg utvecklad av SAS Institute , en av de största producenterna av statistik och omvärldsprogramvara . Den vägleder implementeringen av datautvinningsapplikationer . Även om SEMMA ofta anses vara en allmän datautvinningsmetod, hävdar SAS att det är "snarare en logisk organisation av den funktionella verktygsuppsättningen av" en av deras produkter, SAS Enterprise Miner, "för att utföra kärnuppgifterna för datautvinning" .
Bakgrund
Inom det växande området för datautvinning har det efterlysts en standardmetodik eller en enkel lista över bästa praxis för den diversifierade och iterativa processen för datautvinning som användare kan tillämpa på sina datautvinningsprojekt oavsett bransch. Medan Cross Industry Standard Process for Data Mining eller CRISP-DM, grundad av European Strategic Program on Research in Information Technology- initiativet, syftade till att skapa en neutral metodik, erbjöd SAS också ett mönster att följa i sina datautvinningsverktyg.
Faser av SEMMA
Faserna av SEMMA och relaterade uppgifter är följande:
- Prov . Processen börjar med datasampling , t.ex. val av datamängd för modellering. Datauppsättningen bör vara tillräckligt stor för att innehålla tillräckligt med information att hämta, men ändå tillräckligt liten för att kunna användas effektivt. Denna fas behandlar även datapartitionering.
- Utforska . Denna fas täcker förståelsen av data genom att upptäcka förväntade och oväntade samband mellan variablerna, och även abnormiteter, med hjälp av datavisualisering .
- Ändra . Modifieringsfasen innehåller metoder för att välja, skapa och transformera variabler som förberedelse för datamodellering.
- Modell . I modellfasen ligger fokus på att tillämpa olika modelleringstekniker (data mining) på de förberedda variablerna för att skapa modeller som eventuellt ger önskat resultat.
- Bedöm . Den sista fasen är Bedöm. Utvärderingen av modelleringsresultaten visar tillförlitligheten och användbarheten av de skapade modellerna.
Kritik
SEMMA fokuserar huvudsakligen på modelleringsuppgifterna för datautvinningsprojekt och utelämnar affärsaspekterna (till skillnad från t.ex. CRISP-DM och dess affärsförståelsefas). Dessutom är SEMMA utformad för att hjälpa användare av programvaran SAS Enterprise Miner. Därför kan det vara tvetydigt att använda det utanför Enterprise Miner. Men för att slutföra "Sampling"-fasen av SEMMA måste en djup förståelse av affärsaspekterna vara ett krav för att göra effektiv provtagning. Så i själva verket skulle en affärsförståelse krävas för att effektivt slutföra provtagningen.