Standardsättande studie

Standardinställningsstudie är en officiell forskningsstudie utförd av en organisation som sponsrar tester för att fastställa ett snittvärde för testet. För att vara juridiskt försvarbar i USA, i synnerhet för bedömningar med hög insats, och uppfylla standarderna för utbildnings- och psykologiska tester, kan ett snittscore inte fastställas godtyckligt; det måste vara empiriskt motiverat. Till exempel kan organisationen inte bara bestämma sig för att snittresultatet ska vara 70 % korrekt. Istället genomförs en studie för att avgöra vilken poäng som bäst skiljer klassificeringen av examinander, såsom kompetent vs. inkompetent. Sådana studier kräver en hel del resurser, som involverar ett antal yrkesverksamma, särskilt med psykometrisk bakgrund. Standardsättningsstudier är av den anledningen opraktiska för vanliga klassrumssituationer, men i varje utbildningsskikt utförs standardsättning och det finns flera metoder.

Standardstudier utförs vanligtvis med fokusgrupper på 5-15 ämnesexperter som representerar nyckelintressenter för testet. När det till exempel sätts poäng för pedagogiska tester kan experter vara instruktörer som är bekanta med elevpopulationens kapacitet för testet.

Typer av normgivningsstudier

Standardstudier delas in i två kategorier, objektcentrerade och personcentrerade. Exempel på objektcentrerade metoder inkluderar metoderna Angoff, Ebel, Nedelsky, Bookmark och ID Matchning, medan exempel på personcentrerade metoder inkluderar metoderna Borderline Survey och Contrasting Groups. Dessa är så kategoriserade efter analysens fokus; i objektcentrerade studier utvärderar organisationen objekt med avseende på en given population av personer och vice versa för personcentrerade studier.

Artikelcentrerade studier är relaterade till kriterium-refererade test och till norm-refererade test .

Artikelcentrerade studier

Angoff -metoden (objektcentrerad): Denna metod kräver sammansättning av en grupp ämnesexperter (SMF), som ombeds att utvärdera varje punkt och uppskatta andelen minimalt kompetenta examinerade som skulle svara korrekt på frågan. Betygen beräknas i medeltal mellan bedömare för varje objekt och summeras sedan för att få ett panelrekommenderat råresultat. Detta snittvärde representerar sedan poängen som panelen uppskattar att en minimalt kompetent kandidat skulle få. Detta är givetvis föremål för beslutsfördomar som till exempel övertroende . Kalibrering med andra, mer objektiva, datakällor är att föredra. Det finns flera varianter av metoden.
Modifierad Angoff-metod (objektcentrerad): Ämnesexperter informeras i allmänhet om Angoff-metoden och får ta testet med prestationsnivåerna i åtanke. Små och medelstora företag ombeds sedan att ge uppskattningar för varje fråga av andelen borderline- eller "minimalt acceptabla" deltagare som de förväntar sig att få frågan korrekt. Uppskattningarna är i allmänhet i form av p-värde (t.ex. 0,6 för punkt 1: 60 % av deltagarna som passerar gränsen skulle få den här frågan korrekt). Flera omgångar genomförs i allmänhet med små och medelstora företag som får ändra sina uppskattningar med tanke på olika typer av information (t.ex. information om faktiska deltagares prestationer för varje fråga, andra uppskattningar av små och medelstora företag, etc.). Den slutliga bestämningen av snittpoängen görs sedan (t.ex. genom att beräkna ett medelvärde eller ta medianen), vilket ofta dokumenteras i en rapport tillsammans med sekundära resultat såsom interbedömartillförlitligheten eller Beuk-kompromissen. Programvara används vanligtvis för att beräkna dessa. Denna metod används vanligtvis med flervalsfrågor.
Dikotom modifierad Angoff-metod (objektcentrerad): I den dikotom modifierade Angoff-metoden, istället för att använda statistik av svårighetsnivåtyp (vanligtvis p-värden), uppmanas små och medelstora företag att helt enkelt ange en 0/1 för varje fråga ("0" om en borderline acceptabel deltagare skulle få frågan fel och "1" om en borderline acceptabel deltagare skulle få artikeln rätt)
Nedelsky-metoden (objektcentrerad): Små och medelstora företag fattar beslut på en fråga-för-fråga-basis om vilka av frågorna som distraherar de anser att borderline-deltagare skulle kunna eliminera som felaktiga. Denna metod används i allmänhet endast med flervalsfrågor.
Bokmärkesmetod (objektcentrerad): Objekt i ett test (eller en representativ delmängd av artiklar) är sorterade efter svårighetsgrad (t.ex. sannolikhetsvärde för IRT-svar) från lättast till svårast. Små och medelstora företag placerar ett "bokmärke" i "beställd artikelhäfte" så att en elev på tröskeln till en prestationsnivå förväntas svara framgångsrikt på föremålen före bokmärket med en sannolikhet lika med eller större än det angivna sannolikhetsvärdet för svar (och med en sannolikhet mindre än det värdet för objekt efter bokmärket). Till exempel, för en svarssannolikhet på 0,67 (RP67) skulle små och medelstora företag placera ett bokmärke så att en examinand vid tröskeln till prestationsnivån skulle ha minst 2/3 sannolikhet för framgång på objekt före bokmärket och mindre än en 2/3 sannolikhet för framgång på objekten efter bokmärket" Den här metoden anses vara effektiv med avseende på att sätta flera snittpoäng på ett enda test och kan användas med tester som består av flera objekttyper (t.ex. flervals-, konstruktionssvar, etc.).
Item-Descriptor (ID) Matchning (artikelcentrerad): ID-matchning (a) kombinerar fördelarna med bokmärkesmetoden; dvs den beställda artikelboken och informationen om empirisk artikelsvårigheter som förmedlas i den beställningen; och (b) hypotesen lägre kognitiv komplexitet och kognitiv belastning av andra metoder; det krävs inga felbenägna sannolikhetsbedömningar; matcha egenskaperna hos objekt med egenskaper i beskrivningar av prestationsnivåer, vilket är väl lämpat för människor i allmänhet, och särskilt till pedagogernas kunskap och expertis; och du behöver inte ha en borderline-examinand i åtanke när du gör bedömningen av snittpoängen.

Personcentrerade studier

Snarare än de punkter som utmärker kompetenta kandidater, utvärderar personcentrerade studier själva examinatorerna. Även om detta kan tyckas mer lämpligt, är det ofta svårare eftersom examinander inte är en fången population, liksom en lista över objekt. Till exempel, om ett nytt test kommer ut angående nytt innehåll (som ofta händer i informationstekniktester ), kan testet ges till ett initialt urval som kallas betaprov, tillsammans med en undersökning av professionella egenskaper. Testorganisationen kan sedan analysera och utvärdera sambandet mellan testresultaten och viktig statistik, såsom färdigheter, utbildning och erfarenhet. Cutpoängen kan sättas som den poäng som bäst skiljer mellan de examinander som karakteriseras som "godkända" och de som "underkända".

Borderline groups metod (personcentrerad): En beskrivning upprättas för varje prestationskategori. Små och medelstora företag ombeds att skicka in en lista över deltagare vars prestationer på testet bör ligga nära prestationsstandarden (borderline). Testet administreras till dessa borderline-grupper och mediantestresultatet används som cut-poäng. Den här metoden kan användas med praktiskt taget alla frågetyper (t.ex. flervalsfrågor , flersvarssvar, uppsats , etc.).
Metod för kontrasterande grupper (personcentrerad): Små och medelstora företag ombeds att kategorisera deltagarna i sina klasser enligt prestationskategoribeskrivningarna. Testet administreras till alla kategoriserade deltagare och testresultatfördelningarna för var och en av de kategoriserade grupperna jämförs. Där fördelningarna av de kontrasterande grupperna skär varandra är där snittpoängen skulle vara placerad. Denna metod kan användas med praktiskt taget alla frågetyper (t.ex. flervalsfrågor, flersvarssvar, uppsats, etc.).