Differentialobjekt fungerar
Differential item functioning ( DIF ) är en statistisk egenskap hos ett objekt som visar i vilken utsträckning objektet kan mäta olika förmågor för medlemmar i separata undergrupper. Genomsnittliga objektpoäng för undergrupper som har samma totalpoäng på testet jämförs för att avgöra om objektet mäter på i huvudsak samma sätt för alla undergrupper. Närvaron av DIF kräver granskning och bedömning, och det indikerar inte nödvändigtvis förekomsten av partiskhet. DIF-analys ger en indikation på oväntat beteende hos föremål på ett test. Ett objekt visar inte DIF om personer från olika grupper har olika sannolikhet att ge ett visst svar; den visar DIF om och bara om personer från olika grupper med samma underliggande sanna förmåga har olika sannolikhet att ge ett visst svar. Vanliga procedurer för att bedöma DIF är Mantel-Haenszel, IRT- baserade metoder och logistisk regression .
Beskrivning
DIF hänvisar till skillnader i funktionen hos objekt över grupper, ofta demografiska, som matchas på den latenta egenskapen eller mer allmänt attributet som mäts av objekten eller testet. Det är viktigt att notera att när man undersöker artiklar för DIF måste grupperna matchas på det uppmätta attributet, annars kan detta resultera i felaktig detektering av DIF. För att skapa en allmän förståelse för DIF eller mätbias, överväg följande exempel från Osterlind och Everson (2009). I detta fall hänvisar Y till ett svar på ett speciellt testobjekt som bestäms av den latenta konstruktionen som mäts. Den latenta konstruktionen av intresse hänvisas till som theta (θ) där Y är en indikator för θ som kan ordnas i termer av sannolikhetsfördelningen av Y på θ genom uttrycket f (Y)|θ . Därför är svar Y villkorat av den latenta egenskapen (θ). Eftersom DIF undersöker skillnader i de villkorliga sannolikheterna för Y mellan grupper, låt oss beteckna grupperna som "referens" och "fokal" grupper. Även om beteckningen inte spelar någon roll, är en typisk praxis i litteraturen att beteckna referensgruppen som den grupp som misstänks ha en fördel medan fokalgruppen hänvisar till den grupp som förväntas missgynnas av testet. [3] Därför, givet det funktionella sambandet och under antagandet att det finns identiska mätfelsfördelningar för referens- och fokalgrupperna kan man dra slutsatsen att under nollhypotesen :
med G som motsvarar grupperingsvariabeln, "r" referensgruppen och "f" fokalgruppen. Denna ekvation representerar ett fall där DIF inte är närvarande. I detta fall bestäms frånvaron av DIF av det faktum att den villkorade sannolikhetsfördelningen av Y inte är beroende av grupptillhörighet. För att illustrera, överväg ett objekt med svarsalternativ 0 och 1, där Y = 0 indikerar ett felaktigt svar och Y = 1 indikerar ett korrekt svar. Sannolikheten att svara korrekt på ett objekt är densamma för medlemmar i båda grupperna. Detta indikerar att det inte finns någon DIF- eller objektbias eftersom medlemmar av referens- och fokalgruppen med samma underliggande förmåga eller attribut har samma sannolikhet att svara korrekt. Därför finns det ingen partiskhet eller nackdel för en grupp framför den andra. Tänk på fallet där den villkorade sannolikheten för Y inte är densamma för referens- och fokalgrupperna. Med andra ord, medlemmar i olika grupper med samma egenskap eller förmågasnivå har ojämna sannolikhetsfördelningar på Y. När man väl kontrollerar för θ finns det ett tydligt beroende mellan gruppmedlemskap och prestation på ett objekt. För dikotoma objekt tyder detta på att när fokal- och referensgruppen är på samma plats på θ, finns det en annan sannolikhet att få ett korrekt svar eller godkänna ett objekt. Därför är gruppen med den högre villkorade sannolikheten att svara korrekt på ett objekt den grupp som gynnas av testobjektet. Detta tyder på att testobjektet är partiskt och fungerar annorlunda för grupperna, därför uppvisar DIF. Det är viktigt att göra skillnaden mellan DIF eller mätbias och vanliga gruppskillnader. Medan gruppskillnader indikerar olika poängfördelningar på Y, involverar DIF uttryckligen konditionering på θ. Tänk till exempel på följande ekvation:
Detta indikerar att en examinands poäng är villkorad av gruppering så att information om gruppmedlemskap ändrar sannolikheten för ett korrekt svar. Därför, om grupperna skiljer sig åt på θ, och prestandan beror på θ, skulle ovanstående ekvation föreslå objektbias även i frånvaro av DIF. Av denna anledning är det allmänt överens om i mätlitteraturen att skillnader på Y beroende på enbart gruppmedlemskap är otillräckliga för att etablera partiskhet. Faktum är att skillnader i θ eller förmåga är vanliga mellan grupper och lägger grunden för mycket forskning. Kom ihåg att etablera bias eller DIF, grupper måste matchas på θ och sedan visa differentiella sannolikheter på Y som en funktion av gruppmedlemskap.
Blanketter
Uniform DIF är den enklaste typen av DIF där storleken på villkorligt beroende är relativt invariant över det latenta dragkontinuumet (θ). Intresseobjektet ger konsekvent en grupp en fördel över alla nivåer av förmåga θ. Inom ett ramverk för objektresponsteori (IRT) skulle detta bevisas när båda objektkarakteristiska kurvorna (ICC) är lika särskiljande men ändå uppvisar skillnader i svårighetsparametrarna (dvs a r = a f och b r < b f ) som visas i figuren 1. Olikformig DIF presenterar dock ett intressant fall. Istället för att en konsekvent fördel ges till referensgruppen över förmågaskontinuumet, rör sig det villkorliga beroendet och ändrar riktning på olika platser på θ-kontinuumet. Till exempel kan ett objekt ge referensgruppen en mindre fördel i den nedre änden av kontinuumet medan en stor fördel i den högre änden. Till skillnad från enhetlig DIF kan ett föremål samtidigt variera i diskriminering för de två grupperna samtidigt som det varierar i svårighetsgrad (dvs a r ≠ a f och b r < b f ). Ännu mer komplext är att "korsa" ojämn DIF. Som visas i figur 2 inträffar detta när ett objekt ger en fördel till en referensgrupp i ena änden av θ-kontinuumet medan den gynnar fokalgruppen i den andra änden. Skillnader i ICC indikerar att examinerade från de två grupperna med identiska förmågasnivåer har olika sannolikheter att svara korrekt på ett objekt. När kurvorna är olika men inte skär varandra är detta ett bevis på enhetlig DIF. Men om ICC:erna korsar vid någon punkt längs θ-skalan, finns det bevis på olikformig DIF.
Procedurer för att detektera DIF
Mantel-Haenszel
En vanlig procedur för att detektera DIF är Mantel-Haenszel (MH) tillvägagångssätt. MH-proceduren är en chi-kvadratbaserad beredskapstabellbaserad tillvägagångssätt som undersöker skillnader mellan referens- och fokalgrupperna på alla punkter i testet, en efter en. Förmågans kontinuum, definierat av totala testresultat, är uppdelat i k intervaller som sedan fungerar som grund för att matcha medlemmar i båda grupperna. En 2 x 2 beredskapstabell används vid varje kintervall för att jämföra båda grupperna på en individuell post. Raderna i beredskapstabellen motsvarar gruppmedlemskap (referens eller fokal) medan kolumnerna motsvarar korrekta eller felaktiga svar. Följande tabell presenterar den allmänna formen för en enskild post vid det k: te förmågasintervallet.
Oddsförhållande
Nästa steg i beräkningen av MH-statistiken är att använda data från beredskapstabellen för att erhålla en oddskvot för de två grupperna på föremålet av intresse vid ett visst k- intervall. Detta uttrycks i termer av p och q där p representerar andelen korrekt och q andelen felaktig för både referens (R) och fokal (F) grupper. För MH-proceduren representeras det erhållna oddsförhållandet av α med ett möjligt värde som sträcker sig från 0 till ∞. Ett α -värde på 1,0 indikerar frånvaro av DIF och därmed liknande prestanda för båda grupperna. Värden större än 1,0 tyder på att referensgruppen överträffade eller tyckte att objektet var mindre svårt än fokalgruppen. Å andra sidan, om det erhållna värdet är mindre än 1,0, är detta en indikation på att objektet var mindre svårt för fokalgruppen. [8] Med hjälp av variabler från beredskapstabellen ovan är beräkningen som följer:
α = (p Rk / q Rk ) ⁄ (p Fk / q Fk )
= (A k / (A k + B k )) / (B k / (A k + B k )) ⁄ (C k / (C k + D k )) / (D k / (C k + D k ))
= (A k / B k ) ⁄ (C k / D k )
= A k D k ⁄ B k C k Ovanstående beräkning hänför sig till ett individuellt objekt med ett enda förmågasintervall. Populationsuppskattningen α kan utökas för att återspegla en gemensam oddskvot över alla förmågasintervall k för ett specifikt objekt. Den gemensamma oddskvotsestimatorn betecknas α MH och kan beräknas med följande ekvation:
α MH = Σ(Ak D k / N k ) ⁄ Σ(B k C k / N k ) för alla värden på k och där N k representerar den totala urvalsstorleken vid det k:te intervallet. Den erhållna α MH standardiseras ofta genom log-transformation, centrerar värdet runt 0. Den nya transformerade estimatorn MH D-DIF beräknas enligt följande: MH D-DIF = -2,35ln(α MH ) Sålunda skulle ett erhållet värde på 0 indikera ingen DIF. Vid granskning av ekvationen är det viktigt att notera att minustecknet ändrar tolkningen av värden mindre än eller större än 0. Värden mindre än 0 indikerar en referensgruppsfördel medan värden större än 0 indikerar en fördel för fokalgruppen.
Objektresponsteori
Item response theory (IRT) är en annan mycket använd metod för att bedöma DIF. IRT möjliggör en kritisk granskning av svar på särskilda objekt från ett test eller en åtgärd. Som nämnts tidigare undersöker DIF sannolikheten för att korrekt svara på eller godkänna ett objekt beroende på den latenta egenskapen eller förmågan. Eftersom IRT undersöker det monotona förhållandet mellan svar och den latenta egenskapen eller förmågan, är det ett passande tillvägagångssätt för att undersöka DIF. Tre stora fördelar med att använda IRT i DIF-detektion är:
- Jämfört med klassisk testteori är IRT- parameteruppskattningar inte lika förvirrade av provets egenskaper.
- Statistiska egenskaper för objekt kan uttryckas med större precision vilket ökar tolkningsnoggrannheten för DIF mellan två grupper.
- Dessa statistiska egenskaper hos objekt kan uttryckas grafiskt, vilket förbättrar tolkningsbarheten och förståelsen för hur objekt fungerar olika mellan grupper.
I förhållande till DIF beräknas artikelparameteruppskattningar och granskas grafiskt via artikelkarakteristiska kurvor (ICCs) även kallade trace lines eller item response functions (IRF). Efter undersökning av ICC och efterföljande misstanke om DIF, implementeras statistiska procedurer för att testa skillnader mellan parameteruppskattningar. ICC representerar matematiska funktioner för förhållandet mellan positionering på det latenta egenskapskontinuumet och sannolikheten att ge ett visst svar. Figur 3 illustrerar detta förhållande som en logistisk funktion . Individer lägre på den latenta egenskapen eller med mindre förmåga har en lägre sannolikhet att få ett korrekt svar eller godkänna ett objekt, särskilt när svårigheten ökar. Således har de högre på den latenta egenskapen eller förmågan större chans att få ett korrekt svar eller att godkänna ett objekt. Till exempel, på en depressionsinventering, skulle mycket deprimerade individer ha en större sannolikhet att godkänna ett föremål än individer med lägre depression. På samma sätt har individer med högre matematisk förmåga en större sannolikhet att få ett matematiskt objekt korrekt än de med lägre förmåga. En annan kritisk aspekt av ICC hänför sig till böjningspunkten . Detta är den punkt på kurvan där sannolikheten för ett visst svar är 0,5 och representerar också det maximala värdet för lutningen . Denna böjningspunkt indikerar var sannolikheten för ett korrekt svar eller att godkänna ett objekt blir större än 50 %, förutom när en c- parameter är större än 0 som då placerar böjningspunkten vid 1 + c/2 (en beskrivning följer nedan). Böjningspunkten bestäms av objektets svårighetsgrad som motsvarar värden på förmågan eller latent egenskapskontinuum. Därför, för ett enkelt föremål, kan denna böjningspunkt vara lägre på förmågans kontinuum medan den för ett svårt föremål kan vara högre på samma skala.
Innan vi presenterar statistiska procedurer för att testa skillnader mellan artikelparametrar är det viktigt att först ge en allmän förståelse för de olika parameteruppskattningsmodellerna och deras associerade parametrar. Dessa inkluderar en-, två- och treparameterlogistikmodellerna (PL). Alla dessa modeller antar en enda underliggande latent egenskap eller förmåga. Alla dessa tre modeller har en artikelsvårighetsparameter betecknad b . För 1PL- och 2PL-modellerna b -parametern böjningspunkten på förmågasskalan, som nämnts ovan. I fallet med 3PL-modellen motsvarar böjningen 1 + c/2 där c är en lägre asymptot (diskuteras nedan). Svårighetsvärden kan i teorin variera från -∞ till +∞; men i praktiken överstiger de sällan ±3. Högre värden indikerar hårdare testobjekt. Objekt som uppvisar låga b- parametrar är enkla testobjekt. En annan parameter som uppskattas är en diskrimineringsparameter betecknad en . Denna parameter hänför sig till en varas förmåga att särskilja individer. a - parametern uppskattas i 2PL- och 3PL-modellerna. I fallet med 1PL-modellen är denna parameter begränsad till att vara lika mellan grupperna. I förhållande till ICC a -parametern lutningen för vändpunkten. Som tidigare nämnts är lutningen maximal vid vändpunkten. a , liknande parametern b , kan variera från -∞ till +∞; men typiska värden är mindre än 2. I det här fallet indikerar högre värde större diskriminering mellan individer. 3PL-modellen har en ytterligare parameter som kallas en gissnings- eller pseudochansparameter och betecknas med c . Detta motsvarar en lägre asymptot som i huvudsak möjliggör möjligheten för en individ att få ett måttligt eller svårt föremål korrekt även om de har låg förmåga. Värden för c sträcker sig mellan 0 och 1, men faller vanligtvis under 0,3. När man tillämpar statistiska förfaranden för att bedöma för DIF, a- och b -parametrarna (diskriminering och svårighet) av särskilt intresse. Antag dock att en 1PL-modell användes, där a- parametrarna är begränsade till att vara lika för båda grupperna, vilket bara lämnar uppskattningen av b -parametrarna. Efter att ha undersökt ICC:erna finns det en uppenbar skillnad i b- parametrar för båda grupperna. Med en metod som liknar en students t-test är nästa steg att avgöra om skillnaden i svårighetsgrad är statistiskt signifikant. Under nollhypotesen 0 H : b r = b f Lord (1980) en lättberäknad och normalfördelad teststatistik. d = (b r - b f ) / SE(b r - b f ) Standardfelet för skillnaden mellan b parametrar beräknas med √[SE(b ) ] 2 + √[SE(b f )] 2 r
Wald statistik
Men vanligare än inte är en 2PL- eller 3PL-modell mer lämplig än att anpassa en 1PL-modell till data och därför bör både a- och b - parametrarna testas för DIF. Lord (1980) föreslog en annan metod för att testa skillnader i både a- och b -parametrarna, där c -parametrarna är begränsade till att vara lika över grupper. Detta test ger en Wald-statistik som följer en chi-kvadratfördelning. I detta fall är nollhypotesen som testas 0 H : a r = a f och b r = b f . Först beräknas en 2 x 2 kovariansmatris av parameteruppskattningarna för varje grupp som representeras av . Sr och Sf för referens- och fokalgrupperna Dessa kovariansmatriser beräknas genom att invertera de erhållna informationsmatriserna. Därefter sätts skillnaderna mellan uppskattade parametrar in i Sr och Sf en 2 x 1 vektor och betecknas med V' = (a r - a f , b r - b f ) . Därefter uppskattas kovariansmatrisen S genom att summera . Med hjälp av denna information beräknas Wald-statistiken enligt följande: χ 2 = V'S −1 V som utvärderas vid 2 frihetsgrader .
Sannolikhetsförhållande test
Sannolikhetskvotstestet är en annan IRT - baserad metod för att bedöma DIF. Denna procedur innebär att man jämför förhållandet mellan två modeller. Under modell (Mc ) är artikelparametrar begränsade till att vara lika eller invarianta mellan referens- och fokalgrupperna. Under modell (M v ) är artikelparametrarna fria att variera. Sannolikhetsfunktionen under Mc betecknas (Lc ) medan sannolikhetsfunktionen under Mv betecknas (Lv ) . De artiklar som begränsas till att vara lika fungerar som ankarobjekt för denna procedur medan artiklar som misstänks för DIF tillåts variera fritt. Genom att använda ankarobjekt och tillåta återstående artikelparametrar att variera, kan flera objekt bedömas samtidigt för DIF. Men om sannolikhetskvoten indikerar potentiell DIF, skulle en artikel-för-post-analys vara lämplig för att fastställa vilka artiklar, om inte alla, som innehåller DIF. Sannolikhetsförhållandet för de två modellerna beräknas av G 2 = 2ln[L v / L c ] Alternativt kan förhållandet uttryckas med G 2 = -2ln[L c / L v ] där L v och L c är inverterade och multipliceras sedan med -2ln. G 2 följer ungefär en chi-kvadratfördelning, speciellt med större prover. Därför utvärderas den med de frihetsgrader som motsvarar antalet begränsningar som krävs för att härleda den begränsade modellen från den fritt varierande modellen. Till exempel, om en 2PL-modell används och både a- och b -parametrarna är fria att variera under Mv och samma två parametrar är begränsade i under Mc, så utvärderas förhållandet vid 2 frihetsgrader.
Logistisk tillbakagång
Logistiska regressionsmetoder för DIF-detektering innebär att man kör en separat analys för varje artikel. De oberoende variablerna som ingår i analysen är gruppmedlemskap, en förmågasmatchningsvariabel, vanligtvis en totalpoäng, och en interaktionsterm mellan de två. Den beroende variabeln av intresse är sannolikheten eller sannolikheten att få ett korrekt svar eller godkänna ett objekt. Eftersom resultatet av intresse uttrycks i termer av sannolikheter, maximal sannolikhetsuppskattning det lämpliga förfarandet. Denna uppsättning variabler kan sedan uttryckas med följande regressionsekvation:
0 där β motsvarar skärningspunkten eller sannolikheten för ett svar när M och G är lika med 0 med återstående β s som motsvarar viktkoefficienter för varje oberoende variabel. Den första oberoende variabeln, M, är den matchningsvariabel som används för att koppla individer till förmåga, i detta fall en total testpoäng, liknande den som används av Mantel-Haenszel-proceduren. Gruppmedlemsvariabeln betecknas G och representeras i fallet med regression genom dummykodade variabler. Den sista termen MG motsvarar interaktionen mellan de två ovan nämnda variablerna. För denna procedur skrivs variabler in hierarkiskt. I enlighet med strukturen för regressionsekvationen som tillhandahålls ovan, matas variabler in med följande sekvens: matchande variabel M, grupperingsvariabel G och interaktionsvariabeln MG. Bestämning av DIF görs genom att utvärdera den erhållna chi-kvadratstatistiken med 2 frihetsgrader. Dessutom testas parameteruppskattningens signifikans. Från resultaten av den logistiska regressionen skulle DIF indikeras om individer matchade på förmåga har signifikant olika sannolikheter att svara på ett objekt och därmed olika logistiska regressionskurvor. Omvänt, om kurvorna för båda grupperna är desamma, är artikeln opartisk och därför finns inte DIF. När det gäller enhetlig och olikformig DIF, om intercepts och matchande variabelparametrar för båda grupperna inte är lika, så finns det bevis för enhetlig DIF. Men om det finns en interaktionsparameter som inte är noll är detta en indikation på olikformig DIF.
Överväganden
Provstorlek
Det första övervägandet avser frågor om urvalsstorlek, särskilt med avseende på referens- och fokalgrupper. Före eventuella analyser är information om antalet personer i varje grupp vanligtvis känd, såsom antalet män/kvinnor eller medlemmar av etniska/rasliga grupper. Frågan kretsar dock närmare kring huruvida antalet personer per grupp är tillräckligt för att det ska finnas tillräckligt med statistisk kraft för att identifiera DIF. I vissa fall, såsom etnicitet, kan det finnas bevis för ojämlika gruppstorlekar så att vita representerar ett mycket större gruppurval än varje enskild etnisk grupp som representeras. Därför kan det i sådana fall vara lämpligt att modifiera eller justera data så att grupperna som jämförs för DIF faktiskt är lika eller närmare i storlek. Dummy-kodning eller omkodning är en vanlig praxis som används för att justera för skillnader i storleken på referens- och fokalgruppen. I detta fall kan alla icke-vita etniska grupper grupperas tillsammans för att få en relativt lika urvalsstorlek för referens- och fokalgrupperna. Detta skulle möjliggöra en "majoritet/minoritet"-jämförelse av objektens funktion. Om ändringar inte görs och DIF-procedurer utförs, kanske det inte finns tillräckligt med statistisk kraft för att identifiera DIF även om DIF finns mellan grupper. En annan fråga som hänför sig till urvalsstorleken är direkt relaterad till det statistiska förfarande som används för att upptäcka DIF. Bortsett från överväganden om provstorleken för referens- och fokalgrupperna, måste vissa egenskaper hos själva provet uppfyllas för att uppfylla antagandena för varje statistiskt test som används vid DIF-detektion. Till exempel kan användning av IRT-metoder kräva större prover än vad som krävs för Mantel-Haenszel-proceduren. Detta är viktigt, eftersom undersökning av gruppstorlek kan styra en mot att använda en procedur framför en annan. Inom den logistiska regressionsmetoden är hävstångsvärden och extremvärden av särskilt intresse och måste undersökas innan DIF-detektering. Dessutom, som med alla analyser, måste statistiska testantaganden uppfyllas. Vissa procedurer är mer robusta för mindre överträdelser medan andra mindre. Därför bör provsvarens fördelningskaraktär undersökas innan några DIF-förfaranden implementeras.
Föremål
Att bestämma antalet föremål som används för DIF-detektering måste övervägas. Det finns ingen standard för hur många objekt som ska användas för DIF-detektion eftersom detta ändras från studie till studie. I vissa fall kan det vara lämpligt att testa alla artiklar för DIF, medan det i andra kanske inte är nödvändigt. Om endast vissa föremål misstänks för DIF med adekvat resonemang, kan det vara lämpligare att testa dessa föremål och inte hela uppsättningen. Men ofta är det svårt att helt enkelt anta vilka saker som kan vara problematiska. Av denna anledning rekommenderas det ofta att samtidigt undersöka alla testobjekt för DIF. Detta kommer att ge information om alla objekt, belysa problematiska objekt såväl som de som fungerar likadant för både referens- och fokalgruppen. När det gäller statistiska tester kräver vissa procedurer, såsom IRT-Likelihood Ratio-testning, användning av ankarobjekt. Vissa objekt är begränsade till att vara lika över grupperna medan objekt som misstänks för DIF tillåts variera fritt. I detta fall skulle endast en delmängd identifieras som DIF-objekt medan resten skulle fungera som en jämförelsegrupp för DIF-detektering. När DIF-objekt har identifierats kan ankarobjekten också analyseras genom att sedan begränsa de ursprungliga DIF-objekten och låta de ursprungliga ankarobjekten variera fritt. Således verkar det som att testa alla objekt samtidigt kan vara en mer effektiv procedur. Men, som nämnts, används olika metoder för att välja DIF-objekt beroende på den implementerade proceduren. Förutom att identifiera antalet föremål som används i DIF-detektering, är det extra viktigt att bestämma antalet föremål på hela testet eller själva mätningen. Den typiska rekommendationen som noterats av Zumbo (1999) är att ha minst 20 artiklar. Resonemanget för minst 20 objekt relaterar direkt till bildandet av matchningskriterier. Som nämnts i tidigare avsnitt används en total testpoäng vanligtvis som en metod för att matcha individer på förmåga. Det totala testresultatet delas upp i normalt 3–5 förmågasnivåer (k) som sedan används för att matcha individer på förmåga innan DIF-analysprocedurer. Användning av minst 20 objekt möjliggör större varians i poängfördelningen vilket resulterar i mer meningsfulla nivågrupper. Även om instrumentets psykometriska egenskaper borde ha utvärderats innan det användes, är det viktigt att ett instruments validitet och tillförlitlighet är tillräcklig. Testobjekten måste exakt utnyttja konstruktionen av intresse för att härleda meningsfulla nivågrupper. Naturligtvis vill man inte blåsa upp tillförlitlighetskoefficienter genom att helt enkelt lägga till överflödiga poster. Nyckeln är att ha ett giltigt och tillförlitligt mått med tillräckligt med objekt för att utveckla meningsfulla matchningsgrupper. Gadermann et al. (2012), Revelle och Zinbarg (2009) och John och Soto (2007) erbjuder mer information om moderna metoder för strukturell validering och mer exakta och lämpliga metoder för att bedöma tillförlitlighet.
Statistik kontra resonemang
Som med all psykologisk forskning och psykometrisk utvärdering spelar statistik en avgörande roll men bör inte på något sätt vara den enda grunden för beslut och slutsatser som nås. Ett motiverat omdöme är av avgörande betydelse vid utvärdering av poster för DIF. Till exempel, beroende på den statistiska procedur som används för DIF-detektion, kan olika resultat ge. Vissa procedurer är mer exakta medan andra mindre. Till exempel kräver Mantel-Haenszel-proceduren att forskaren konstruerar förmågasnivåer baserat på totala testresultat, medan IRT mer effektivt placerar individer längs den latenta egenskapen eller förmågans kontinuum. Således kan en procedur indikera DIF för vissa objekt medan andra inte gör det. En annan fråga är att ibland kan DIF indikeras men det finns ingen tydlig anledning till varför DIF existerar. Det är här ett motiverat omdöme kommer in i bilden. Forskaren måste använda sunt förnuft för att härleda mening ur DIF-analyser. Det räcker inte att rapportera att poster fungerar olika för grupper, det behöver finnas en teoretisk orsak till varför det uppstår. Vidare leder bevis för DIF inte direkt till orättvisa i testet. Det är vanligt i DIF-studier att identifiera några saker som tyder på DIF. Detta kan vara en indikation på problematiska poster som behöver revideras eller utelämnas och inte nödvändigtvis en indikation på ett orättvist test. Därför kan DIF-analys betraktas som ett användbart verktyg för artikelanalys men är mer effektivt i kombination med teoretiska resonemang.
Statistisk programvara
Nedan finns vanliga statistiska program som kan utföra de procedurer som diskuteras här. Genom att klicka på lista över statistiska paket kommer du att dirigeras till en omfattande lista med öppen källkod, allmän egendom, gratisprogram och proprietär statistisk programvara. Mantel-Haenszel förfarande
- SPSS
- SAS
- Stata
- R (t.ex. "difR"-paket)
- Systat
- Lerttryck 5
IRT-baserade procedurer
- BILOG-MG
- MULTILOGG
- PARSCALE
- TESTFAKTA
- EQSIRT
- R (t.ex. 'difR' eller 'mirt'-paket)
- IRTPRO
Logistisk tillbakagång
- SPSS
- SAS
- Stata
- R (t.ex. "difR"-paket)
- Systat