Klassisk testteori - Classical test theory

Klassisk testteori (CTT) är en grupp av besläktad psykometrisk teori som förutsäger resultat av psykologisk testning, t.ex. svårigheter med artiklar eller testtagares förmåga. Det är en testteori baserad på tanken att en persons observerade eller erhållna poäng på ett test är summan av en sann poäng (felfri poäng) och en felpoäng. Generellt sett är syftet med klassisk testteori att förstå och förbättra tillförlitligheten hos psykologiska tester.

Klassisk testteori kan betraktas som ungefär synonym med sann poängteori . Uttrycket "klassisk" avser inte bara dessa modellers kronologi utan står också i kontrast med de nyare psykometriska teorierna, som i allmänhet kallas artikelsvarsteori , som ibland bär benämningen "modern" som i "modern latent dragteori".

Klassisk testteori som vi känner den idag kodifierades av Novick (1966) och beskrevs i klassiska texter som Lord & Novick (1968) och Allen & Yen (1979/2002). Beskrivningen av den klassiska testteorin nedan följer dessa viktiga publikationer.

Historia

Klassisk testteori föddes först efter att följande tre prestationer eller idéer konceptualiserades:

1. ett erkännande av förekomsten av fel i mätningar,

2. en uppfattning om det felet som en slumpmässig variabel,

3. en uppfattning om korrelation och hur man indexerar den.

År 1904 ansvarade Charles Spearman för att ta reda på hur man korrigerar en korrelationskoefficient för dämpning på grund av mätfel och hur man får det tillförlitlighetsindex som behövs för att göra korrigeringen. Spearmans upptäckt anses vara början på klassisk testteori av vissa (Traub, 1997). Andra som hade inflytande i den klassiska testteoriens ramar inkluderar: George Udny Yule , Truman Lee Kelley , Fritz Kuder & Marion Richardson involverade i att göra Kuder – Richardson -formlerna , Louis Guttman , och senast Melvin Novick , för att inte tala om andra under nästa kvartssekel efter Spearmans första fynd.

Definitioner

Klassisk testteori förutsätter att varje person har en sann poäng , T , som skulle uppnås om det inte fanns några mätfel. En persons sanna poäng definieras som den förväntade sifferkorrigerade poängen över ett oändligt antal oberoende administrationer av testet. Tyvärr testanvändare observera aldrig en persons verkliga poäng, bara en observerad poäng , X . Det antas att observerad poäng = sann poäng plus något fel :

                X         =       T      +    E
          observed score     true score     error

Klassisk testteori handlar om relationerna mellan de tre variablerna , och i befolkningen. Dessa relationer används för att säga något om kvaliteten på testresultaten. I detta avseende är det viktigaste begreppet tillförlitlighet . Tillförlitligheten för de observerade testresultaten , som betecknas som , definieras som förhållandet mellan sann poängvarians till den observerade poängvariansen :

Eftersom variansen för de observerade poängen kan visas vara lika med summan av variansen av sanna poäng och variansen av felpoäng, motsvarar detta

Denna ekvation, som formulerar ett signal-brusförhållande, har intuitiv överklagande: Tillförlitligheten för testresultat blir högre när andelen felvarians i testresultaten blir lägre och vice versa. Tillförlitligheten är lika med andelen av variansen i testresultaten som vi skulle kunna förklara om vi visste de sanna poängen. Kvadratroten för tillförlitligheten är det absoluta värdet av korrelationen mellan sanna och observerade poäng.

Utvärdering av tester och poäng: Pålitlighet

Tillförlitligheten kan inte uppskattas direkt eftersom det skulle kräva att man känner till de sanna poängen, vilket enligt klassisk testteori är omöjligt. Uppskattningar av tillförlitlighet kan dock erhållas på olika sätt. Ett sätt att uppskatta tillförlitligheten är genom att konstruera ett så kallat parallelltest . Den grundläggande egenskapen för ett parallelltest är att det ger samma sanna poäng och samma observerade poängvarians som det ursprungliga testet för varje individ. Om vi ​​har parallella tester x och x ', betyder det att

och

Under dessa antaganden följer att korrelationen mellan parallella testresultat är lika med tillförlitlighet (se Lord & Novick, 1968, kap. 2, för ett bevis).

Att använda parallella tester för att uppskatta tillförlitligheten är besvärligt eftersom parallella tester är mycket svåra att få tag på. I praktiken används metoden sällan. Istället använder forskare ett mått på intern konsistens som kallas Cronbachs . Överväga ett test som består av objekt , . Den totala testpoängen definieras som summan av de enskilda objektpoängen, så att för individ

Då är Cronbachs alfa lika

Cronbachs kan visas för att ge en lägre gräns för tillförlitlighet under ganska milda antaganden. Således är tillförlitligheten för testresultat i en befolkning alltid högre än värdet av Cronbach i den populationen. Således är denna metod empiriskt genomförbar och som ett resultat är den mycket populär bland forskare. Beräkning av Cronbachs ingår i många standardstatistikpaket som SPSS och SAS .

Som har noterats ovan görs hela övningen av klassisk testteori för att komma fram till en lämplig definition av tillförlitlighet. Tillförlitlighet är tänkt att säga något om den allmänna kvaliteten på testresultaten i fråga. Den allmänna tanken är att ju högre tillförlitlighet desto bättre. Klassisk testteori säger inte hur hög tillförlitlighet det ska vara. För högt värde för , säg över .9, indikerar redundans av objekt. Runt .8 rekommenderas för personlighetsforskning, medan .9+ är önskvärt för individuella tester med hög insats. Dessa "kriterier" är inte baserade på formella argument, utan är snarare resultatet av konvention och yrkesutövning. I vilken utsträckning de kan kartläggas till formella principer för statistisk slutsats är oklart.

Utvärdering av artiklar: P och artikeltotala korrelationer

Pålitlighet ger ett bekvämt index för testkvalitet i ett enda nummer, tillförlitlighet. Det ger dock ingen information för utvärdering av enskilda objekt. Artikelanalys inom det klassiska tillvägagångssättet förlitar sig ofta på två statistik: P-värdet (andel) och artikel-total korrelation ( punkt-biserial korrelationskoefficient ). P-värdet representerar andelen undersökta som svarar i nyckelriktningen och kallas vanligtvis för svårighet för artiklar . Artikel-totalkorrelationen ger ett index över objektets diskriminering eller differentieringskraft, och kallas vanligtvis artikeldiskriminering . Dessutom beräknas denna statistik för varje svar på det ofta använda flervalsobjektet , som används för att utvärdera objekt och diagnostisera möjliga problem, till exempel en förvirrande distraktor. Sådan värdefull analys tillhandahålls av specialdesignad psykometrisk programvara .

Alternativ

Klassisk testteori är en inflytelserik teori om testresultat inom samhällsvetenskap. Inom psykometriken har teorin ersatts av de mer sofistikerade modellerna inom item response theory (IRT) och generaliserbarhetsteori (G-teori). IRT ingår dock inte i standardstatistikpaket som SPSS , men SAS kan uppskatta IRT -modeller via PROC IRT och PROC MCMC och det finns IRT -paket för det öppna statistiska programmeringsspråket R (t.ex. CTT). Medan kommersiella paket rutinmässigt ger uppskattningar av Cronbachs , kan specialiserad psykometrisk programvara vara att föredra för IRT eller G-teori. Emellertid ger generella statistikpaket ofta inte en fullständig klassisk analys (Cronbachs är bara en av många viktiga statistik), och i många fall är specialiserad programvara för klassisk analys också nödvändig.

Brister

En av de viktigaste eller mest kända bristerna i den klassiska testteorin är att examinatorns egenskaper och testegenskaper inte kan separeras: var och en kan bara tolkas i den andra. En annan brist ligger i definitionen av tillförlitlighet som finns i klassisk testteori, som säger att tillförlitlighet är "korrelationen mellan testresultat på parallella former av ett test". Problemet med detta är att det finns olika uppfattningar om vad parallella tester är. Olika tillförlitlighetskoefficienter ger antingen nedre gränsvärden för tillförlitlighet eller uppskattningar av tillförlitlighet med okända fördomar. En tredje brist är standardmätfelet. Problemet här är att enligt klassisk testteori antas standardmätfelet vara detsamma för alla examinerade. Men som Hambleton förklarar i sin bok, är poäng på alla tester ojämnt exakta mått för examinerade med olika förmåga, vilket gör antagandet om lika mätfel för alla examinerade osannolikt (Hambleton, Swaminathan, Rogers, 1991, s. 4). En fjärde och sista brist på den klassiska testteorin är att den är testorienterad, snarare än objektorienterad. Med andra ord kan klassisk testteori inte hjälpa oss att förutsäga hur bra en individ eller ens en grupp examinerade kan göra på ett testobjekt.

Se även

Anteckningar

Referenser

  • Allen, MJ, & Yen, WM (2002). Introduktion till mätteori. Long Grove, IL: Waveland Press.
  • Novick, MR (1966) Axiomen och huvudresultaten för klassisk testteori Journal of Mathematical Psychology Volume 3, Issue 1, February 1966, Pages 1-18
  • Lord, FM & Novick, MR (1968). Statistiska teorier om mentala testresultat. Läser MA: Addison-Welsley Publishing Company

Vidare läsning

  • Gregory, Robert J. (2011). Psychological Testing: History, Principles and Applications (sjätte upplagan). Boston: Allyn & Bacon. ISBN 978-0-205-78214-7. Lay sammanfattning (7 november 2010).
  • Hogan, Thomas P .; Brooke Cannon (2007). Psykologisk testning: En praktisk introduktion (andra upplagan). Hoboken (NJ): John Wiley & Sons. ISBN 978-0-471-73807-7. Lay sammanfattning (21 november 2010).

externa länkar