Giltighet (statistik) - Validity (statistics)

Giltighet är den huvudsakliga utsträckning i vilken ett koncept , slutsats eller mätning är välgrundat och sannolikt korrekt motsvarar den verkliga världen. Ordet "giltigt" härstammar från det latinska validus, vilket betyder starkt. Giltigheten av ett mätverktyg (till exempel ett test i utbildning) är i vilken grad verktyget mäter vad det påstår sig mäta. Giltighet baseras på styrkan i en samling olika typer av bevis (t.ex. ansiktsgiltighet, konstruktionsgiltighet, etc.) som beskrivs mer detaljerat nedan.

Inom psykometri har validitet en särskild tillämpning som kallas testgiltighet : "i vilken grad bevis och teori stöder tolkningarna av testresultat" ("som föreslagits av föreslagna användningar av tester").

Det är allmänt accepterat att begreppet vetenskaplig giltighet tar upp verklighetens natur när det gäller statistiska mått och som sådan är en epistemologisk och filosofisk fråga samt en mätfråga . Användningen av termen i logik är smalare, relaterad till förhållandet mellan premisserna och avslutningen av ett argument. I logik hänvisar giltighet till egenskapen hos ett argument varigenom om premisserna är sanna följer sanningen i slutsatsen med nödvändighet. Slutsatsen av ett argument är sann om argumentet är sunt, det vill säga om argumentet är giltigt och dess premisser är sanna. Däremot är "vetenskaplig eller statistisk giltighet" inte ett deduktivt påstående som nödvändigtvis är sanningbevarande, utan är ett induktivt påstående som förblir sant eller falskt på ett oavgjort sätt. Det är därför "vetenskaplig eller statistisk giltighet" är ett påstående som är kvalificerat som antingen starkt eller svagt i sin natur, det är aldrig nödvändigt eller säkert sant. Detta gör att påståenden om "vetenskaplig eller statistisk giltighet" görs öppna för tolkning av vad som i själva verket betyder fakta i saken.

Giltighet är viktigt eftersom det kan hjälpa till att avgöra vilka typer av tester som ska användas och hjälpa till att se till att forskare använder metoder som inte bara är etiska och kostnadseffektiva, utan också en metod som verkligen mäter idén eller konstruktionerna i fråga.

Testa giltighet

Giltighet (noggrannhet)

En bedömnings giltighet är i vilken grad den mäter vad den ska mäta. Detta är inte samma sak som tillförlitlighet , vilket är i vilken utsträckning en mätning ger mycket konsekventa resultat. Inom giltigheten behöver mätningen inte alltid vara lika, som den gör i tillförlitlighet. Men bara för att ett mått är tillförlitligt är det inte nödvändigtvis giltigt. Till exempel är en skala som är 5 kilo av tillförlitlig men inte giltig. Ett test kan inte vara giltigt om det inte är tillförlitligt. Giltigheten är också beroende av att mätningen mäter vad den var avsedd att mäta, och inte något annat istället. Validitet (liknande tillförlitlighet) är ett relativt begrepp; giltighet är inte en allt-eller-ingenting-idé. Det finns många olika typer av giltighet.

Konstruera giltighet

Konstruktionens giltighet avser i vilken utsträckning operationaliseringar av en konstruktion (t.ex. praktiska tester som utvecklats från en teori) mäter en konstruktion som definieras av en teori. Det omfattar alla andra typer av giltighet. Till exempel är i vilken utsträckning ett test mäter intelligens en fråga om konstruktionens giltighet. Ett mått på intelligens förutsätter bland annat att måttet är associerat med saker det ska associeras med ( konvergent giltighet ), inte associerat med saker det inte ska associeras med ( diskriminerande giltighet ).

Konstruktionens validitetsbevis involverar empiriskt och teoretiskt stöd för tolkningen av konstruktionen. Sådana bevislinjer inkluderar statistiska analyser av testets interna struktur inklusive förhållandena mellan svar på olika testobjekt. De inkluderar också samband mellan testet och måtten på andra konstruktioner. Som för närvarande förstås skiljer sig konstruktionens giltighet inte från stödet för den materiella teorin om konstruktionen som testet är utformat för att mäta. Som sådana bidrar experiment som är utformade för att avslöja aspekter av konstruktionens kausala roll också till att konstruera validitetsbevis.

Innehållsvaliditet

Innehållsvaliditet är en icke-statistisk typ av validitet som innefattar "den systematiska undersökningen av testinnehållet för att avgöra om det täcker ett representativt urval av beteendedomänen som ska mätas" (Anastasi & Urbina, 1997 s. 114). Har till exempel ett IQ -frågeformulär objekt som täcker alla områden av intelligens som diskuteras i den vetenskapliga litteraturen?

Bevis för innehållsgiltighet innefattar i vilken grad testets innehåll matchar en innehållsdomän som är associerad med konstruktionen. Till exempel bör ett test av möjligheten att lägga till två nummer innehålla en rad kombinationer av siffror. Ett test med endast ensiffriga siffror, eller bara jämna nummer, skulle inte ha en bra täckning av innehållsdomänen. Innehållsrelaterad bevis involverar vanligtvis en ämnesexpert (SME) som utvärderar testobjekt mot testspecifikationerna. Innan han går till den slutliga administrationen av frågeformulär bör forskaren konsultera objektens giltighet mot var och en av konstruktionerna eller variablerna och följaktligen ändra mätinstrument på grundval av små och medelstora företags åsikt.

Ett test har innehållsgiltighet inbyggt i det genom noggrant urval av vilka objekt som ska inkluderas (Anastasi & Urbina, 1997). Objekt väljs så att de överensstämmer med testspecifikationen som upprättas genom en grundlig undersökning av ämnesområdet. Foxcroft, Paterson, le Roux & Herbst (2004, s. 49) noterar att genom att använda en panel av experter för att granska testspecifikationerna och urvalet av artiklar kan innehållets giltighet förbättras. Experterna kommer att kunna granska artiklarna och kommentera om artiklarna täcker ett representativt urval av beteendedomänen.

Ansiktsgiltighet

Ansiktsgiltighet är en uppskattning av om ett test verkar mäta ett visst kriterium; det garanterar inte att testet faktiskt mäter fenomen inom den domänen. Mått kan ha hög validitet, men när testet inte verkar mäta vad det är, har det låg ansiktsgiltighet. När ett test är föremål för förfalskning (malingering) kan låg ansiktsgiltighet göra testet mer giltigt. Med tanke på att man kan få mer ärliga svar med lägre ansiktsgiltighet är det ibland viktigt att få det att verka som om det finns låg ansiktsgiltighet medan man administrerar åtgärderna.

Ansiktsgiltighet är mycket nära relaterat till innehållets giltighet. Medan innehållets giltighet beror på en teoretisk grund för att anta om ett test bedömer alla domäner för ett visst kriterium (t.ex. ger bedömning av tilläggskunskaper ett bra mått för matematiska färdigheter? För att svara på detta måste du veta, vilka olika typer av aritmetiska färdigheter matematiska färdigheter inkluderar) ansiktsgiltighet handlar om huruvida ett test verkar vara ett bra mått eller inte. Denna bedömning görs på testets "ansikte", så den kan också bedömas av amatören.

Ansiktsgiltighet är en utgångspunkt, men bör aldrig antas vara sannolikt giltig för något givet syfte, eftersom "experterna" har haft fel tidigare- Malleus Malificarum ( häxhammaren ) hade inget stöd för sina slutsatser annat än själv- föreställde sig kompetensen hos två "experter" i "trolldomssökning", men den användes som ett "test" för att fördöma och bränna tiotusentals män och kvinnor som "häxor".

Kriteriums giltighet

Kriteriumgiltighetsbevis innefattar korrelationen mellan testet och en kriterievariabel (eller variabler) som tas som representativa för konstruktionen. Med andra ord jämför det testet med andra mått eller resultat (kriterierna) som redan anses vara giltiga. Till exempel valideras medarbetarvalstester ofta mot mått på jobbprestanda (kriteriet), och IQ -tester valideras ofta mot mått på akademisk prestation (kriteriet).

Om testdata och kriteriedata samlas in samtidigt kallas detta samtidiga giltighetsbevis. Om testdata samlas in först för att förutsäga kriteriedata som samlats in vid ett senare tillfälle kallas detta prediktiva giltighetsbevis.

Samtidig giltighet

Samtidig validitet avser i vilken grad operationen korrelerar med andra mått av samma konstruktion som mäts samtidigt. När måttet jämförs med ett annat mått av samma typ kommer de att vara relaterade (eller korrelerade). Återgå till urvalstestexemplet, detta skulle innebära att testerna administreras till nuvarande anställda och sedan korreleras med deras poäng på prestationsgranskningar.

Prediktiv giltighet

Prediktiv validitet avser i vilken grad operationaliseringen kan förutsäga (eller korrelera med) andra mått av samma konstruktion som mäts någon gång i framtiden. Återigen, med urvalstestexemplet, skulle detta innebära att testerna administreras till sökande, alla sökande anställs, deras prestanda granskas vid ett senare tillfälle och sedan korreleras deras poäng på de två måtten.

Detta är också när mätningen förutsäger ett samband mellan det som mäts och något annat; förutsäga om det andra kommer att hända i framtiden eller inte. Hög korrelation mellan ex-ante förutsagda och efterhands faktiska resultat är det starkaste beviset på validitet.

Experimentell giltighet

Giltigheten av utformningen av experimentella forskningsstudier är en grundläggande del av den vetenskapliga metoden och är ett problem för forskningsetik . Utan en giltig design kan giltiga vetenskapliga slutsatser inte dras.

Statistisk slutsats giltighet

Statistisk slutsatsens giltighet är i vilken grad slutsatser om förhållandet mellan variabler baserade på data är korrekta eller "rimliga". Detta började uteslutande handla om huruvida den statistiska slutsatsen om variablernas förhållande var korrekt, men nu finns det en rörelse mot att gå till "rimliga" slutsatser som använder: kvantitativa, statistiska och kvalitativa data.

Giltighet för statistisk slutsats innebär att man använder lämpliga provtagningsförfaranden, lämpliga statistiska tester och tillförlitliga mätprocedurer. Eftersom denna typ av giltighet uteslutande berör förhållandet som finns bland variabler, kan förhållandet endast vara en korrelation.

Intern giltighet

Intern validitet är en induktiv uppskattning av i vilken utsträckning slutsatser om orsakssamband kan göras (t.ex. orsak och verkan), baserat på de åtgärder som används, forskningsinställningen och hela forskningsdesignen. Bra experimentella tekniker, där effekten av en oberoende variabel på en beroende variabel studeras under mycket kontrollerade förhållanden, tillåter vanligtvis högre grader av intern giltighet än till exempel enstaka design.

Åtta typer av förvirrande variabel kan störa intern validitet (dvs försök att isolera orsakssamband):

  1. Historia , de specifika händelserna som inträffar mellan de första och andra mätningarna utöver de experimentella variablerna
  2. Mognad , processer inom deltagarna som en funktion av tidens gång (inte specifik för specifika händelser), t.ex. att bli äldre, hungrigare, tröttare osv.
  3. Testning , effekterna av att ta ett test på poängen av ett andra test.
  4. Instrumentering , ändringar i kalibrering av ett mätverktyg eller ändringar i observatörer eller poänggivare kan ge förändringar i de erhållna mätningarna.
  5. Statistisk regression , fungerar där grupper har valts ut på grund av deras extrema poäng.
  6. Urval , fördomar som härrör från differentialval av respondenter för jämförelsegrupperna.
  7. Experimentell dödlighet eller differentiell förlust av respondenter från jämförelsegrupperna.
  8. Urval-mognad interaktion , etc., t.ex. i flera grupper kvasi-experimentella mönster

Extern validitet

Extern giltighet gäller i vilken utsträckning de (internt giltiga) resultaten av en studie kan anses vara sanna för andra fall, till exempel för olika personer, platser eller tider. Med andra ord handlar det om huruvida fynd kan giltigt generaliseras. Om samma forskningsstudie genomfördes i de andra fallen, skulle det få samma resultat?

En viktig faktor i detta är om studieprovet (t.ex. forskningsdeltagarna) är representativt för den allmänna befolkningen utifrån relevanta dimensioner. Andra faktorer som äventyrar extern giltighet är:

  1. Reaktiv eller interaktionseffekt av testning , ett förtest kan öka poängen på ett eftertest
  2. Interaktionseffekter av selektionsfördomar och experimentvariabeln .
  3. Reaktiva effekter av experimentella arrangemang , vilket skulle förhindra generalisering om experimentvariabelns effekt på personer som utsätts för den i icke-experimentella miljöer
  4. Störningar vid flera behandlingar , där effekter av tidigare behandlingar inte kan raderas.

Ekologisk giltighet

Ekologisk validitet är i vilken utsträckning forskningsresultat kan tillämpas på verkliga situationer utanför forskningsinställningar. Denna fråga är nära besläktad med extern validitet men täcker frågan om i vilken grad experimentella fynd speglar vad som kan observeras i den verkliga världen (ekologi = vetenskapen om interaktion mellan organismen och dess omgivning). För att vara ekologiskt giltig måste metoderna, materialen och inställningen för en studie approximera den verkliga situation som är under utredning.

Ekologisk giltighet är delvis relaterad till frågan om experiment kontra observation. Vanligtvis inom vetenskapen finns det två forskningsområden: observations (passiv) och experimentell (aktiv). Syftet med experimentella mönster är att testa kausalitet, så att du kan utläsa A orsakar B eller B orsakar A. Men ibland hindrar etiska och/eller metologiska begränsningar dig från att genomföra ett experiment (t.ex. hur påverkar isolering ett barns kognitiva funktion?) . Då kan du fortfarande forska, men det är inte kausalt, det är korrelationsmässigt. Du kan bara dra slutsatsen att A förekommer tillsammans med B. Båda teknikerna har sina styrkor och svagheter.

Förhållande till intern giltighet

Vid första anblicken verkar intern och extern validitet motsäga varandra - för att få en experimentell design måste du kontrollera för alla störande variabler. Det är därför du ofta utför ditt experiment i en laboratoriemiljö. Medan du får intern giltighet (exklusive störande variabler genom att hålla dem konstant) förlorar du ekologisk eller extern giltighet eftersom du upprättar en artificiell laboratoriemiljö. Å andra sidan kan du med observationsforskning inte kontrollera för störande variabler (låg intern validitet) men du kan mäta i den naturliga (ekologiska) miljön, på den plats där beteende normalt sker. Däremot offrar du intern giltighet.

Den uppenbara motsättningen av intern giltighet och yttre giltighet är dock endast ytlig. Frågan om resultaten från en viss studie generaliserar till andra människor, platser eller tider uppstår bara när man följer en induktivistisk forskningsstrategi . Om målet med en studie är att deduktivt testa en teori, är man bara bekymrad över faktorer som kan undergräva studiens noggrannhet, det vill säga hot mot intern validitet. Med andra ord beror relevansen av extern och intern validitet för en forskningsstudie på studiens mål. Dessutom kan förenande forskningsmål med giltighetsproblem leda till problemet med ömsesidigt internt validitet, där teorier endast kan förklara fenomen i artificiella laboratoriemiljöer men inte den verkliga världen.

Diagnostisk giltighet

Inom psykiatrin finns det ett särskilt problem med att bedöma giltigheten av själva diagnoskategorierna . I detta sammanhang:

  • innehållets giltighet kan avse symptom och diagnostiska kriterier;
  • samtidig giltighet kan definieras av olika korrelat eller markörer, och kanske också behandlingssvar;
  • prediktiv validitet kan främst avse diagnostisk stabilitet över tid;
  • diskriminerande giltighet kan innebära avgränsning från andra störningar.

Robins och Guze föreslog 1970 vad som skulle bli inflytelserika formella kriterier för att fastställa giltigheten av psykiatriska diagnoser. De listade fem kriterier:

  • distinkt klinisk beskrivning (inklusive symptomprofiler, demografiska egenskaper och typiska utfällningar)
  • laboratoriestudier (inklusive psykologiska tester, radiologi och fynd efter döden)
  • avgränsning från andra störningar (med hjälp av uteslutningskriterier)
  • uppföljningsstudier som visar en karakteristisk kurs (inklusive bevis på diagnostisk stabilitet)
  • familjestudier som visar familjär gruppering

Dessa införlivades i Feighner Criteria och Research Diagnostic Criteria som sedan har legat till grund för DSM- och ICD -klassificeringssystemen.

Kendler 1980 skilde mellan:

  • antecedent validatorer (familjär aggregering, premorbid personlighet och utfällande faktorer)
  • samtidiga validatorer (inklusive psykologiska tester)
  • prediktiva validatorer (diagnostisk konsistens över tid, frekvenser av återfall och återhämtning och svar på behandling)

Nancy Andreasen (1995) listade flera ytterligare validatorer - molekylär genetik och molekylärbiologi , neurokemi , neuroanatomi , neurofysiologi och kognitiv neurovetenskap - som alla potentiellt kan koppla symtom och diagnoser till deras neurala substrat .

Kendell och Jablinsky (2003) betonade vikten av att skilja mellan giltighet och nytta och hävdade att diagnostiska kategorier definierade av deras syndrom endast skulle anses vara giltiga om de har visat sig vara diskreta enheter med naturliga gränser som skiljer dem från andra störningar.

Kendler (2006) betonade att för att vara användbart måste ett valideringskriterium vara tillräckligt känsligt för att validera de flesta syndrom som är sanna störningar, samtidigt som det är tillräckligt specifikt för att ogiltiggöra de flesta syndrom som inte är sanna störningar. På grundval av detta hävdar han att ett Robins- och Guze -kriterium om "kör i familjen" är otillräckligt specifikt eftersom de flesta mänskliga psykologiska och fysiska egenskaper skulle kvalificera - till exempel ett godtyckligt syndrom som består av en blandning av "höjd över 6 fot, rött hår , och en stor näsa "kommer att upptäckas att" springa i familjer "och vara" ärftlig ", men detta bör inte betraktas som bevis på att det är en störning. Kendler har vidare föreslagit att " essentialistiska " genmodeller av psykiatriska störningar, och hoppet om att vi kommer att kunna validera kategoriska psykiatriska diagnoser genom att "snida naturen i dess leder" enbart som ett resultat av genupptäckt, är osannolikt.

I Förenta staternas federala domstolssystem utvärderas giltighet och tillförlitlighet av bevis med hjälp av Daubert Standard: se Daubert v. Merrell Dow Pharmaceuticals . Perri och Lichtenwald (2010) utgör en utgångspunkt för en diskussion om ett brett spektrum av tillförlitlighets- och validitetsämnen i sin analys av en orättvis morddom.

Se även

Referenser

  1. ^ Brains, Willnat, Manheim, Rich 2011. Empirisk politisk analys 8: e upplagan. Boston, MA: Longman s. 105
  2. ^ Campbell, Donald T. (1957). "Faktorer som är relevanta för experimentens giltighet i sociala miljöer" . Psychological Bulletin . 54 (4): 297–312. doi : 10.1037/h0040950 . ISSN  1939-1455 . PMID  13465924 .
  3. ^ Kelley, Truman Lee (1927). Tolkning av utbildningsmätningar . Yonkers-on-Hudson, NY: World Book Company. sid. 14. Problemet med giltighet är om ett test verkligen mäter vad det påstås mäta ...
  4. ^ American Educational Research Association, Psychological Association och National Council on Measurement in Education. (1999). Standarder för pedagogiska och psykologiska tester . Washington, DC: American Educational Research Association.
  5. ^ National Council on Measurement in Education. http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorV
  6. ^ Kramer, Geoffrey P., Douglas A. Bernstein och Vicky Phares. Introduktion till klinisk psykologi. 7: e upplagan Upper Saddle River, NJ: Pearson Prentice Hall, 2009. Tryck.
  7. ^ a b Cronbach, Lee J .; Meehl, Paul E. (1955). "Konstruera giltighet i psykologiska tester" . Psychological Bulletin . 52 (4): 281–302. doi : 10.1037/h0040957 . hdl : 11299/184279 . ISSN  0033-2909 . PMID  13245896 . S2CID  5312179 .
  8. ^ Foxcroft, C., Paterson, H., le Roux, N., & Herbst, D. Human Sciences Research Council, (2004). 'Psykologisk bedömning i Sydafrika: En behovsanalys: Testanvändningsmönster och behov hos psykologiska bedömare: Slutrapport: juli . Hämtad från webbplatsen: http://www.hsrc.ac.za/research/output/outputDocuments/1716_Foxcroft_Psychologicalassessmentin%20SA.pdf
  9. ^ De vanligaste uppskattningarna är mellan 40 000 och 60 000 dödsfall. Brian Levack ( Häxjakten i det tidiga moderna Europa ) multiplicerade antalet kända europeiska häxprov med den genomsnittliga övertygelsen och avrättningen för att nå en siffra på cirka 60 000 dödsfall. Anne Lewellyn Barstow ( Witchcraze ) justerade Levacks uppskattning för att redogöra för förlorade poster och uppskattade 100 000 dödsfall. Ronald Hutton ( Triumph of the Moon ) hävdar att Levacks uppskattning redan hade justerats för dessa och ändrar siffran till cirka 40 000.
  10. ^ Campbell, Donald T. (1957). "Faktorer som är relevanta för experimentens giltighet i sociala miljöer" . Psychological Bulletin . 54 (4): 297–312. doi : 10.1037/h0040950 . ISSN  1939-1455 . PMID  13465924 .
  11. ^ Cozby, Paul C .. Metoder i beteendeforskning. 10: e upplagan Boston: McGraw-Hill Higher Education, 2009. Tryck.
  12. ^ Jonathan Javid (6 november 2015). "Mätningens giltighet och tillförlitlighet" . slideshare.net . Hämtad 23 mars 2018 .
  13. ^ Lin, Hause; Werner, Kaitlyn M .; Inzlicht, Michael (2021-02-16). "Löften och farorna med experiment: Det ömsesidigt-interna-giltighetsproblemet" . Perspektiv på psykologisk vetenskap . 16 (4): 854–863. doi : 10.1177/1745691620974773 . ISSN  1745-6916 . PMID  33593177 . S2CID  231877717 .
  14. ^ Schram, Arthur (2005-06-01). "Artificiellitet: spänningen mellan intern och extern validitet i ekonomiska experiment" . Journal of Economic Methodology . 12 (2): 225–237. doi : 10.1080/13501780500086081 . ISSN  1350-178X . S2CID  145588503 .
  15. ^ a b c d e Kendell, R; Jablensky, A (2003). "Skillnad mellan giltighet och nytta av psykiatriska diagnoser". American Journal of Psychiatry . 160 (1): 4–12. doi : 10.1176/appi.ajp.160.1.4 . PMID  12505793 .
  16. ^ Kendler, KS (2006). "Reflektioner över sambandet mellan psykiatrisk genetik och psykiatrisk nosologi". American Journal of Psychiatry . 163 (7): 1138–46. doi : 10.1176/appi.ajp.163.7.1138 . PMID  16816216 .
  17. ^ Perri, FS; Lichtenwald, TG (2010). "Den osäkra användningen av rättspsykologi som bevis: Timothy Masters -fallet" (PDF) . Champion Magazine (juli): 34–45.

Vidare läsning