Kraften i ett test - Power of a test

Den statistiska kraften för ett binärt hypotesprov är sannolikheten för att testet korrekt avvisar nollhypotesen ( ) när en specifik alternativ hypotes ( ) är sann. Det betecknas vanligen med , och representerar chanserna för en "sann positiv" detektion, beroende på att det faktiskt finns en effekt att upptäcka. Statistisk effekt sträcker sig från 0 till 1, och när effekten av ett test ökar minskar sannolikheten för att göra ett typ II -fel genom att felaktigt misslyckas med att avvisa nollhypotesen.

Notation

Denna artikel använder följande notation

  • β = sannolikhet för ett typ II -fel, känt som ett "falskt negativt"
  • 1-β = sannolikhet för en "sann positiv", dvs att korrekt neka hypotesen. "1-β" är också känt som testets effekt.
  • α = sannolikhet för ett typ I -fel, känt som ett "falskt positivt"
  • 1-α = sannolikhet för ett "sant negativt", det vill säga korrekt avvisa nollhypotesen

Beskrivning

För en typ II -felsannolikhet för β är motsvarande statistiska effekt 1 -  β . Till exempel, om experiment E har en statistisk effekt på 0,7 och experiment F har en statistisk effekt på 0,95, så finns det en större sannolikhet för att experiment E hade ett typ II -fel än experiment F. Detta minskar experimentets känslighet för att upptäcka signifikanta effekter . Experiment E är dock följaktligen mer tillförlitligt än experiment F på grund av dess lägre sannolikhet för ett typ I -fel. Det kan likvärdigt betraktas som sannolikheten för att acceptera den alternativa hypotesen ( ) när den är sann - det vill säga testets förmåga att upptäcka en specifik effekt, om den specifika effekten faktiskt existerar. Således,

Om det inte är en jämlikhet utan helt enkelt negationen av (så till exempel med för en obemärkt befolkningsparameter som vi har helt enkelt ) kan makt inte beräknas om inte sannolikheter är kända för alla möjliga värden för parametern som bryter mot nollhypotesen. Således hänvisar man i allmänhet till ett tests kraft mot en specifik alternativ hypotes .

När effekten ökar finns det en minskande sannolikhet för ett typ II -fel, även kallat falskt negativt värde ( β ) eftersom effekten är lika med 1 -  β . Ett liknande begrepp är typ I -felsannolikheten , även kallad falsk positiv hastighet eller nivån på ett test under nollhypotesen.

I samband med binär klassificering kallas kraften för ett test dess statistiska känslighet , dess sanna positiva takt eller dess sannolikhet för upptäckt .

Kraftanalys

Ett relaterat begrepp är "kraftanalys". Kraftanalys kan användas för att beräkna den minsta provstorlek som krävs så att en rimligen sannolikt kan upptäcka en effekt av en given storlek . Till exempel: "Hur många gånger behöver jag slänga ett mynt för att dra slutsatsen att det är riggat med ett visst belopp?" Effektanalys kan också användas för att beräkna den minsta effektstorlek som sannolikt kommer att upptäckas i en studie med en given provstorlek. Dessutom används begreppet makt för att göra jämförelser mellan olika statistiska testförfaranden: till exempel mellan ett parametriskt test och ett icke -parametriskt test av samma hypotes.

Bakgrund

Statistiska tester använder data från prover för att bedöma eller dra slutsatser om en statistisk population . I den konkreta inställningen av en tvåprovsjämförelse är målet att bedöma om medelvärdena för vissa attribut som erhållits för individer i två delpopulationer skiljer sig åt. Till exempel, för att testa nollhypotesen att de genomsnittliga poängen för män och kvinnor på ett test skiljer sig inte, prover av män och kvinnor dras, är testet administreras till dem, och den genomsnittliga poängen en grupp jämförs med den för den andra gruppen med hjälp av ett statistiskt test såsom z -testet med två prov . Testets kraft är sannolikheten för att testet kommer att hitta en statistiskt signifikant skillnad mellan män och kvinnor, som en funktion av storleken på den verkliga skillnaden mellan de två populationerna.

Faktorer som påverkar makt

Statistisk makt kan bero på ett antal faktorer. Vissa faktorer kan vara speciella för en specifik testsituation, men åtminstone beror effekten nästan alltid på följande tre faktorer:

Ett signifikanskriterium är ett uttalande om hur osannolikt ett positivt resultat måste vara, om nollhypotesen om ingen effekt är sann, för att nollhypotesen ska förkastas. De vanligaste kriterierna är sannolikheter på 0,05 (5%, 1 av 20), 0,01 (1%, 1 av 100) och 0,001 (0,1%, 1 av 1000). Om kriteriet är 0,05 måste sannolikheten för data som innebär en effekt som är minst lika stor som den observerade effekten när nollhypotesen är sann vara mindre än 0,05 för att nollhypotesen om ingen effekt ska förkastas. Ett enkelt sätt att öka effekten av ett test är att genomföra ett mindre konservativt test med hjälp av ett större signifikanskriterium, till exempel 0,10 istället för 0,05. Detta ökar chansen att förkasta nollhypotesen (få ett statistiskt signifikant resultat) när nollhypotesen är falsk; det vill säga det minskar risken för ett typ II -fel (falskt negativt om en effekt finns). Men det ökar också risken att få ett statistiskt signifikant resultat (förkastar nollhypotesen) när nollhypotesen inte är falsk; det vill säga det ökar risken för ett typ I -fel (falskt positivt).

Den Storleken på effekten av intresse i befolkningen kan kvantifieras i termer av en effektstorlek , där det finns större makt att upptäcka större effekter. En effektstorlek kan vara ett direkt värde av räntemängden, eller det kan vara ett standardiserat mått som också står för variationen i befolkningen. Till exempel, i en analys som jämför resultat i en behandlad och kontrollpopulation, skulle skillnaden i resultatmedel vara en direkt uppskattning av effektstorleken, medan det skulle vara en uppskattad standardiserad effektstorlek, var är den vanliga standardavvikelsen för resultaten i behandlade och kontrollgrupper. Om den är konstruerad på rätt sätt kommer en standardiserad effektstorlek, tillsammans med provstorleken, att helt bestämma effekten. En ostandardiserad (direkt) effektstorlek är sällan tillräcklig för att bestämma effekten, eftersom den inte innehåller information om variationen i mätningarna.

Ett exempel på hur provstorleken påverkar effektnivåer

Den provstorleken bestämmer mängden provtagning fel inneboende i ett testresultat. För övrigt är effekter svårare att upptäcka i mindre prover. Att öka provstorleken är ofta det enklaste sättet att öka den statistiska effekten av ett test. Hur ökad provstorlek översätter till högre effekt är ett mått på testets effektivitet - till exempel provstorleken som krävs för en given effekt.

Precisionen med vilken data mäts påverkar också statistisk effekt. Följaktligen kan effekten ofta förbättras genom att minska mätfelet i data. Ett relaterat koncept är att förbättra "tillförlitligheten" för den åtgärd som bedöms (som i psykometrisk tillförlitlighet ).

Den utformning av ett experiment eller observationsstudie påverkar ofta strömmen. Till exempel, i en tvåprovs testsituation med en given total provstorlek n , är det optimalt att ha lika många observationer från de två populationerna som jämförs (så länge som avvikelserna i de två populationerna är desamma). I regressionsanalys och variansanalys finns det omfattande teorier och praktiska strategier för att förbättra effekten baserat på att optimera värdena för de oberoende variablerna i modellen.

Tolkning

Även om det inte finns några formella normer för kraft (ibland kallad π ), bedömer de flesta forskare kraften i sina tester med π  = 0,80 som standard för adekvat. Denna konvention innebär en avvägning mellan β -risk och α -risk mellan fyra och en. ( β är sannolikheten för ett typ II -fel och α är sannolikheten för ett typ I -fel; 0,2 och 0,05 är konventionella värden för β och α ). Det kommer dock att finnas tillfällen då denna 4-till-1-viktning är olämplig. Inom till exempel medicin är tester ofta utformade på ett sådant sätt att inga falska negativ (typ II -fel) kommer att produceras. Men detta ökar oundvikligen risken för att få ett falskt positivt (ett typ I -fel). Motiveringen är att det är bättre att berätta för en frisk patient "vi kan ha hittat något - låt oss testa vidare", än att berätta för en sjuk patient "allt är bra".

Kraftanalys är lämplig när det handlar om korrekt avvisning av en falsk nollhypotes. I många sammanhang handlar frågan mindre om att avgöra om det finns en skillnad eller inte, utan snarare om att få en mer förfinad uppskattning av befolkningseffektstorleken. Till exempel, om vi väntade en population korrelation mellan intelligens och arbetsinsats på cirka 0,50, kommer en provstorlek av 20 ge oss cirka 80% effekt ( α  = 0,05, två-svans) att förkasta nollhypotesen av noll korrelation. Men när vi gör denna studie är vi förmodligen mer intresserade av att veta om korrelationen är 0,30 eller 0,60 eller 0,50. I detta sammanhang skulle vi behöva en mycket större urvalsstorlek för att minska konfidensintervallet för vår uppskattning till ett intervall som är acceptabelt för våra syften. Tekniker som liknar dem som används i en traditionell effektanalys kan användas för att bestämma provstorleken som krävs för att bredden på ett konfidensintervall ska vara mindre än ett givet värde.

Många statistiska analyser innefattar uppskattning av flera okända mängder. I enkla fall är alla utom en av dessa kvantiteter olägenhetsparametrar . I denna inställning gäller den enda relevanta effekten den enda kvantitet som kommer att genomgå formell statistisk slutsats. I vissa inställningar, särskilt om målen är mer "utforskande", kan det finnas ett antal mängder av intresse för analysen. Till exempel kan vi i en multipel regressionsanalys inkludera flera kovariater av potentiellt intresse. I situationer som denna där flera hypoteser övervägs är det vanligt att de befogenheter som är associerade med de olika hypoteserna skiljer sig åt. Till exempel, i multipel regressionsanalys, är effekten för att detektera en effekt av en given storlek relaterad till variansen av kovariatet. Eftersom olika kovariater kommer att ha olika varianter kommer deras befogenheter också att skilja sig åt.

Varje statistisk analys som involverar flera hypoteser är föremål för inflation av typ I -felprocenten om lämpliga åtgärder inte vidtas. Sådana åtgärder innefattar vanligtvis att tillämpa en högre tröskel för stringens för att avvisa en hypotes för att kompensera för de multipla jämförelser som görs ( t.ex. som i Bonferroni -metoden ). I denna situation bör effektanalysen återspegla den metod för flera tester som ska användas. Således kan till exempel en given studie vara väldriven för att detektera en viss effektstorlek när endast ett test ska göras, men samma effektstorlek kan ha mycket lägre effekt om flera tester ska utföras.

Det är också viktigt att ta hänsyn till den statistiska kraften i ett hypotesprov när man tolkar dess resultat. Ett testets kraft är sannolikheten för att korrekt avvisa nollhypotesen när den är falsk; ett tests effekt påverkas av valet av signifikansnivå för testet, storleken på effekten som mäts och mängden tillgänglig data. Ett hypotesprov kan misslyckas med att avvisa nullen, till exempel om det finns en verklig skillnad mellan två populationer som jämförs med ett t-test men effekten är liten och urvalet är för litet för att skilja effekten från slumpmässig slump. Många kliniska prövningar har till exempel låg statistisk förmåga att upptäcka skillnader i negativa effekter av behandlingar, eftersom sådana effekter kan vara sällsynta och antalet drabbade patienter litet.

A priori vs post hoc -analys

Effektanalys kan antingen göras före ( a priori eller prospektiv effektanalys) eller efter ( post hoc eller retrospektiv effektanalys) data samlas in. En priori effektanalys utförs före forskningsstudien och används vanligtvis för att uppskatta tillräckliga provstorlekar för att uppnå tillräcklig effekt. Post-hoc- analys av "observerad effekt" utförs efter att en studie har slutförts och använder den erhållna provstorleken och effektstorleken för att bestämma vad effekten var i studien, förutsatt att effektstorleken i provet är lika med effektstorleken i befolkningen. Medan nyttan av prospektiv effektanalys i experimentell design är allmänt accepterad, är posthoc -effektanalys grundläggande bristfällig. Att falla för frestelsen att använda den statistiska analysen av de insamlade data för att uppskatta effekten kommer att resultera i oinformativa och vilseledande värden. I synnerhet har det visats att post-hoc "observerad effekt" är en en-till-en-funktion av det uppnådda p- värdet . Detta har utökats för att visa att alla post-hoc- maktanalyser lider av det som kallas "power approach paradox" (PAP), där en studie med ett nollresultat anses visa mer bevis på att nollhypotesen faktiskt är sann när den p -värdet är mindre, eftersom den skenbara effekten att avkänna en faktisk effekt skulle vara högre. Faktum är att ett mindre p -värde förstås korrekt för att göra nollhypotesen relativt mindre sannolik att vara sann.

Ansökan

Finansieringsbyråer, etiknämnder och paneler för forskningsgranskning begär ofta att en forskare utför en effektanalys, till exempel för att bestämma det minsta antalet djurförsökspersoner som behövs för att ett experiment ska vara informativt. I frekventistiska statistik är det osannolikt att tillåta en att välja mellan hypoteser på önskad signifikansnivån en powered studie. I Bayesiansk statistik görs inte hypotesprovning av den typ som används i klassisk effektanalys. I det bayesiska ramverket uppdaterar man sina tidigare övertygelser med hjälp av data som erhållits i en given studie. I princip skulle en studie som skulle anses vara understyrd ur hypotesprovning fortfarande kunna användas i en sådan uppdateringsprocess. Men makt är fortfarande ett användbart mått på hur mycket en given experimentstorlek kan förväntas förfina sin tro. Det är osannolikt att en studie med låg effekt leder till en stor förändring av trosuppfattningarna.

Exempel

Följande är ett exempel som visar hur man beräknar effekt för ett randomiserat experiment: Anta att målet med ett experiment är att studera effekten av en behandling på en viss mängd och jämföra forskningsämnen genom att mäta kvantiteten före och efter behandlingen, analysera data med ett parat t-test . Låt och beteckna förbehandlings- och efterbehandlingsåtgärder på ämne , respektive. Den möjliga effekten av behandlingen bör vara synlig i de skillnader som antas vara oberoende fördelade, alla med samma förväntade medelvärde och varians.

Effekten av behandlingen kan analyseras med ett ensidigt t-test. Nollhypotesen utan verkan blir att den genomsnittliga skillnaden kommer att vara noll, dvs i detta fall, den alternativa hypotesen anger en positiv effekt, som motsvarar den provningsvärdet är:

var

n är provstorleken och är standardfelet. Teststatistiken under nollhypotesen följer en Student-t-distribution med ytterligare antagandet att data är identiskt fördelade . Antag vidare att nollhypotesen kommer att förkastas vid signifikansnivån av Eftersom n är stor kan man approximera t-fördelningen med en normalfördelning och beräkna det kritiska värdet med hjälp av kvantilfunktionen , inversen av den kumulativa fördelningsfunktionen för normal distribution. Det visar sig att nollhypotesen kommer att avvisas om

Antag nu att den alternativa hypotesen är sann och . Då är kraften

För stora n , följer ungefär en standardnormalfördelning när den alternativa hypotesen är sann, kan den ungefärliga effekt beräknas som

Enligt denna formel ökar effekten med parametervärdena För ett specifikt värde för en högre effekt kan erhållas genom att öka provstorleken n .

Det är inte möjligt att garantera en tillräckligt stor effekt för alla värden på som kan vara mycket nära 0. Minsta ( infimum ) värde för effekten är lika med konfidensnivån för testet, i detta exempel 0,05. Det är dock inte viktigt att skilja mellan och små positiva värden. Om det är önskvärt att ha tillräckligt med effekt, säg minst 0,90, för att detektera värden för den erforderliga provstorleken kan beräknas ungefär:

därav följer det

Därför använder man den kvantila funktionen

var är en normal normal kvantil; hänvisar till Probit artikeln för en förklaring av förhållandet mellan och z-värden.

Förlängning

Bayesisk makt

I frekventistiska inställningen är parametrar antas ha ett specifikt värde som är osannolikt att vara sant. Detta problem kan åtgärdas genom att anta att parametern har en distribution. Den resulterande kraften kallas ibland Bayesiansk kraft som vanligtvis används i design av kliniska prövningar .

Prediktiv sannolikhet för framgång

Både frekvensmakt och bayesisk makt använder statistisk signifikans som framgångskriterium. Men statistisk signifikans är ofta inte tillräckligt för att definiera framgång. För att ta itu med denna fråga kan maktbegreppet utvidgas till begreppet förutsägbar sannolikhet för framgång (PPOS). Framgångskriteriet för PPOS är inte begränsat till statistisk signifikans och används ofta i kliniska prövningsdesigner .

Programvara för beräkningar av effekt och provstorlek

Många gratis- och/eller öppen källkodsprogram finns tillgängliga för att utföra kraft- och provstorleksberäkningar. Dessa inkluderar

  • G*Power ( https://www.gpower.hhu.de/ )
  • WebPower Gratis online statistisk effektanalys ( https://webpower.psychstat.org )
  • Gratis och öppna källkalkylatorer online ( https://powerandsamplesize.com )
  • PowerUp! ger praktiska excelbaserade funktioner för att bestämma minsta detekterbara effektstorlek och minsta erforderliga provstorlek för olika experimentella och kvasi-experimentella konstruktioner.
  • PowerUpR är R -paketversionen av PowerUp! och inkluderar dessutom funktioner för att bestämma urvalsstorlek för olika randomiserade experiment på flera nivåer med eller utan budgetbegränsningar.
  • R -paket pwr
  • R -paket WebPower
  • Python -paketstatistmodeller ( https://www.statsmodels.org/ )

Se även

Referenser

Källor

externa länkar