Chi -squared distribution - Chi-squared distribution

chi-squared
Sannolikhetstäthetsfunktion
Chi-square pdf.svg
Kumulativ fördelningsfunktion
Chi-square cdf.svg
Notation eller
Parametrar (känd som "frihetsgrader")
Stöd om annars
PDF
CDF
Betyda
Median
Läge
Variation
Snedhet
Ex. kurtos
Entropi
MGF
CF
PGF

I sannolikhetsteori och statistik är chi-kvadratfördelningen (även chi-kvadrat eller χ 2- fördelning ) med k frihetsgrader fördelningen av en summa av kvadraterna för k oberoende normala slumpmässiga variabler. Chi-kvadratfördelningen är ett specialfall för gammafördelningen och är en av de mest använda sannolikhetsfördelningarna inom inferentiell statistik , särskilt vid hypotesprovning och konstruktion av konfidensintervall . Denna fördelning kallas ibland den centrala chi-kvadratiska fördelningen , ett speciellt fall av den mer allmänna icke-centrala chi-kvadratiska fördelningen .

Chi-kvadrat distribution används i de gemensamma chi-kvadrattester för goodness of fit av en observerad distribution till ett teoretiska kan den oberoende av två kriterier för klassificering av kvalitativa data , och i konfidensintervall uppskattning för en population standardavvikelse av en normalfördelning från ett urval standardavvikelse. Många andra statistiska tester använder också denna fördelning, till exempel Friedmans analys av varians efter rang .

Definitioner

Om Z 1 , ..., Z k är oberoende , normala normala slumpmässiga variabler, då summan av deras kvadrater,

fördelas enligt chi-kvadratfördelningen med k frihetsgrader. Detta brukar betecknas som

Chi-kvadratfördelningen har en parameter: ett positivt heltal k som anger antalet frihetsgrader (antalet slumpmässiga variabler som summeras, Z i s).

Introduktion

Chi-kvadratfördelningen används främst vid hypotesprovning, och i mindre utsträckning för konfidensintervall för populationsvarians när den underliggande fördelningen är normal. Till skillnad från mer kända fördelningar som normalfördelningen och den exponentiella fördelningen tillämpas inte chi-kvadratfördelningen lika ofta vid direkt modellering av naturfenomen. Det uppstår bland annat i följande hypotesprov:

Det är också en komponent i definitionen av t-distributionen och F-distributionen som används i t-tester, variansanalyser och regressionsanalyser.

Den främsta orsaken till att chi-kvadratfördelningen används i stor utsträckning vid hypotesprovning är dess relation till normalfördelningen. Många hypotesprov använder en teststatistik, till exempel t-statistiken i ett t-test. För dessa hypotesprov när provstorleken, n, ökar, närmar sig provtagningsfördelningen för teststatistiken normalfördelningen ( centralgränsvärdet ). Eftersom teststatistiken (t.ex. t) är asymptotiskt normalfördelad, förutsatt att provstorleken är tillräckligt stor, kan fördelningen som används för hypotesprovning approximeras av en normalfördelning. Att testa hypoteser med en normalfördelning är väl förstådd och relativt lätt. Den enklaste chi-kvadratiska fördelningen är kvadraten i en standard normalfördelning. Så varhelst en normalfördelning kan användas för ett hypotesprov, kan en chi-kvadratfördelning användas.

Antag att är en slumpvariabel prov från standardnormalfördelning, där medelvärdet är och variansen är : . Tänk nu på den slumpmässiga variabeln . Fördelningen av den slumpmässiga variabeln är ett exempel på en chi-kvadratfördelning: Abonnemanget 1 indikerar att just denna chi-kvadratiska fördelning är konstruerad av endast 1 standard normalfördelning. En chi-kvadratfördelning konstruerad genom att kvadrera en enda standard normalfördelning sägs ha 1 frihetsgrad. Alltså, när provstorleken för ett hypotesprov ökar, närmar sig fördelningen av teststatistiken en normalfördelning. Precis som extrema värden för normalfördelningen har låg sannolikhet (och ger små p-värden), har extrema värden för chi-kvadratfördelningen låg sannolikhet.

En ytterligare anledning till att chi-kvadratfördelningen används i stor utsträckning är att den visar sig som den stora provfördelningen av generaliserade sannolikhetstest (LRT). LRT har flera önskvärda egenskaper; i synnerhet ger enkla LRT vanligtvis den högsta kraften att avvisa nollhypotesen ( Neyman – Pearson lemma ) och detta leder också till optimalt egenskaper hos generaliserade LRT. De normala och chi-kvadratiska approximationerna är dock endast giltiga asymptotiskt. Av denna anledning är det att föredra att använda t-fördelningen snarare än den normala approximationen eller den chi-kvadrerade approximationen för en liten provstorlek. På samma sätt kommer analyserna av beredskapstabeller att chi-kvadrat-approximationen vara dålig för en liten provstorlek, och det är att föredra att använda Fishers exakta test . Ramsey visar att det exakta binomiala testet alltid är kraftfullare än den normala approximationen.

Lancaster visar kopplingarna mellan de binomiala, normala och chi-kvadratiska fördelningarna enligt följande. De Moivre och Laplace konstaterade att en binomial fördelning kan approximeras med en normal fördelning. Specifikt visade de den asymptotiska normaliteten hos den slumpmässiga variabeln

var är det observerade antalet framgångar i prövningar, där sannolikheten för framgång är och .

Kvadrering på båda sidor av ekvationen ger

Genom att använda , och kan denna ekvation skrivas om som

Uttrycket till höger är av den form som Karl Pearson skulle generalisera till formen

var

= Pearsons kumulativa teststatistik, som asymptotiskt närmar sig en distribution.
= antalet observationer av typ .
= den förväntade (teoretiska) typfrekvensen , hävdad av nollhypotesen att fraktionen av typ i befolkningen är
= antalet celler i tabellen.

Vid ett binomiskt utfall (vändning av ett mynt) kan binomialfördelningen approximeras med en normalfördelning (för tillräckligt stor ). Eftersom kvadraten för en normal normalfördelning är chi-kvadratfördelningen med en frihetsgrad, kan sannolikheten för ett resultat som 1 huvuden i 10 försök approximeras antingen genom att använda normalfördelningen direkt eller chi-kvadratfördelningen för den normaliserade, kvadratiska skillnaden mellan observerat och förväntat värde. Många problem innebär emellertid mer än de två möjliga resultaten av ett binomial, och kräver istället tre eller flera kategorier, vilket leder till multinomial distribution. Precis som de Moivre och Laplace sökte efter och hittade den normala approximationen till binomialet, sökte och hittade Pearson en degenererad multivariat normal approximation till multinomialfördelningen (siffrorna i varje kategori uppgår till den totala provstorleken, som anses vara fixerad) . Pearson visade att chi-kvadratfördelningen uppstod från en sådan multivariat normal approximation till multinomial distribution, med noggrann hänsyn till det statistiska beroendet (negativa korrelationer) mellan antalet observationer i olika kategorier.

Sannolikhetstäthetsfunktion

Den funktionen sannolikhetstätheten (pdf) av chitvåfördelning är

där betecknar gammafunktionen , som har slutna formvärden för heltal .

För härledningar av pdf-filen i fallet med en, två och frihetsgrader, se Bevis relaterade till distribution av chi-kvadrat .

Kumulativ fördelningsfunktion

Chernoff bunden för CDF och svans (1-CDF) av en chi-kvadrat slumpmässig variabel med tio frihetsgrader ( = 10)

Dess kumulativa distributionsfunktion är:

var är den lägre ofullständiga gammafunktionen och är den reglerade gammafunktionen .

I ett specialfall av = 2 har denna funktion den enkla formen:

som enkelt kan härledas genom att integrera direkt. Hela talets återkommande gamma -funktion gör det enkelt att beräkna för andra små, jämna .

Tabeller för den ki-kvadrerade kumulativa distributionsfunktionen är allmänt tillgängliga och funktionen ingår i många kalkylblad och alla statistiska paket .

Uthyrning , Chernoff -gränser på CDF: s nedre och övre svans kan erhållas. För de fall då (som inkluderar alla de fall då denna CDF är mindre än hälften):

Svansen bunden för de fall när , på liknande sätt, är

För en annan approximation för CDF modellerad efter kuben av en Gaussian, se under Noncentral chi-squared distribution .

Egenskaper

Summan av kvadrater av oberoende identiskt fördelade normala slumpmässiga variabler minus deras medelvärde

Om Z 1 , ..., Z k är oberoende identiskt fördelade (iid), normala normala slumpmässiga variabler, då

var

Additivitet

Det följer av definitionen av chi-squared-distributionen att summan av oberoende chi-squared-variabler också är chi-squared-distribuerad. Närmare bestämt, om är oberoende chi-kvadrat variabler med , frihetsgrader, respektive, då är chi-squared fördelat med grader av frihet.

Provmedelvärde

Provmedelvärdet för iid chi- squared -variabler i grad fördelas enligt en gammafördelning med form- och skalparametrar:

Asymptotiskt , med tanke på att för en skalparameter som går till oändlighet, konvergerar en gammadistribution mot en normalfördelning med förväntan och varians , konvergerar medelvärdet mot:

Notera att vi skulle ha erhållit samma resultat som åberopar istället den centrala gränsvärdessatsen , att notera att för varje chi-kvadrat variabel av grad förväntningen är , och dess varians (och följaktligen variansen av provet medelvärdet varelse ).

Entropi

Den differentiella entropi ges av

där ψ ( x ) är Digamma -funktionen .

Chi-kvadratfördelningen är den maximala entropi-sannolikhetsfördelningen för en slumpmässig variant för vilken och är fixerade. Eftersom chi-kvadraten är i familjen av gammadistributioner kan detta härledas genom att ersätta lämpliga värden i förväntningen på loggmomentet för gamma . För härledning från mer grundläggande principer, se härledningen i momentgenererande funktion av tillräcklig statistik .

Icke -centrala stunder

Stunderna om noll i en chi-kvadratisk fördelning med frihetsgrader ges av

Kumulanter

De kumulanter erhålles lätt genom en (formell) potensserie expansionen av logaritmen av den karakteristiska funktionen:

Koncentration

Chi-kvadratfördelningen uppvisar stark koncentration kring medelvärdet. Standardgränserna för Laurent-Massart är:

Asymptotiska egenskaper

Ungefärlig formel för median (från Wilson -Hilferty -transformationen) jämfört med numerisk kvantil (överst); och skillnad (blå) och relativ skillnad (röd) mellan numerisk kvantil och ungefärlig formel (botten). För chi-kvadratfördelningen är det bara de positiva heltalet av frihetsgrader (cirklar) som är meningsfulla.

Genom den centrala gränssatsen , eftersom chi-kvadratfördelningen är summan av oberoende slumpmässiga variabler med ändligt medelvärde och varians, konvergerar den till en normalfördelning för stora . För många praktiska ändamål är distributionen tillräckligt nära en normal fördelning för att skillnaden ska ignoreras. Specifikt, om , då som går mot oändligheten, fördelningen av tenderar till en standardnormalfördelning. Konvergensen är emellertid långsam som skevheten är och överskottet av kurtos är .

Samplingsfördelningen av konvergerar till normalitet mycket snabbare än samplingsfördelningen av , eftersom logaritmen tar bort mycket av asymmetrin. Andra funktioner i chi-kvadratfördelningen konvergerar snabbare till en normal fördelning. Några exempel är:

  • Om då är ungefär normalt fördelat med medelvärde och enhetsvarians (1922, av RA Fisher , se (18.23), s. 426 i Johnson.
  • Om då ungefär är normalfördelat med medelvärde och varians Detta kallas Wilson – Hilferty -transformationen, se (18.24), sid. 426 av Johnson.
    • Denna normaliserande transformation leder direkt till den vanliga median approximationen genom att back-transformera från medelvärdet, som också är medianen, för normalfördelningen.

Relaterade distributioner

  • Som , ( normalfördelning )
  • ( noncentral chi-squared distribution med icke-centralitetsparameter )
  • Om då har chi-squared distributionen
  • Som ett specialfall, om då har chi-squared distributionen
  • (Den kvadrerade normen av k standardnormalfördelade variabler är en chitvåfördelning med k frihetsgrader )
  • Om och , då . ( gamma distribution )
  • Om då ( chi distribution )
  • Om , då är en exponentiell distribution . (Se gammadistribution för mer.)
  • Om , då är en Erlang -distribution .
  • Om , då
  • Om ( Rayleigh distribution ) då
  • Om ( Maxwell distribution ) då
  • Om då ( Invers-chi-squared distribution )
  • Chi-squared-distributionen är ett specialfall av typ III Pearson-distribution
  • Om och är oberoende då ( beta -distribution )
  • Om ( enhetlig fördelning ) då
  • Om då
  • Om följer den generaliserade normalfördelningen (version 1) med parametrar då
  • chi-squared distribution är en transformation av Pareto distribution
  • Studentens t-distribution är en transformation av chi-squared distribution
  • Studentens t-distribution kan erhållas från chi-squared distribution och normal distribution
  • Noncentral beta-distribution kan erhållas som en transformation av chi-squared distribution och Noncentral chi-squared distribution
  • Noncentral t-distribution kan erhållas från normalfördelning och chi-squared-distribution

En chi-kvadrerad variabel med frihetsgrader definieras som summan av kvadraterna för oberoende normala slumpmässiga variabler.

Om är en -dimensionell Gaussisk slumpmässig vektor med medelvektor och rangkovariansmatris , är chi -kvadrat fördelat med frihetsgrader.

Summan av kvadrater av statistiskt oberoende enhetsvarians Gaussiska variabler som inte har medelvärde noll ger en generalisering av chi-kvadratfördelningen som kallas den icke-centrala chi-kvadratiska fördelningen .

Om är en vektor av iid normala slumpmässiga variabler och är en symmetrisk , idempotent matris med rang , så är den kvadratiska formen chi-square fördelad med frihetsgrader.

If är en positiv -semidefinit kovariansmatris med strikt positiva diagonala poster, för och en slumpmässig -vektor oberoende av sådant och det håller att

Chi-kvadratfördelningen är också naturligt relaterad till andra distributioner som härrör från Gaussian. Särskilt,

  • är F-fördelad , om , var och är statistiskt oberoende.
  • Om och är statistiskt oberoende, då . Om och inte är oberoende, distribueras inte chi-square.

Generaliseringar

Chi-kvadratfördelningen erhålls som summan av kvadraterna för k oberoende, nollmedelsvärde, enhetsvarians Gauss slumpmässiga variabler. Generaliseringar av denna fördelning kan erhållas genom att summera kvadraterna för andra typer av gaussiska slumpmässiga variabler. Flera sådana fördelningar beskrivs nedan.

Linjär kombination

Om är chi kvadrat slumpmässiga variabler och , då är ett slutet uttryck för distributionen av inte känt. Det kan emellertid approximeras effektivt med hjälp av egenskapen för karakteristiska funktioner för slumpmässiga variabler med chi-kvadrat.

Chi-kvadratiska fördelningar

Noncentral chi-squared distribution

Den icke-centrala chi-kvadratiska fördelningen erhålls från summan av kvadraterna för oberoende gaussiska slumpmässiga variabler med enhetsvarians och icke- nollmedel.

Generaliserad distribution av chi-kvadrat

Den generaliserade chikvadratfördelningen erhålls från den kvadratiska formen z′Az där z är en nollmedels Gauss-vektor med en godtycklig kovariansmatris, och A är en godtycklig matris.

Gamma, exponentiella och relaterade distributioner

Chi-kvadratfördelningen är ett specialfall av gammafördelningen , genom att använda hastighetsparameteriseringen av gammafördelningen (eller med hjälp av skalparametriseringen av gammafördelningen) där k är ett heltal.

Eftersom den exponentiella distributionen också är ett specialfall för gamma -distributionen, har vi också att om , då är en exponentiell distribution .

Den Erlang fördelning är också ett specialfall av gammafördelningen och därmed har vi också att om med ännu , då är Erlang distribueras med formparametern och skalparameter .

Förekomst och applikationer

Den chitvåfördelning har många tillämpningar inom trend statistik , till exempel i chi-kvadrat tester och att uppskatta avvikelser . Det går in i problemet med att uppskatta medelvärdet för en normalt fördelad befolkning och problemet med att uppskatta lutningen för en regressionslinje via dess roll i Studentens t-fördelning . Den går in i alla analyser av variansproblem via sin roll i F-distributionen , som är fördelningen av förhållandet mellan två oberoende chi-kvadrat- slumpmässiga variabler , var och en dividerad med sina respektive frihetsgrader.

Nedan följer några av de vanligaste situationerna där chi-kvadratfördelningen härrör från ett Gauss-fördelat prov.

  • om är iid slumpmässiga variabler , då var .
  • Rutan nedan visar lite statistik baserad på oberoende slumpmässiga variabler som har sannolikhetsfördelningar relaterade till chi-kvadratfördelningen:
namn Statistisk
chi-squared distribution
noncentral chi-squared distribution
chi -distribution
icke -central chi -distribution

Chi-kvadratfördelningen förekommer också ofta vid magnetisk resonansavbildning .

Beräkningsmetoder

Tabell över values 2 värden vs p -värden

Den p -värdet är sannolikheten att observera en provutfallets minst lika extrema i en chi-kvadrat distribution. Eftersom den kumulativa fördelningsfunktionen (CDF) för lämpliga frihetsgrader (df) ger sannolikheten för att ha erhållit ett värde som är mindre extremt än denna punkt, så subtraherar CDF -värdet från 1 p -värdet. Ett lågt p -värde, under den valda signifikansnivån, indikerar statistisk signifikans , dvs tillräckligt med bevis för att avvisa nollhypotesen. En signifikansnivå på 0,05 används ofta som avgränsning mellan signifikanta och icke-signifikanta resultat.

Tabellen nedan ger ett antal p -värden som matchar de första 10 frihetsgraderna.

Frihetsgrader (df) värde
1 0,004 0,02 0,06 0,15 0,46 1,07 1,64 2,71 3,84 6,63 10,83
2 0,10 0,21 0,45 0,71 1,39 2.41 3.22 4,61 5,99 9.21 13,82
3 0,35 0,58 1,01 1,42 2,37 3,66 4,64 6,25 7,81 11.34 16.27
4 0,71 1,06 1,65 2,20 3,36 4,88 5,99 7,78 9.49 13.28 18.47
5 1.14 1,61 2,34 3,00 4,35 6.06 7.29 9.24 11.07 15.09 20.52
6 1,63 2,20 3.07 3,83 5.35 7.23 8.56 10,64 12.59 16.81 22.46
7 2.17 2,83 3,82 4,67 6,35 8,38 9,80 12.02 14.07 18.48 24.32
8 2,73 3,49 4.59 5.53 7.34 9.52 11.03 13.36 15.51 20.09 26.12
9 3,32 4.17 5.38 6,39 8,34 10,66 12.24 14,68 16,92 21,67 27,88
10 3,94 4,87 6.18 7.27 9.34 11,78 13.44 15,99 18.31 23.21 29.59
p -värde (sannolikhet) 0,95 0,90 0,80 0,70 0,50 0,30 0,20 0,10 0,05 0,01 0,001

Dessa värden kan beräknas för att utvärdera den kvantila funktionen (även känd som "invers CDF" eller "ICDF") för chi-kvadratfördelningen; t.ex. χ 2 ICDF för p = 0,05 och df = 7 utbyten 2,1673 ≈ 2,17 som i tabellen ovan, märker att en - p är p -värdet från tabellen.

Historia

Denna fördelning beskrevs först av den tyska statistikern Friedrich Robert Helmert i papper från 1875–6, där han beräknade samplingsfördelningen av provvariansen för en normal befolkning. Således på tyska var detta traditionellt känt som Helmert'sche ("Helmertian") eller "Helmert distribution".

Distributionen återupptogs oberoende av den engelska matematikern Karl Pearson i samband med passform , för vilken han utvecklade sitt Pearsons chi-squared-test , publicerat år 1900, med en beräknad tabell över värden publicerade i ( Elderton 1902 ), samlad i ( Pearson 1914 , s. Xxxi – xxxiii, 26–28, tabell XII) . Namnet "chi-square" härstammar slutligen från Pearsons stenografi för exponenten i en multivariat normalfördelning med den grekiska bokstaven Chi och skriver ½½ 2 för vad som skulle visas i modern notation som −½ x T Σ −1 x (Σ är kovariansmatris ). Idén om en familj med "chi-squared distributioner" beror dock inte på Pearson utan uppstod som en vidareutveckling på grund av Fisher på 1920-talet.

Se även

Referenser

Vidare läsning

externa länkar