Beskrivande statistik - Descriptive statistics

En deskriptiv statistik (i räkneuns substantiv ) är en sammanfattande statistik som kvantitativt beskriver eller sammanfattar funktioner från en samling information , medan deskriptiv statistik (i betydelsen massnamn ) är processen för att använda och analysera denna statistik. Beskrivande statistik skiljer sig från inferentiell statistik (eller induktiv statistik) genom att syftet är att sammanfatta ett urval , snarare än att använda data för att lära sig om befolkningen som urvalet av data tros representera. Detta innebär generellt att beskrivande statistik, till skillnad från inferentiell statistik, inte utvecklas på grundval av sannolikhetsteori och ofta är icke-parametrisk statistik . Även när en dataanalys drar sina huvudsakliga slutsatser med hjälp av inferentiell statistik presenteras generellt också beskrivande statistik. Till exempel, i artiklar som rapporterar om mänskliga ämnen, typiskt en tabell ingår ger den totala provstorleken , provstorlekar i viktiga undergrupper (t.ex., för varje behandling eller exponering grupp), och demografiska eller kliniska egenskaper, såsom den genomsnittliga ålder, andelen av försökspersoner av varje kön, andelen försökspersoner med relaterad komorbiditet , etc.

Några mått som vanligtvis används för att beskriva en datamängd är mått på central tendens och mått på variation eller spridning . Mätningar av central tendens inkluderar medelvärdet , median och läge , medan mått på variabilitet inkluderar standardavvikelsen (eller variansen ), minsta och högsta värden för variablerna, kurtosis och skevhet .

Användning i statistisk analys

Beskrivande statistik ger enkla sammanfattningar om urvalet och om observationer som har gjorts. Sådana sammanfattningar kan antingen vara kvantitativa , dvs sammanfattande statistik , eller visuella, dvs enkla att förstå grafer. Dessa sammanfattningar kan antingen ligga till grund för den inledande beskrivningen av uppgifterna som en del av en mer omfattande statistisk analys, eller så kan de i sig själva vara tillräckliga för en viss undersökning.

Till exempel skytte andelen i basket är en deskriptiv statistik som sammanfattar resultatet av en spelare eller ett lag. Detta nummer är antalet skott som delas med antalet tagna skott. Till exempel gör en spelare som skjuter 33% ungefär ett skott var tredje. Procentandelen sammanfattar eller beskriver flera diskreta händelser. Tänk också på betygsgenomsnittet . Detta enda nummer beskriver den studerandes allmänna prestanda över hela sin kursupplevelse.

Användningen av beskrivande och sammanfattande statistik har en omfattande historia och den enkla tabelleringen av befolkningar och ekonomiska data var faktiskt det första sättet som statistikämnet uppträdde. På senare tid har en samling sammanfattningstekniker formulerats under rubriken undersökande dataanalys : ett exempel på en sådan teknik är låddiagrammet .

I näringslivet ger beskrivande statistik en användbar sammanfattning av många typer av data. Till exempel kan investerare och mäklare använda en historisk redogörelse för avkastningsbeteende genom att utföra empiriska och analytiska analyser av sina investeringar för att kunna fatta bättre investeringsbeslut i framtiden.

Univariat analys

Univariat analys innebär att beskriva fördelningen av en enda variabel, inklusive dess centrala tendens (inklusive medelvärdet , medianen och läget ) och spridningen (inklusive datamängden och kvartilerna och mått på spridning, såsom varians och standardavvikelse ). Fördelningens form kan också beskrivas via index som snedhet och kurtos . Egenskaper för en variabels distribution kan också avbildas i grafiskt eller tabellformat, inklusive histogram och stam-och-blad-display .

Bivariat och multivariat analys

När ett urval består av mer än en variabel kan beskrivande statistik användas för att beskriva sambandet mellan par av variabler. I detta fall inkluderar beskrivande statistik:

Tvärtabeller och beredskapstabeller
Grafisk representation via scatterplots
Kvantitativa mått på beroende
Beskrivningar av villkorade fördelningar

Huvudorsaken till att differentiera univariat och bivariat analys är att bivariat analys inte bara är en enkel beskrivande analys, utan också beskriver sambandet mellan två olika variabler. Kvantitativa mått på beroende inkluderar korrelation (som Pearsons r när båda variablerna är kontinuerliga, eller Spearmans rho om en eller båda inte är det) och kovarians (som återspeglar skalvariablerna som mäts på). Lutningen, i regressionsanalys, återspeglar också förhållandet mellan variabler. Den ostandardiserade lutningen indikerar enhetsändringen i kriterievariabeln för en enhetsändring i prediktorn . Den standardiserade lutningen indikerar denna förändring i standardiserade ( z-poäng ) enheter. Mycket skev data omvandlas ofta genom att ta logaritmer. Användning av logaritmer gör grafer mer symmetriska och ser mer ut som normalfördelningen , vilket gör dem lättare att tolka intuitivt.

Referenser

externa länkar

Beskrivande statistikföreläsning: University of Pittsburgh Supercourse: http://www.pitt.edu/~super1/lecture/lec0421/index.htm

Languages

In other projects