Univariat (statistik)

Univariat är en term som vanligtvis används i statistik för att beskriva en typ av data som består av observationer på endast en enskild egenskap eller attribut. Ett enkelt exempel på univariat data skulle vara lönerna för arbetare inom industrin. Liksom alla andra data kan univariat data visualiseras med hjälp av grafer, bilder eller andra analysverktyg efter att data har mätts, samlats in, rapporterats och analyserats.

Univariata datatyper

Vissa univariata data består av siffror (som höjden på 65 tum eller vikten 100 pounds), medan andra är icke-numeriska (som ögonfärger av brunt eller blått). Generellt används termerna kategorisk univariat data och numerisk univariat data för att skilja mellan dessa typer.

Kategorisk univariat data

Kategorisk univariat data består av icke-numeriska observationer som kan placeras i kategorier. Den innehåller etiketter eller namn som används för att identifiera ett attribut för varje element. Kategoriska univariata data använder vanligtvis antingen nominell eller ordinal mätskala .

Numeriska univariata data

Numerisk univariat data består av observationer som är siffror. De erhålls med användning av antingen intervall- eller förhållandeskala för mätning. Denna typ av univariat data kan klassificeras ytterligare i två underkategorier: diskret och kontinuerlig . En numerisk univariat data är diskret om uppsättningen av alla möjliga värden är finit eller countably oändlig . Diskreta univariata data är vanligtvis förknippade med räkning (som antalet böcker som läses av en person). En numerisk univariat data är kontinuerlig om uppsättningen av alla möjliga värden är ett intervall av tal. Kontinuerliga univariata data är vanligtvis förknippade med mätning (såsom vikter på människor).

Dataanalys och tillämpningar

Univariat analys är den enklaste formen för att analysera data. Uni betyder "en", så data har bara en variabel ( univariat ). Univariata data kräver att varje variabel analyseras separat. Data samlas in i syfte att besvara en fråga, eller mer specifikt, en forskningsfråga. Univariatdata svarar inte på forskningsfrågor om samband mellan variabler, utan används snarare för att beskriva en egenskap eller egenskap som varierar från observation till observation. Vanligtvis finns det två syften som en forskare kan leta efter. Den första är att besvara en forskningsfråga med deskriptiv studie och den andra är att få kunskap om hur attribut varierar med individuell effekt av en variabel i regressionsanalys . Det finns några sätt att beskriva mönster som finns i univariata data som inkluderar grafiska metoder, mått på central tendens och mått på variabilitet.

Liksom andra former av statistik kan den vara inferentiell eller beskrivande . Det viktigaste är att endast en variabel är inblandad.

Univariat analys kan ge missvisande resultat i fall där multivariat analys är mer lämplig.

Centralmått

Central tendens är ett av de vanligaste numeriska deskriptiva måtten. Den används för att uppskatta den centrala platsen för de univariata data genom beräkning av medelvärde , median och läge . Var och en av dessa beräkningar har sina egna fördelar och begränsningar. Medelvärdet har fördelen att dess beräkning inkluderar varje värde i datamängden, men det är särskilt känsligt för påverkan av extremvärden . Medianen är ett bättre mått när datamängden innehåller extremvärden . Läget är enkelt att hitta. Det viktiga är att det inte är begränsat till att bara använda ett av dessa mått på central tendens. Om data som analyseras är kategoriska, är det enda måttet på central tendens som kan användas läget. Men om data är numeriska till sin natur ( ordinal eller intervall / kvot ) kan läget, medianen eller medelvärdet alla användas för att beskriva data. Att använda mer än ett av dessa mått ger en mer exakt beskrivande sammanfattning av centrala tendenser för den univariata.

Mått på variabilitet

Ett mått på variabilitet eller spridning (avvikelse från medelvärdet) för en univariat datauppsättning kan avslöja formen på en univariat datafördelning mer tillräckligt. Det kommer att ge lite information om variationen mellan datavärden. Variabilitetsmåtten tillsammans med måtten på central tendens ger en bättre bild av uppgifterna än måtten på enbart central tendens. De tre mest använda måtten på variabilitet är intervall , varians och standardavvikelse . Lämpligheten av varje åtgärd skulle bero på typen av data, formen på distributionen av data och vilket mått på central tendens som används. Om uppgifterna är kategoriska finns det inget mått på variabilitet att rapportera. För data som är numeriska är alla tre måtten möjliga. Om fördelningen av data är symmetrisk, är måtten på variabilitet vanligtvis variansen och standardavvikelsen. Men om data är snedställda är intervallet måttet på variabilitet som skulle vara lämpligt för den datamängden.

Beskrivande metoder

Beskrivande statistik beskriver ett urval eller population. De kan vara en del av explorativ dataanalys .

Lämplig statistik beror på mätningsnivån . För nominella variabler räcker det med en frekvenstabell och en lista över moden/lägena . För ordinalvariabler kan medianen beräknas som ett mått på central tendens och intervallet (och variationerna av det) som ett mått på spridningen. För intervallnivåvariabler läggs det aritmetiska medelvärdet (genomsnitt) och standardavvikelsen till verktygslådan och, för kvotnivåvariabler, lägger vi till det geometriska medelvärdet och det harmoniska medelvärdet som mått på central tendens och variationskoefficienten som ett mått på spridningen.

För intervall- och förhållandenivådata inkluderar ytterligare deskriptorer variabelns skevhet och kurtos .

Inferentiella metoder

Inferentiella metoder gör att vi kan sluta oss från ett urval till en population. För en nominell variabel kan ett envägs chi-kvadrattest (goodness of fit) hjälpa till att avgöra om vårt urval matchar det för någon population. För intervall- och kvotnivådata kan ett t-test med ett urval låta oss sluta oss till om medelvärdet i vårt urval stämmer överens med något föreslaget tal (vanligtvis 0). Andra tillgängliga tester av plats inkluderar teckentestet med ett prov och Wilcoxon signerade rangtest .

Grafiska metoder

De mest använda grafiska illustrationerna för univariata data är:

Frekvensfördelningstabeller

Frekvens är hur många gånger ett tal förekommer. Frekvensen av en observation i statistiken berättar hur många gånger observationen förekommer i data. Till exempel, i följande lista med siffror { 1, 2, 3, 4, 6, 9, 9, 8, 5, 1, 1, 9, 9, 0, 6, 9 } är frekvensen för siffran 9 5 (eftersom det förekommer 5 gånger i denna datamängd).

Stapeldiagram

Detta är ett exempel på barplot.

Stapeldiagram är ett diagram som består av rektangulära staplar. Dessa staplar representerar faktiskt antalet eller procentandelen av observationer av befintliga kategorier i en variabel. Längden eller höjden på staplarna ger en visuell representation av de proportionella skillnaderna mellan kategorierna .

Histogram

histogram

Histogram används för att uppskatta distributionen av data, med frekvensen av värden som tilldelas ett värdeområde som kallas en bin .

Cirkeldiagram

Cirkeldiagram är en cirkel indelad i delar som representerar de relativa frekvenserna eller procentsatserna av en population eller ett urval som tillhör olika kategorier.

Univariata distributioner

Univariat distribution är en spridningstyp av en enda slumpvariabel som beskrivs antingen med en sannolikhetsmassfunktion (pmf) för diskret sannolikhetsfördelning eller sannolikhetstäthetsfunktion (pdf) för kontinuerlig sannolikhetsfördelning . Det ska inte förväxlas med multivariat distribution .

Vanliga diskreta distributioner








Enhetlig fördelning (diskret) Bernoullifördelning Binomialfördelning Geometrisk fördelning Negativ binomialfördelning Poissonfördelning Hypergeometrisk fördelning Zetafördelning

Vanliga kontinuerliga distributioner







Enhetlig fördelning (kontinuerlig) Normalfördelning Gammafördelning Exponentialfördelning Weibullfördelning Cauchyfördelning Betafördelning

Se även

  1. ^   Kachigan, Sam Kash (1986). Statistisk analys: en tvärvetenskaplig introduktion till univariata och multivariata metoder . New York: Radius Press. ISBN 0-942154-99-1 .
  2. ^   Lacke, Prem S. Mann; med hjälp av Christopher Jay (2010). Inledande statistik (7:e uppl.). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5 .
  3. ^   Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. Statistik för företag & ekonomi (tionde upplagan). Cengage Learning. sid. 1018. ISBN 978-0-324-80926-8 .
  4. ^   Lacke, Prem S. Mann; med hjälp av Christopher Jay (2010). Inledande statistik (7:e uppl.). Hoboken, NJ: John Wiley & Sons. ISBN 978-0-470-44466-5 .
  5. ^ "Univariat analys" . stathow .
  6. ^ "Univariat data" . study.com .
  7. ^ Trochim, William. "Beskrivande statistik" . Webbcentrum för samhällsforskningsmetoder . Hämtad 15 februari 2017 .
  8. ^   Stepanski, Norm O'Rourke, Larry Hatcher, Edward J. (2005). En steg-för-steg metod för att använda SAS för univariat & multivariat statistik ( 2:a upplagan). New York: Wiley-Interscience. ISBN 1-59047-417-1 .
  9. ^   Longnecker, R. Lyman Ott, Michael (2009). En introduktion till statistiska metoder och dataanalys (6:e uppl., Internationell upplaga). Pacific Grove, Kalifornien: Brooks/Cole. ISBN 978-0-495-10914-3 .
  10. ^   Meloun, Milano; Militky, Jirí (2011). Statistisk dataanalys En praktisk guide . New Delhi: Woodhead Pub Ltd. ISBN 978-0-85709-109-3 .
  11. ^   Purves, David Freedman; Robert Pisani ; Roger (2007). Statistik (4. utg.). New York [ua]: Norton. ISBN 978-0-393-92972-0 .
  12. ^   Anderson, David R.; Sweeney, Dennis J.; Williams, Thomas A. Statistik för företag & ekonomi (tionde upplagan). Cengage Learning. sid. 1018. ISBN 978-0-324-80926-8 .
  13. ^ a b   Everitt, Brian (1998). Cambridge Dictionary of Statistics . Cambridge, Storbritannien New York: Cambridge University Press. ISBN 0521593468 .
  14. ^ "Envägs Chi-Square" .
  15. ^   Diez, David M.; Barr, Christopher D.; Çetinkaya-Rundel, Mine (2015). OpenIntro Statistics (3:e upplagan). OpenIntro, Inc. sid. 30. ISBN 978-1-9434-5003-9 .
  16. ^   Samaniego, Francisco J. (2014). Stokastisk modellering och matematisk statistik: en text för statistiker och kvantitativa vetenskapsmän . Boca Raton: CRC Press. sid. 167. ISBN 978-1-4665-6046-8 .