Histogram
Histogram | |
---|---|
Ett av de sju grundläggande kvalitetsverktygen | |
Först beskrivits av | Karl Pearson |
Syfte | Att grovt bedöma sannolikhetsfördelningen för en given variabel genom att avbilda frekvenserna av observationer som sker inom vissa värdeområden. |
Ett histogram är en ungefärlig representation av fördelningen av numeriska data. Termen introducerades först av Karl Pearson . För att konstruera ett histogram är det första steget att " bin " (eller " hink ") värdeintervallet - det vill säga dela upp hela värdeintervallet i en serie intervall - och sedan räkna hur många värden som faller in i varje intervall. Fackarna anges vanligtvis som konsekutiva, icke-överlappande intervall för en variabel. Papperskorgen (intervallerna) måste ligga intill och är ofta (men krävs inte att vara) lika stora.
Om kärlen är lika stora, dras en stapel över behållaren med höjden proportionell mot frekvensen — antalet lådor i varje kärl. Ett histogram kan också normaliseras för att visa "relativa" frekvenser som visar andelen fall som faller inom var och en av flera kategorier , med summan av höjderna lika med 1.
Papperskorgen behöver dock inte vara lika breda; i så fall definieras den uppförda rektangeln till att ha sin area proportionell mot frekvensen av fall i behållaren. Den vertikala axeln är då inte frekvensen utan frekvenstätheten — antalet fall per enhet av variabeln på den horisontella axeln. Exempel på variabel fackbredd visas på Census byrå-data nedan.
Eftersom de intilliggande fackarna inte lämnar några luckor, berör rektanglarna i ett histogram varandra för att indikera att den ursprungliga variabeln är kontinuerlig.
Histogram ger en grov känsla av densiteten för den underliggande fördelningen av data, och ofta för densitetsuppskattning : uppskattning av sannolikhetstäthetsfunktionen för den underliggande variabeln. Den totala arean av ett histogram som används för sannolikhetstäthet normaliseras alltid till 1. Om längden på intervallen på x -axeln är alla 1, så är ett histogram identiskt med en relativ frekvensplot .
Histogrammet är ett av de sju grundläggande verktygen för kvalitetskontroll .
Histogram förväxlas ibland med stapeldiagram . Ett histogram används för kontinuerliga data , där fälten representerar dataintervall, medan ett stapeldiagram är en plot av kategoriska variabler . Vissa författare rekommenderar att stapeldiagram har luckor mellan rektanglarna för att förtydliga skillnaden.
Ett stapeldiagram och ett histogram är två vanliga typer av grafiska representationer av data. Även om de kan se likadana ut, finns det några viktiga skillnader mellan de två som är viktiga att förstå.
Ett stapeldiagram är ett diagram som använder staplar för att representera frekvensen eller mängden av olika kategorier av data. Staplarna kan vara antingen vertikala eller horisontella, och de är vanligtvis anordnade antingen horisontellt eller vertikalt för att göra det enkelt att jämföra de olika kategorierna. Stapeldiagram är användbara för att visa data som kan delas in i diskreta kategorier, till exempel antalet elever i olika årskurser på en skola.
Ett histogram, å andra sidan, är en graf som visar fördelningen av numeriska data. Det är en typ av stapeldiagram som visar frekvensen eller antalet observationer inom olika numeriska intervall, så kallade bins. Fackarna anges vanligtvis som konsekutiva, icke-överlappande intervall för en variabel. Histogrammet ger en visuell representation av fördelningen av data, som visar antalet observationer som faller inom varje fack. Detta kan vara användbart för att identifiera mönster och trender i data, och för att göra jämförelser mellan olika datamängder.
Exempel
Detta är data för histogrammet till höger, med 500 objekt:
Bin/Intervall | Räkna/frekvens |
---|---|
−3,5 till −2,51 | 9 |
−2,5 till −1,51 | 32 |
-1,5 till -0,51 | 109 |
-0,5 till 0,49 | 180 |
0,5 till 1,49 | 132 |
1,5 till 2,49 | 34 |
2,5 till 3,49 | 4 |
Orden som används för att beskriva mönstren i ett histogram är: "symmetrisk", "snett vänster" eller "höger", "unimodal", "bimodal" eller "multimodal".
Det är en bra idé att plotta data med flera olika lagerbredder för att lära dig mer om det. Här är ett exempel på tips som ges på en restaurang.
US Census Bureau fann att det fanns 124 miljoner människor som arbetar utanför sina hem. Med hjälp av deras uppgifter om den tid som resor till arbetet tar, visar tabellen nedan att det absoluta antalet personer som svarat med restider "minst 30 men mindre än 35 minuter" är högre än siffrorna för kategorierna ovanför och under. Detta beror sannolikt på att människor rundar av sin rapporterade restid. [ citat behövs ] Problemet med att rapportera värden som något godtyckligt avrundade tal är ett vanligt fenomen när man samlar in data från människor. [ citat behövs ]
Data efter absoluta tal Intervall Bredd Kvantitet Kvantitet/bredd 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
Detta histogram visar antalet fall per enhetsintervall som höjden på varje block, så att arean för varje block är lika med antalet personer i undersökningen som faller inom dess kategori. Ytan under kurvan representerar det totala antalet fall (124 miljoner). Denna typ av histogram visar absoluta tal, med Q i tusental.
Data efter proportion Intervall Bredd Kvantitet (Q) Q/totalt/bredd 0 5 4180 0,0067 5 5 13687 0,0221 10 5 18618 0,0300 15 5 19634 0,0316 20 5 17981 0,0290 25 5 7190 0,0116 30 5 16369 0,0264 35 5 3212 0,0052 40 5 4122 0,0066 45 15 9200 0,0049 60 30 6461 0,0017 90 60 3435 0,0005
Detta histogram skiljer sig från det första endast i den vertikala skalan. Arean av varje block är bråkdelen av summan som varje kategori representerar, och den totala arean av alla staplar är lika med 1 (bråket som betyder "alla"). Kurvan som visas är en enkel densitetsuppskattning . Den här versionen visar proportioner och är även känd som ett områdeshistogram.
Med andra ord representerar ett histogram en frekvensfördelning med hjälp av rektanglar vars bredder representerar klassintervall och vars ytor är proportionella mot motsvarande frekvenser: höjden på varje är den genomsnittliga frekvenstätheten för intervallet. Intervallen placeras tillsammans för att visa att data som representeras av histogrammet, även om de är exklusiva, också är sammanhängande. (T.ex. i ett histogram är det möjligt att ha två anslutningsintervall på 10,5–20,5 och 20,5–33,5, men inte två anslutningsintervall på 10,5–20,5 och 22,5–32,5. Tomma intervall representeras som tomma och inte överhoppade.)
Matematiska definitioner
Data som används för att konstruera ett histogram genereras via en funktion m i som räknar antalet observationer som faller inom var och en av de osammanhängande kategorierna (så kallade bins ). Således, om vi låter n vara det totala antalet observationer och k är det totala antalet fack, uppfyller histogramdata m i följande villkor:
Ett histogram kan ses som en förenklad kärndensitetsuppskattning , som använder en kärna för att jämna ut frekvenser över fackarna. Detta ger en jämnare sannolikhetstäthetsfunktion, som i allmänhet mer exakt återspeglar fördelningen av den underliggande variabeln. Densitetsuppskattningen skulle kunna plottas som ett alternativ till histogrammet och ritas vanligtvis som en kurva snarare än en uppsättning rutor. Histogram är ändå att föredra i applikationer, när deras statistiska egenskaper behöver modelleras. Den korrelerade variationen av en kärndensitetsuppskattning är mycket svår att beskriva matematiskt, medan det är enkelt för ett histogram där varje fack varierar oberoende av varandra.
Ett alternativ till kärndensitetsuppskattning är det genomsnittliga skiftade histogrammet, som är snabbt att beräkna och ger en jämn kurvuppskattning av densiteten utan att använda kärnor.
Kumulativt histogram
Ett kumulativt histogram är en mappning som räknar det kumulativa antalet observationer i alla fack upp till det angivna facket. Det vill säga, det kumulativa histogrammet Mi för ett histogram mj definieras som:
Antal fack och bredd
Det finns inget "bästa" antal papperskorgar, och olika lagerstorlekar kan avslöja olika egenskaper hos data. Grupperingsdata är minst lika gammal som Graunts arbete på 1600-talet, men inga systematiska riktlinjer gavs förrän Sturges arbete 1926.
Användning av bredare fack där densiteten för de underliggande datapunkterna är låg minskar bruset på grund av slumpmässigt urval; att använda smalare fack där densiteten är hög (så att signalen dränker bruset) ger större precision till densitetsuppskattningen. Att variera bin-bredden inom ett histogram kan därför vara fördelaktigt. Lika breda papperskorgar används dock i stor utsträckning.
Vissa teoretiker har försökt bestämma ett optimalt antal papperskorgar, men dessa metoder gör i allmänhet starka antaganden om fördelningens form. Beroende på den faktiska datafördelningen och målen för analysen kan olika lagerbredder vara lämpliga, så experimentering behövs vanligtvis för att bestämma en lämplig bredd. Det finns dock olika användbara riktlinjer och tumregler.
Antalet fack k kan tilldelas direkt eller kan beräknas från en föreslagen fackbredd h som:
Hängslen indikerar takfunktionen .
Kvadratrotsval
som tar kvadratroten av antalet datapunkter i provet (används av Excels Analysis Toolpak-histogram och många andra) och avrundar till nästa heltal .
Sturges formel
Sturges formel härleds från en binomialfördelning och antar implicit en ungefärlig normalfördelning.
Sturges formel baserar implicit lagerstorlekar på dataområdet och kan prestera dåligt om n < 30 , eftersom antalet lagerplatser kommer att vara litet – mindre än sju – och sannolikt inte visar trender i databrunnen. På den andra ytterligheten kan Sturges formel överskatta lagerbredden för mycket stora datamängder, vilket resulterar i överutjämnade histogram. Det kan också fungera dåligt om uppgifterna inte är normalfördelade.
Jämfört med Scotts regel och Terrell-Scott-regeln, två andra allmänt accepterade formler för histogramfack, är utdata från Sturges formel närmast när n ≈ 100 .
Ris regel
Risregeln presenteras som ett enkelt alternativ till Sturges regel.
Doanes formel
Doanes formel är en modifiering av Sturges formel som försöker förbättra dess prestanda med icke-normala data.
där är den uppskattade 3:e ögonblickets skevhet i fördelningen och
Scotts normala referensregel
Fackets bredd ges av
där är provets standardavvikelse . Scotts normala referensregel är optimal för slumpmässiga urval av normalfördelade data, i den meningen att den minimerar det integrerade kvadratiska medelvärdet för densitetsuppskattningen.
Freedman–Diaconis val
Freedman –Diaconis-regeln ger binbredden som:
som baseras på interkvartilintervallet , betecknat med IQR. Den ersätter 3,5σ av Scotts regel med 2 IQR, vilket är mindre känsligt än standardavvikelsen för extremvärden i data.
Minimerar korsvalidering uppskattat kvadratfel
Detta tillvägagångssätt för att minimera integrerat medelkvadratfel från Scotts regel kan generaliseras bortom normalfördelningar, genom att använda korsvalidering med utelämna en ute:
Här är antalet datapunkter i det k: te facket, och att välja värdet på h som minimerar J kommer att minimera integrerat medelkvadratfel.
Shimazaki och Shinomotos val
Valet baseras på minimering av en uppskattad L 2 riskfunktion
där och är medelvärde och partisk varians av ett histogram med bin-width , och .
Varierande papperskorgarbredder
Istället för att välja kärl med jämnt mellanrum är det för vissa applikationer att föredra att variera behållarens bredd. Detta undviker papperskorgar med lågt antal. Ett vanligt fall är att välja equiprobable bins , där antalet prover i varje bin förväntas vara ungefär lika. Fackarna kan väljas enligt någon känd fördelning eller kan väljas baserat på data så att varje fack har sampel. Vid plottning av histogrammet används frekvensdensiteten för den beroende axeln. Medan alla fack har ungefär lika stor yta, är höjderna på histogrammet ungefärliga densitetsfördelningen.
För lika sannolika papperskorgar föreslås följande regel för antalet papperskorgar:
Detta val av fack motiveras av att maximera kraften i ett Pearson chi-kvadrattest som testar om fackarna innehåller lika många prover. Mer specifikt, för ett givet konfidensintervall rekommenderas det att välja mellan 1/2 och 1 gånger följande ekvation:
Där är probitfunktionen . Att följa denna regel för skulle 3,77 ; koefficienten 2 väljs som ett lätt att komma ihåg värde från detta breda optimum.
Anmärkning
Ett bra skäl till att antalet fack bör vara proportionellt mot är följande: anta att data erhålls som oberoende realiseringar av en avgränsad sannolikhetsfördelning med jämn densitet. Då förblir histogrammet lika "tufft" eftersom tenderar mot oändligheten. Om är "bredden" på fördelningen (t.ex. standardavvikelsen eller inter-kvartilområdet), då är antalet enheter i ett fack (frekvensen) av ordningen n och det relativa standardfelet är av ordningen . Jämfört med nästa bin, är den relativa förändringen av frekvensen av storleksordningen förutsatt att derivatan av densiteten är icke-noll. Dessa två är av samma ordning om är av ordningen så att är av ordning . Detta enkla kubikrotsval kan även appliceras på lådor med icke-konstant bredd.
Ansökningar
- Inom hydrologi används histogrammet och den uppskattade densitetsfunktionen för nederbörds- och flodavloppsdata, analyserade med en sannolikhetsfördelning , för att få insikt i deras beteende och förekomstfrekvens. Ett exempel visas i den blå figuren.
- I många digitala bildbehandlingsprogram finns ett histogramverktyg som visar fördelningen av pixlarnas kontrast /ljusstyrka .
Se även
- Data- och informationsvisualisering
- Databinning
-
Densitetsuppskattning
- Kärndensitetsuppskattning , en smidigare men mer komplex metod för densitetsuppskattning
- Entropiuppskattning
- Freedman–Diaconis härskar
- Bildhistogram
- Pareto-diagram
- Sju grundläggande kvalitetsverktyg
- V-optimala histogram
Vidare läsning
- Lancaster, HO En introduktion till medicinsk statistik. John Wiley och söner. 1974. ISBN 0-471-51250-8
externa länkar
- Exploring Histograms , en essä av Aran Lunzer och Amelia McNamara
- Resan till arbetet och arbetsplatsen (platsen för folkräkningsdokumentet som nämns i exemplet)
- Jämnt histogram för signaler och bilder från några få prover
- Histogram: Konstruktion, analys och förståelse med externa länkar och en applikation till partikelfysik.
- En metod för att välja lagerstorleken för ett histogram
- Histogram: Theory and Practice , några bra illustrationer av några av Bin Width-koncepten härledda ovan.
- Histogram på rätt sätt
- Interaktiv histogramgenerator
- Matlab-funktion för att rita fina histogram
- Dynamiskt histogram i MS Excel
- Histogramkonstruktion och manipulation med Java-applets och diagram på SOCR
- Verktygslåda för att konstruera de bästa histogrammen