Histogram

Histogram
Histogram
Ett av de sju grundläggande kvalitetsverktygen
Först beskrivits av	Karl Pearson
Syfte	Att grovt bedöma sannolikhetsfördelningen för en given variabel genom att avbilda frekvenserna av observationer som sker inom vissa värdeområden.

Ett histogram är en ungefärlig representation av fördelningen av numeriska data. Termen introducerades först av Karl Pearson . För att konstruera ett histogram är det första steget att " bin " (eller " hink ") värdeintervallet - det vill säga dela upp hela värdeintervallet i en serie intervall - och sedan räkna hur många värden som faller in i varje intervall. Fackarna anges vanligtvis som konsekutiva, icke-överlappande intervall för en variabel. Papperskorgen (intervallerna) måste ligga intill och är ofta (men krävs inte att vara) lika stora.

Om kärlen är lika stora, dras en stapel över behållaren med höjden proportionell mot frekvensen — antalet lådor i varje kärl. Ett histogram kan också normaliseras för att visa "relativa" frekvenser som visar andelen fall som faller inom var och en av flera kategorier , med summan av höjderna lika med 1.

Papperskorgen behöver dock inte vara lika breda; i så fall definieras den uppförda rektangeln till att ha sin area proportionell mot frekvensen av fall i behållaren. Den vertikala axeln är då inte frekvensen utan frekvenstätheten — antalet fall per enhet av variabeln på den horisontella axeln. Exempel på variabel fackbredd visas på Census byrå-data nedan.

Eftersom de intilliggande fackarna inte lämnar några luckor, berör rektanglarna i ett histogram varandra för att indikera att den ursprungliga variabeln är kontinuerlig.

Histogram ger en grov känsla av densiteten för den underliggande fördelningen av data, och ofta för densitetsuppskattning : uppskattning av sannolikhetstäthetsfunktionen för den underliggande variabeln. Den totala arean av ett histogram som används för sannolikhetstäthet normaliseras alltid till 1. Om längden på intervallen på x -axeln är alla 1, så är ett histogram identiskt med en relativ frekvensplot .

Histogrammet är ett av de sju grundläggande verktygen för kvalitetskontroll .

Histogram förväxlas ibland med stapeldiagram . Ett histogram används för kontinuerliga data , där fälten representerar dataintervall, medan ett stapeldiagram är en plot av kategoriska variabler . Vissa författare rekommenderar att stapeldiagram har luckor mellan rektanglarna för att förtydliga skillnaden.

Ett stapeldiagram och ett histogram är två vanliga typer av grafiska representationer av data. Även om de kan se likadana ut, finns det några viktiga skillnader mellan de två som är viktiga att förstå.

Ett stapeldiagram är ett diagram som använder staplar för att representera frekvensen eller mängden av olika kategorier av data. Staplarna kan vara antingen vertikala eller horisontella, och de är vanligtvis anordnade antingen horisontellt eller vertikalt för att göra det enkelt att jämföra de olika kategorierna. Stapeldiagram är användbara för att visa data som kan delas in i diskreta kategorier, till exempel antalet elever i olika årskurser på en skola.

Ett histogram, å andra sidan, är en graf som visar fördelningen av numeriska data. Det är en typ av stapeldiagram som visar frekvensen eller antalet observationer inom olika numeriska intervall, så kallade bins. Fackarna anges vanligtvis som konsekutiva, icke-överlappande intervall för en variabel. Histogrammet ger en visuell representation av fördelningen av data, som visar antalet observationer som faller inom varje fack. Detta kan vara användbart för att identifiera mönster och trender i data, och för att göra jämförelser mellan olika datamängder.

Exempel

Detta är data för histogrammet till höger, med 500 objekt:

Bin/Intervall	Räkna/frekvens
−3,5 till −2,51	9
−2,5 till −1,51	32
-1,5 till -0,51	109
-0,5 till 0,49	180
0,5 till 1,49	132
1,5 till 2,49	34
2,5 till 3,49	4

Orden som används för att beskriva mönstren i ett histogram är: "symmetrisk", "snett vänster" eller "höger", "unimodal", "bimodal" eller "multimodal".

Symmetrisk, unimodal
Skev rätt
Skev vänster
Bimodal
Multimodal
Symmetrisk

Det är en bra idé att plotta data med flera olika lagerbredder för att lära dig mer om det. Här är ett exempel på tips som ges på en restaurang.

Spetsar med en bredd på 1 USD, sned åt höger, unimodal
Tips som använder en 10c papperskorgsbredd, fortfarande sned åt höger, multimodal med lägen på $ och 50c belopp, indikerar avrundning, även vissa extremvärden

US Census Bureau fann att det fanns 124 miljoner människor som arbetar utanför sina hem. Med hjälp av deras uppgifter om den tid som resor till arbetet tar, visar tabellen nedan att det absoluta antalet personer som svarat med restider "minst 30 men mindre än 35 minuter" är högre än siffrorna för kategorierna ovanför och under. Detta beror sannolikt på att människor rundar av sin rapporterade restid. ^{[ citat behövs ]} Problemet med att rapportera värden som något godtyckligt avrundade tal är ett vanligt fenomen när man samlar in data från människor. ^{[ citat behövs ]}

Histogram över restid (till arbetet), US 2000 Census. Arean under kurvan är lika med det totala antalet fall. Detta diagram använder Q/bredd från tabellen.

Data efter absoluta tal
Intervall	Bredd	Kvantitet	Kvantitet/bredd
0	5	4180	836
5	5	13687	2737
10	5	18618	3723
15	5	19634	3926
20	5	17981	3596
25	5	7190	1438
30	5	16369	3273
35	5	3212	642
40	5	4122	824
45	15	9200	613
60	30	6461	215
90	60	3435	57

Detta histogram visar antalet fall per enhetsintervall som höjden på varje block, så att arean för varje block är lika med antalet personer i undersökningen som faller inom dess kategori. Ytan under kurvan representerar det totala antalet fall (124 miljoner). Denna typ av histogram visar absoluta tal, med Q i tusental.

Histogram över restid (till arbetet), US 2000 Census. Arean under kurvan är lika med 1. Detta diagram använder Q/total/bredd från tabellen.

Data efter proportion
Intervall	Bredd	Kvantitet (Q)	Q/totalt/bredd
0	5	4180	0,0067
5	5	13687	0,0221
10	5	18618	0,0300
15	5	19634	0,0316
20	5	17981	0,0290
25	5	7190	0,0116
30	5	16369	0,0264
35	5	3212	0,0052
40	5	4122	0,0066
45	15	9200	0,0049
60	30	6461	0,0017
90	60	3435	0,0005

Detta histogram skiljer sig från det första endast i den vertikala skalan. Arean av varje block är bråkdelen av summan som varje kategori representerar, och den totala arean av alla staplar är lika med 1 (bråket som betyder "alla"). Kurvan som visas är en enkel densitetsuppskattning . Den här versionen visar proportioner och är även känd som ett områdeshistogram.

Med andra ord representerar ett histogram en frekvensfördelning med hjälp av rektanglar vars bredder representerar klassintervall och vars ytor är proportionella mot motsvarande frekvenser: höjden på varje är den genomsnittliga frekvenstätheten för intervallet. Intervallen placeras tillsammans för att visa att data som representeras av histogrammet, även om de är exklusiva, också är sammanhängande. (T.ex. i ett histogram är det möjligt att ha två anslutningsintervall på 10,5–20,5 och 20,5–33,5, men inte två anslutningsintervall på 10,5–20,5 och 22,5–32,5. Tomma intervall representeras som tomma och inte överhoppade.)

Matematiska definitioner

Ett vanligt och ett kumulativt histogram av samma data. Data som visas är ett slumpmässigt urval på 10 000 poäng från en normalfördelning med ett medelvärde på 0 och en standardavvikelse på 1.

Data som används för att konstruera ett histogram genereras via en funktion m _i som räknar antalet observationer som faller inom var och en av de osammanhängande kategorierna (så kallade bins ). Således, om vi låter n vara det totala antalet observationer och k är det totala antalet fack, _uppfyller histogramdata m i följande villkor:

n=\sum _{i=1}^{k}{m_{i}}.

Ett histogram kan ses som en förenklad kärndensitetsuppskattning , som använder en kärna för att jämna ut frekvenser över fackarna. Detta ger en jämnare sannolikhetstäthetsfunktion, som i allmänhet mer exakt återspeglar fördelningen av den underliggande variabeln. Densitetsuppskattningen skulle kunna plottas som ett alternativ till histogrammet och ritas vanligtvis som en kurva snarare än en uppsättning rutor. Histogram är ändå att föredra i applikationer, när deras statistiska egenskaper behöver modelleras. Den korrelerade variationen av en kärndensitetsuppskattning är mycket svår att beskriva matematiskt, medan det är enkelt för ett histogram där varje fack varierar oberoende av varandra.

Ett alternativ till kärndensitetsuppskattning är det genomsnittliga skiftade histogrammet, som är snabbt att beräkna och ger en jämn kurvuppskattning av densiteten utan att använda kärnor.

Kumulativt histogram

Ett kumulativt histogram är en mappning som räknar det kumulativa antalet observationer i alla fack upp till det angivna facket. Det vill säga, det kumulativa histogrammet _Mi_för ett histogram mj definieras som:

M_{i}=\sum _{j=1}^{i}{m_{j}}.

Antal fack och bredd

Det finns inget "bästa" antal papperskorgar, och olika lagerstorlekar kan avslöja olika egenskaper hos data. Grupperingsdata är minst lika gammal som Graunts arbete på 1600-talet, men inga systematiska riktlinjer gavs förrän Sturges arbete 1926.

Användning av bredare fack där densiteten för de underliggande datapunkterna är låg minskar bruset på grund av slumpmässigt urval; att använda smalare fack där densiteten är hög (så att signalen dränker bruset) ger större precision till densitetsuppskattningen. Att variera bin-bredden inom ett histogram kan därför vara fördelaktigt. Lika breda papperskorgar används dock i stor utsträckning.

Vissa teoretiker har försökt bestämma ett optimalt antal papperskorgar, men dessa metoder gör i allmänhet starka antaganden om fördelningens form. Beroende på den faktiska datafördelningen och målen för analysen kan olika lagerbredder vara lämpliga, så experimentering behövs vanligtvis för att bestämma en lämplig bredd. Det finns dock olika användbara riktlinjer och tumregler.

Antalet fack k kan tilldelas direkt eller kan beräknas från en föreslagen fackbredd h som:

k=\left\lceil {\frac {\max x-\min x}{h}}\right\rceil .

Hängslen indikerar takfunktionen .

Kvadratrotsval

k=\lceil {\sqrt {n}}\rceil \,

som tar kvadratroten av antalet datapunkter i provet (används av Excels Analysis Toolpak-histogram och många andra) och avrundar till nästa heltal .

Sturges formel

Sturges formel härleds från en binomialfördelning och antar implicit en ungefärlig normalfördelning.

k=\lceil \log _{2}n\rceil +1,\,

Sturges formel baserar implicit lagerstorlekar på dataområdet och kan prestera dåligt om $n < 30$ , eftersom antalet lagerplatser kommer att vara litet – mindre än sju – och sannolikt inte visar trender i databrunnen. På den andra ytterligheten kan Sturges formel överskatta lagerbredden för mycket stora datamängder, vilket resulterar i överutjämnade histogram. Det kan också fungera dåligt om uppgifterna inte är normalfördelade.

Jämfört med Scotts regel och Terrell-Scott-regeln, två andra allmänt accepterade formler för histogramfack, är utdata från Sturges formel närmast när $n \approx 100$ .

Ris regel

k=\lceil 2{\sqrt[{3}]{n}}\rceil ,

Risregeln presenteras som ett enkelt alternativ till Sturges regel.

Doanes formel

Doanes formel är en modifiering av Sturges formel som försöker förbättra dess prestanda med icke-normala data.

k=1+\log _{2}(n)+\log _{2}\left (1+{\frac {|g_{1}|}{\sigma _{g_{1}}}}\right)

där $g_{1}$ är den uppskattade 3:e ögonblickets skevhet i fördelningen och

\sigma _{g_{1}}={\sqrt {\frac {6(n-2)}{(n +1)(n+3)}}}

Scotts normala referensregel

Fackets bredd $h$ ges av

h={\frac {3.49{\hat {\sigma }}}{\sqrt[{3}]{n}}},

där ${\hat {\sigma }}$ är provets standardavvikelse . Scotts normala referensregel är optimal för slumpmässiga urval av normalfördelade data, i den meningen att den minimerar det integrerade kvadratiska medelvärdet för densitetsuppskattningen.

Freedman–Diaconis val

Freedman –Diaconis-regeln ger binbredden $h$ som:

h=2{\frac {\operatörsnamn {IQR} (x)}{\sqrt[{3}]{n}}},

som baseras på interkvartilintervallet , betecknat med IQR. Den ersätter 3,5σ av Scotts regel med 2 IQR, vilket är mindre känsligt än standardavvikelsen för extremvärden i data.

Minimerar korsvalidering uppskattat kvadratfel

Detta tillvägagångssätt för att minimera integrerat medelkvadratfel från Scotts regel kan generaliseras bortom normalfördelningar, genom att använda korsvalidering med utelämna en ute:

{ \underset {h}{\operatörsnamn {arg\,min} }}{\hat {J}}(h)={\underset {h}{\operatörsnamn {arg\,min} }}\left({\frac {2}{(n-1)h}}-{\frac {n+1}{n^{2}(n-1)h}}\summa _{k}N_{k}^{2}\ höger)

Här är $N_{k}$ antalet datapunkter i det k: te facket, och att välja värdet på h som minimerar J kommer att minimera integrerat medelkvadratfel.

Shimazaki och Shinomotos val

Valet baseras på minimering av en uppskattad L ² riskfunktion

{\underset {h}{\operatörsnamn {arg\,min} }}{\frac {2{\bar {m}}-v}{ h^{2}}}

där $\textstyle {\bar {m}}$ och $\textstyle v$ är medelvärde och partisk varians av ett histogram med bin-width $\textstyle h$ , $\textstyle {\bar {m}}={\frac {1}{k}}\summa _{i=1}^{k}m_{i}$ och $\textstyle v={\frac {1}{k}}\summa _{i=1}^{k}(m_{i} -{\bar {m}})^{2}$ .

Varierande papperskorgarbredder

Istället för att välja kärl med jämnt mellanrum är det för vissa applikationer att föredra att variera behållarens bredd. Detta undviker papperskorgar med lågt antal. Ett vanligt fall är att välja equiprobable bins , där antalet prover i varje bin förväntas vara ungefär lika. Fackarna kan väljas enligt någon känd fördelning eller kan väljas baserat på data så att varje fack har $\approx n/k$ sampel. Vid plottning av histogrammet används frekvensdensiteten för den beroende axeln. Medan alla fack har ungefär lika stor yta, är höjderna på histogrammet ungefärliga densitetsfördelningen.

För lika sannolika papperskorgar föreslås följande regel för antalet papperskorgar:

k=2n^{2/5}

Detta val av fack motiveras av att maximera kraften i ett Pearson chi-kvadrattest som testar om fackarna innehåller lika många prover. Mer specifikt, för ett givet konfidensintervall $\alpha$ rekommenderas det att välja mellan 1/2 och 1 gånger följande ekvation:

k=4\left({\frac {2n^{2}}{\Phi ^{-1}(\alpha )}}\ höger)^{\frac {1}{5}}

Där $\Phi ^{-1}$ är probitfunktionen . Att följa denna regel för $\alpha =0,05$ skulle $\displaystyle 1,88n^{2/5}}$ $\displaystyle 3,77n^{2$ 3,77 ; koefficienten 2 väljs som ett lätt att komma ihåg värde från detta breda optimum.

Anmärkning

Ett bra skäl till att antalet fack bör vara proportionellt mot ${\sqrt[{3}]{n}}$ är följande: anta att data erhålls som $n$ oberoende realiseringar av en avgränsad sannolikhetsfördelning med jämn densitet. Då förblir histogrammet lika "tufft" eftersom $n$ tenderar mot oändligheten. Om $s$ är "bredden" på fördelningen (t.ex. standardavvikelsen eller inter-kvartilområdet), då är antalet enheter i ett fack (frekvensen) av ordningen n $\ displaystyle nh/s}$ och det relativa standardfelet är av ordningen ${\sqrt {s/(nh)}}$ . Jämfört med nästa bin, är den relativa förändringen av frekvensen av storleksordningen $h/s$ förutsatt att derivatan av densiteten är icke-noll. Dessa två är av samma ordning om $h$ är av ordningen ${\displaystyle s/{\sqrt[{3}]{n}}} ,$ så att $k$ är av ordning ${\sqrt[{3}]{n}}$ . Detta enkla kubikrotsval kan även appliceras på lådor med icke-konstant bredd.

Histogram och densitetsfunktion för en Gumbel-fördelning

Ansökningar

Inom hydrologi används histogrammet och den uppskattade densitetsfunktionen för nederbörds- och flodavloppsdata, analyserade med en sannolikhetsfördelning , för att få insikt i deras beteende och förekomstfrekvens. Ett exempel visas i den blå figuren.
I många digitala bildbehandlingsprogram finns ett histogramverktyg som visar fördelningen av pixlarnas kontrast /ljusstyrka .

kontrasthistogram