Histogram je pojem zo štatistiky. Je to grafické zobrazenie, ktoré nás informuje o rozdelení príslušných vzoriek. Obyčajne ide o obrázok vytvorený z tabuľky s mnohými kategóriami. Tabuľka hovorí, koľko vzoriek je v každej kategórii.
Slovo histogram je odvodené z gréckeho histos a gramma. Histos znamená sieť alebo stožiar. Gramma znamená kresbu, záznam alebo písmo. Histogram niečoho je teda z etymologického hľadiska kresba siete tohto niečoho.
Čo je to histogram a ako vzniká
V praxi je histogram stĺpcový graf, v ktorom sú na vodorovnej osi (x) hodnoty alebo intervaly hodnôt (tzv. triedy, biny) a na zvislej osi (y) počet alebo frekvencia pozorovaní v každej triede. Pri číselných (kontinuálnych) údajoch sa rozsah hodnôt rozdelí na niekoľko intervalov; pre každý interval sa spočíta počet pozorovaní a nakreslí sa stĺpec s výškou zodpovedajúcou tejto frekvencii.
Kroky pri zostavovaní histogramu
- Zozbierajte údaje a rozhodnite, či sú vhodné pre histogram (číselné, aspoň približne intervalové).
- Určte rozsah údajov (minimálna a maximálna hodnota).
- Rozdeľte rozsah na vhodný počet tried (binov) alebo nastavte šírku binu.
- Spočítajte, koľko pozorovaní spadá do každej triedy.
- Zobrazte stĺpce so štandardným usporiadaním; voliteľne zobrazte relatívne frekvencie alebo hustotu namiesto absolútnych počtov.
Interpretácia a užitočné vlastnosti
Histogram rýchlo ukáže základné charakteristiky rozdelenia dát:
- Stredné hodnoty a približné umiestnenie hromád (mode).
- Variabilitu — či sú dáta rozptýlené či sú skoncentrované v úzkych intervaloch.
- Asymetriu (skewness) — či má rozdelenie chvosty na ktorúkoľvek stranu.
- Modálnosť — či je rozdelenie jednovrcholové (unimodálne), dvojvrcholové (bimodálne) alebo viacvrcholové.
- Neočakávané hodnoty alebo anomálie, ktoré naznačujú chybu merania alebo zaujímavý jav.
Voľba počtu binov a šírky triedy
Výsledný vzhľad histogramu závisí citlivo na počte tried a ich šírke. Príliš málo tried môže skryť dôležité detaily (nadmerné zjednodušenie), príliš veľa tried môže viesť k „šumu“ a ťažkej interpretácii. Bežné pravidlá sú napríklad:
- Sturgesovo pravidlo: počet binov ≈ log2(n) + 1 (n = počet pozorovaní).
- Scottovo pravidlo alebo pravidlo Freedman–Diaconis pre šírku binu, ktoré zohľadňujú rozptyl alebo medzikvartilové rozpätie.
Relácia k iným grafom
Histogram je príbuzný grafom hustoty (kernel density estimate, KDE). KDE poskytuje hladkú aproximáciu rozdelenia bez diskretizácie do tried; histogram je jednoduchší a ľahko čitateľný pre laickú verejnosť. Pre porovnávanie viacerých skupín sa používajú prekrývajúce sa histogramy, vedľa seba umiestnené histogramy alebo boxploty a hustotné čiary.
Použitie v praxi
Histogramy sa používajú v mnohých oblastiach:
- Štatistická analýza a prieskum dát (EDA — exploratory data analysis).
- Kontrola kvality a priemyselné procesy (sledovanie rozdelenia rozmerov, chýb a pod.).
- Ekonomika a sociálne vedy (analýza príjmov, vekových skupín).
- Biológia a medicína (rozloženie biomarkerov, rokovaní atď.).
- Vizualizácia výsledkov simulácií a modelovania.
Výhody a obmedzenia
- Výhody: jednoduché, rýchle, intuitívne pre pochopenie rozdelenia dát.
- Obmedzenia: citlivosť na voľbu binov; pri menšom počte dát môže zavádzať; stráca informácie o presných hodnotách v prospech intervalov.
Praktický príklad
Ak máme merania výšok 100 ľudí, histogram nám ukáže, v ktorých intervaloch sa koncentrácia výšok nachádza (napr. 160–165 cm, 165–170 cm atď.), či sú dáta symetrické okolo priemeru, alebo či existujú dve skupiny (napr. ak sú v dátach muži aj ženy s rôznymi priemermi).
Zhrnutie
Histogram je základný a veľmi užitočný nástroj vo štatistike a pri grafickom zobrazení dát. Pomáha vizualizovať rozdelenie údajov, identifikovať modálnosť, asymetriu a možné odľahlé hodnoty. Pri správnej voľbe binov a interpretácii poskytuje rýchly prehľad o vlastnostiach súboru dát a je často prvým krokom v prieskume dát.

