Histogram je pojem zo štatistiky. Je to grafické zobrazenie, ktoré nás informuje o rozdelení príslušných vzoriek. Obyčajne ide o obrázok vytvorený z tabuľky s mnohými kategóriami. Tabuľka hovorí, koľko vzoriek je v každej kategórii.

Slovo histogram je odvodené z gréckeho histos a gramma. Histos znamená sieť alebo stožiar. Gramma znamená kresbu, záznam alebo písmo. Histogram niečoho je teda z etymologického hľadiska kresba siete tohto niečoho.

Čo je to histogram a ako vzniká

V praxi je histogram stĺpcový graf, v ktorom sú na vodorovnej osi (x) hodnoty alebo intervaly hodnôt (tzv. triedy, biny) a na zvislej osi (y) počet alebo frekvencia pozorovaní v každej triede. Pri číselných (kontinuálnych) údajoch sa rozsah hodnôt rozdelí na niekoľko intervalov; pre každý interval sa spočíta počet pozorovaní a nakreslí sa stĺpec s výškou zodpovedajúcou tejto frekvencii.

Kroky pri zostavovaní histogramu

  • Zozbierajte údaje a rozhodnite, či sú vhodné pre histogram (číselné, aspoň približne intervalové).
  • Určte rozsah údajov (minimálna a maximálna hodnota).
  • Rozdeľte rozsah na vhodný počet tried (binov) alebo nastavte šírku binu.
  • Spočítajte, koľko pozorovaní spadá do každej triedy.
  • Zobrazte stĺpce so štandardným usporiadaním; voliteľne zobrazte relatívne frekvencie alebo hustotu namiesto absolútnych počtov.

Interpretácia a užitočné vlastnosti

Histogram rýchlo ukáže základné charakteristiky rozdelenia dát:

  • Stredné hodnoty a približné umiestnenie hromád (mode).
  • Variabilitu — či sú dáta rozptýlené či sú skoncentrované v úzkych intervaloch.
  • Asymetriu (skewness) — či má rozdelenie chvosty na ktorúkoľvek stranu.
  • Modálnosť — či je rozdelenie jednovrcholové (unimodálne), dvojvrcholové (bimodálne) alebo viacvrcholové.
  • Neočakávané hodnoty alebo anomálie, ktoré naznačujú chybu merania alebo zaujímavý jav.

Voľba počtu binov a šírky triedy

Výsledný vzhľad histogramu závisí citlivo na počte tried a ich šírke. Príliš málo tried môže skryť dôležité detaily (nadmerné zjednodušenie), príliš veľa tried môže viesť k „šumu“ a ťažkej interpretácii. Bežné pravidlá sú napríklad:

  • Sturgesovo pravidlo: počet binov ≈ log2(n) + 1 (n = počet pozorovaní).
  • Scottovo pravidlo alebo pravidlo Freedman–Diaconis pre šírku binu, ktoré zohľadňujú rozptyl alebo medzikvartilové rozpätie.

Relácia k iným grafom

Histogram je príbuzný grafom hustoty (kernel density estimate, KDE). KDE poskytuje hladkú aproximáciu rozdelenia bez diskretizácie do tried; histogram je jednoduchší a ľahko čitateľný pre laickú verejnosť. Pre porovnávanie viacerých skupín sa používajú prekrývajúce sa histogramy, vedľa seba umiestnené histogramy alebo boxploty a hustotné čiary.

Použitie v praxi

Histogramy sa používajú v mnohých oblastiach:

  • Štatistická analýza a prieskum dát (EDA — exploratory data analysis).
  • Kontrola kvality a priemyselné procesy (sledovanie rozdelenia rozmerov, chýb a pod.).
  • Ekonomika a sociálne vedy (analýza príjmov, vekových skupín).
  • Biológia a medicína (rozloženie biomarkerov, rokovaní atď.).
  • Vizualizácia výsledkov simulácií a modelovania.

Výhody a obmedzenia

  • Výhody: jednoduché, rýchle, intuitívne pre pochopenie rozdelenia dát.
  • Obmedzenia: citlivosť na voľbu binov; pri menšom počte dát môže zavádzať; stráca informácie o presných hodnotách v prospech intervalov.

Praktický príklad

Ak máme merania výšok 100 ľudí, histogram nám ukáže, v ktorých intervaloch sa koncentrácia výšok nachádza (napr. 160–165 cm, 165–170 cm atď.), či sú dáta symetrické okolo priemeru, alebo či existujú dve skupiny (napr. ak sú v dátach muži aj ženy s rôznymi priemermi).

Zhrnutie

Histogram je základný a veľmi užitočný nástroj vo štatistike a pri grafickom zobrazení dát. Pomáha vizualizovať rozdelenie údajov, identifikovať modálnosť, asymetriu a možné odľahlé hodnoty. Pri správnej voľbe binov a interpretácii poskytuje rýchly prehľad o vlastnostiach súboru dát a je často prvým krokom v prieskume dát.