Histogram: definícia, význam a použitie v štatistike

Histogram: čo to je, prečo je dôležitý a ako ho použiť v štatistike — jasné vysvetlenie, príklady a praktické tipy pre analýzu rozdelenia dát.

Autor: Leandro Alegsa

Histogram je pojem zo štatistiky. Je to grafické zobrazenie, ktoré nás informuje o rozdelení príslušných vzoriek. Obyčajne ide o obrázok vytvorený z tabuľky s mnohými kategóriami. Tabuľka hovorí, koľko vzoriek je v každej kategórii.

Slovo histogram je odvodené z gréckeho histos a gramma. Histos znamená sieť alebo stožiar. Gramma znamená kresbu, záznam alebo písmo. Histogram niečoho je teda z etymologického hľadiska kresba siete tohto niečoho.

Čo je to histogram a ako vzniká

V praxi je histogram stĺpcový graf, v ktorom sú na vodorovnej osi (x) hodnoty alebo intervaly hodnôt (tzv. triedy, biny) a na zvislej osi (y) počet alebo frekvencia pozorovaní v každej triede. Pri číselných (kontinuálnych) údajoch sa rozsah hodnôt rozdelí na niekoľko intervalov; pre každý interval sa spočíta počet pozorovaní a nakreslí sa stĺpec s výškou zodpovedajúcou tejto frekvencii.

Kroky pri zostavovaní histogramu

  • Zozbierajte údaje a rozhodnite, či sú vhodné pre histogram (číselné, aspoň približne intervalové).
  • Určte rozsah údajov (minimálna a maximálna hodnota).
  • Rozdeľte rozsah na vhodný počet tried (binov) alebo nastavte šírku binu.
  • Spočítajte, koľko pozorovaní spadá do každej triedy.
  • Zobrazte stĺpce so štandardným usporiadaním; voliteľne zobrazte relatívne frekvencie alebo hustotu namiesto absolútnych počtov.

Interpretácia a užitočné vlastnosti

Histogram rýchlo ukáže základné charakteristiky rozdelenia dát:

  • Stredné hodnoty a približné umiestnenie hromád (mode).
  • Variabilitu — či sú dáta rozptýlené či sú skoncentrované v úzkych intervaloch.
  • Asymetriu (skewness) — či má rozdelenie chvosty na ktorúkoľvek stranu.
  • Modálnosť — či je rozdelenie jednovrcholové (unimodálne), dvojvrcholové (bimodálne) alebo viacvrcholové.
  • Neočakávané hodnoty alebo anomálie, ktoré naznačujú chybu merania alebo zaujímavý jav.

Voľba počtu binov a šírky triedy

Výsledný vzhľad histogramu závisí citlivo na počte tried a ich šírke. Príliš málo tried môže skryť dôležité detaily (nadmerné zjednodušenie), príliš veľa tried môže viesť k „šumu“ a ťažkej interpretácii. Bežné pravidlá sú napríklad:

  • Sturgesovo pravidlo: počet binov ≈ log2(n) + 1 (n = počet pozorovaní).
  • Scottovo pravidlo alebo pravidlo Freedman–Diaconis pre šírku binu, ktoré zohľadňujú rozptyl alebo medzikvartilové rozpätie.

Relácia k iným grafom

Histogram je príbuzný grafom hustoty (kernel density estimate, KDE). KDE poskytuje hladkú aproximáciu rozdelenia bez diskretizácie do tried; histogram je jednoduchší a ľahko čitateľný pre laickú verejnosť. Pre porovnávanie viacerých skupín sa používajú prekrývajúce sa histogramy, vedľa seba umiestnené histogramy alebo boxploty a hustotné čiary.

Použitie v praxi

Histogramy sa používajú v mnohých oblastiach:

  • Štatistická analýza a prieskum dát (EDA — exploratory data analysis).
  • Kontrola kvality a priemyselné procesy (sledovanie rozdelenia rozmerov, chýb a pod.).
  • Ekonomika a sociálne vedy (analýza príjmov, vekových skupín).
  • Biológia a medicína (rozloženie biomarkerov, rokovaní atď.).
  • Vizualizácia výsledkov simulácií a modelovania.

Výhody a obmedzenia

  • Výhody: jednoduché, rýchle, intuitívne pre pochopenie rozdelenia dát.
  • Obmedzenia: citlivosť na voľbu binov; pri menšom počte dát môže zavádzať; stráca informácie o presných hodnotách v prospech intervalov.

Praktický príklad

Ak máme merania výšok 100 ľudí, histogram nám ukáže, v ktorých intervaloch sa koncentrácia výšok nachádza (napr. 160–165 cm, 165–170 cm atď.), či sú dáta symetrické okolo priemeru, alebo či existujú dve skupiny (napr. ak sú v dátach muži aj ženy s rôznymi priemermi).

Zhrnutie

Histogram je základný a veľmi užitočný nástroj vo štatistike a pri grafickom zobrazení dát. Pomáha vizualizovať rozdelenie údajov, identifikovať modálnosť, asymetriu a možné odľahlé hodnoty. Pri správnej voľbe binov a interpretácii poskytuje rýchly prehľad o vlastnostiach súboru dát a je často prvým krokom v prieskume dát.

Príklad histogramu 100 normálne rozdelených náhodných hodnôtZoom
Príklad histogramu 100 normálne rozdelených náhodných hodnôt

Podobné nápady

Histogram je jedným zo siedmich základných nástrojov kontroly kvality, medzi ktoré patria aj Paretov diagram, kontrolný list, regulačný diagram, diagram príčin a následkov, vývojový diagram a diagram rozptylu.

Zovšeobecnením histogramu sú techniky jadrového vyhladzovania. Tým sa z dodaných údajov skonštruuje hladká funkcia hustoty pravdepodobnosti.

Otázky a odpovede

Otázka: Čo je to histogram?


Odpoveď: Histogram je grafické zobrazenie, ktoré nám hovorí o rozložení príslušných vzoriek.

Otázka: Aký je účel histogramu?


Odpoveď: Účelom histogramu je zobraziť rozdelenie príslušných vzoriek.

Otázka: Čo znamená slovo histogram?


Odpoveď: Slovo histogram je odvodené z gréckeho histos a gramma. Histos znamená sieť alebo stožiar. Gramma znamená kresbu, záznam alebo písmo.

Otázka: Čo znamená pojem "histos" v gréčtine?


Odpoveď: Pojem "histos" znamená v gréčtine sieť alebo stožiar.

Otázka: Čo v gréčtine znamená pojem "gramma"?


Odpoveď: Pojem "gramma" znamená v gréčtine kresbu, záznam alebo písmo.

Otázka: Čo je spoločným znakom histogramu?


Odpoveď: Spoločným znakom histogramu je obrázok vytvorený z tabuľky s mnohými kategóriami.

Otázka: Aké informácie poskytuje tabuľka histogramu?


Odpoveď: Tabuľka histogramu poskytuje informácie o tom, koľko vzoriek je v každej kategórii.


Prehľadať
AlegsaOnline.com - 2020 / 2025 - License CC3