Normálne (Gaussovo) rozdelenie: definícia, parametre a príklady
Prehľad normálneho (Gaussovho) rozdelenia: definícia, parametre (stredná hodnota, štandardná odchýlka), grafy a praktické príklady s vysvetlením centrálnej limitnej vety.
Normálne rozdelenie je rozdelenie pravdepodobnosti. Nazýva sa aj Gaussovo rozdelenie, pretože ho objavil Carl Friedrich Gauss. Normálne rozdelenie je spojité rozdelenie pravdepodobnosti a hrá kľúčovú úlohu v štatistike a prírodných vedách. Ide o rodinu rozdelení rovnakého všeobecného tvaru, ktoré sa líšia parametrami polohy a rozsahu: stredná hodnota (μ, „priemer“) určuje polohu krivky a štandardná odchýlka (σ, „variabilita“) určuje jej šírku a rozptyl.
Štandardné normálne rozdelenie (známe aj ako rozdelenie Z) je normálne rozdelenie so strednou hodnotou μ = 0 a rozptylom σ² = 1 (zelené krivky na grafoch vpravo). Graf jeho hustoty pravdepodobnosti vyzerá ako zvonček, preto sa často hovorí o „zvončekovej krivke“ (zvonček). Mnohé prirodzené alebo merateľné veličiny majú približne normálne rozdelenie; za príčinou často stojí centrálna limitná veta, ktorá hovorí, že súčet alebo priemer veľkého počtu nezávislých, rovnakým spôsobom rozdelených náhodných faktorov má tendenciu byť približne normálne rozdelený.
Formálna definícia a hustota pravdepodobnosti
Normálne rozdelenie s parametrami μ (stredná hodnota) a σ > 0 (štandardná odchýlka) má hustotu pravdepodobnosti
f(x) = 1 / (σ √(2π)) · exp(−(x − μ)² / (2 σ²)), pre x ∈ ℝ.
Kumulatívna distribučná funkcia (CDF) nie je vyjadriteľná elementárnymi funkciami, používa sa na ňu špeciálna funkcia chýb erf alebo numerické tabuľky/tabulkové funkcie v softvéri.
Štandardizácia
Ak X ~ N(μ, σ²), potom štandardizovaná premenná Z = (X − μ) / σ má štandardné normálne rozdelenie N(0,1). Naopak, ak Z ~ N(0,1), potom X = μ + σZ ~ N(μ, σ²). Štandardizácia sa používa pri výpočtoch pravdepodobností a pri porovnávaní hodnôt z rôznych rozdelení (z-skóre).
Základné vlastnosti
- Symetria: hustota je symetrická okolo μ; stredná hodnota, medián a modus sú rovnaké a rovné μ.
- Rozptyl a štandardná odchýlka: rozptyl je σ², štandardná odchýlka σ určuje „šírku“ krivky.
- Pravidlo 68–95–99.7: približne 68,27 % hodnôt leží v intervale μ ± σ, 95,45 % v μ ± 2σ a 99,73 % v μ ± 3σ.
- MGF a charakteristická funkcia: momentová generujúca funkcia M_X(t) = exp(μ t + ½ σ² t²), charakteristická funkcia φ_X(t) = exp(i μ t − ½ σ² t²).
- Maximálna entropia: medzi všetkými rozdeleniami s danou strednou hodnotou a rozptylom má normálne rozdelenie najväčšiu entropiu.
- Stabilita: súčet nezávislých normálnych premenných je tiež normálne rozdelený.
Príklady použitia a praktické príklady
Normálne rozdelenie sa často používa na modelovanie mnohých javov, napríklad:
- výšky dospelých ľudí v populácii (priemerná výška ± variabilita),
- chyby merania a náhodné odchýlky pri experimentoch,
- testové skóre, ak sú výsledky výsledkom mnohých nezávislých faktorov,
- IQ skóre (približne normálne rozdelené so strednou hodnotou 100 a σ = 15 v štandardnom meraní),
- modelovanie finančných výnosov v niektorých jednoduchých prístupoch (hoci tu sa často vyskytujú ťažké chvosty, ktoré normálne rozdelenie nedokáže zachytiť).
Praktický numerický príklad: ak je výška mužov približne N(170 cm, 10 cm²) (t.j. μ = 170, σ = 10), potom pravdepodobnosť, že náhodne vybraný muž má výšku medzi 160 a 180 cm, je približne 68 % (pretože ide o interval μ ± σ podľa pravidla 68 %).
Aplikácie v štatistike
- Intervaly spoľahlivosti: pri predpoklade normálnosti sa využívajú z-skóre alebo t-rozdelenie (pre malé vzorky) na konštrukciu intervalov pre strednú hodnotu.
- Hypotézy a testovanie: z-test a mnoho ďalších testov používajú normálne rozdelenie alebo jeho štandardnú podobu.
- Regresia a inferencia: predpoklad normálnosti chýb (rezíduí) uľahčuje odhadovanie a testovanie parametrov modelov.
- Normalizácia dát: štandardizovanie dát (odčítanie priemeru a delenie štandardnou odchýlkou) umožňuje porovnávanie a zlepšuje konvergenciu algoritmov strojového učenia.
Odhad parametrov
Pri meraní alebo pozorovaní dát sa parametre μ a σ² zvyčajne odhadujú zo vzorky. Bežné odhady sú:
- vzorový priemer x̄ ako odhad μ (je to MLE aj nezaujímavý odhad),
- vzorový rozptyl s opravou (s delením n−1) ako odhad rozptylu σ² (nepristranný odhad),
- maximálna vierohodnosť (MLE) pre σ² používa delenie n (má menšiu spôsobenú systematickú odchýlku pri malých vzorkách).
Kedy normálne rozdelenie nepostačuje
Normálne rozdelenie je veľmi užitočné, ale nie vždy vhodné. Nehodí sa na modelovanie dát s výraznými asymetriami, viacnásobnými režimami (viacerými vrcholmi) alebo veľmi ťažkými chvostami (veľmi časté extrémne hodnoty). V takých prípadoch sa volia iné modely (lognormálne, t‑rozdelenie, zmiešané normály, atď.).
Na záver: normálne rozdelenie poskytuje jednoduchý a veľmi užitočný model pre mnoho reálnych javov, ponúka analytické vzťahy (PDF, MGF, štandardizáciu) a je základom mnohých štatistických metód vďaka centrálnej limitnej vete.
Otázky a odpovede
Otázka: Čo je to normálne rozdelenie?
Odpoveď: Normálne rozdelenie je rozdelenie pravdepodobnosti, ktoré je veľmi dôležité v mnohých oblastiach vedy.
Otázka: Kto objavil normálne rozdelenie?
Odpoveď: Normálne rozdelenie prvýkrát objavil Carl Friedrich Gauss.
Otázka: Čo predstavujú parametre polohy a mierky v normálnom rozdelení?
Odpoveď: Priemer ("priemer") rozdelenia definuje jeho polohu a štandardná odchýlka ("variabilita") definuje mierku normálneho rozdelenia.
Otázka: Ako sú reprezentované parametre polohy a mierky normálnych rozdelení?
Odpoveď: Priemer a štandardná odchýlka normálnych rozdelení sú reprezentované symbolmi μ a σ.
Otázka: Čo je to štandardné normálne rozdelenie?
Odpoveď: Štandardné normálne rozdelenie (známe aj ako rozdelenie Z) je normálne rozdelenie so strednou hodnotou nula a štandardnou odchýlkou jedna.
Otázka: Prečo sa štandardné normálne rozdelenie často nazýva zvonová krivka?
Odpoveď: Štandardné normálne rozdelenie sa často nazýva zvonová krivka, pretože graf jeho hustoty pravdepodobnosti vyzerá ako zvon.
Otázka: Prečo sa mnohé hodnoty riadia normálnym rozdelením?
Odpoveď: Mnohé hodnoty sa riadia normálnym rozdelením, pretože centrálna limitná veta hovorí, že ak je udalosť súčtom rovnakých, ale náhodných udalostí, bude mať normálne rozdelenie.
Prehľadať