Prehľad
Štatistická významnosť je pojem v inferenčnej štatistike, ktorý opisuje, do akej miery sú pozorované údaje v rozpore s predpokladaním, že neexistuje žiadny efekt alebo rozdiel. V praxi sa často testuje tzv. nulová hypotéza a výsledok sa označí za štatisticky významný, ak miera nepravdepodobnosti takého alebo extrémnejšieho výsledku za predpokladu platnosti nulovej hypotézy klesne pod vopred stanovenú hranicu.
Definícia a základné pojmy
Jadro konceptu tvorí p-hodnota, teda pravdepodobnosť pozorovať výsledok aspoň tak extrémny ako má skúmaný, ak by nulová hypotéza bola pravdivá. Ak je p-hodnota menšia než zvolená hladina významnosti (α), výsledok sa považuje za štatisticky významný. Hladina α predstavuje tolerovanú pravdepodobnosť chyby typu I (zámenné zamietnutie nulovej hypotézy). Naopak chyba typu II vzniká, keď neodhalíme skutočný efekt; súvisí s pojmom výkonu testu (power) a parametrom β, pričom výkon = 1−β.
Historický kontext
Princípy testovania významnosti položil v 20. storočí Ronald Fisher, ktorý zaviedol p-hodnotu ako meradlo dôkazov. V nasledujúcich rokoch Jerzy Neyman a Egon Pearson rozvinuli formálny rámec rozhodovania, kde sa odporúčalo stanoviť hladinu 0,05 alebo inú hodnotu pre α ešte pred zberom dát a pracovať v kontexte kompromisu medzi chybou I a II. Tieto dva prístupy – Fisherov dôkazný štýl a Neyman–Pearsonova rozhodovacia teória – sa historicky dopĺňajú, no neraz vedú k zmätkom pri interpretácii výsledkov.
Použitie a praktické príklady
- V klinickom skúšaní sa testuje, či liek zlepšuje stav oproti placebu; výsledok s p < α sa zvykne považovať za dôkaz účinnosti, avšak posúdenie veľkosti efektu a klinickej významnosti zostáva nevyhnutné.
- Pri prieskumoch a experimentálnych štúdiách sa používajú bežné testy ako t-test, chí-kvadrát test alebo ANOVA na vyhodnotenie rozdielov medzi skupinami.
- Pre malé vzorky alebo netypické rozdelenia je dôležité overiť predpoklady testov alebo použiť neparametrické metódy.
Bežné omyly a obmedzenia
Štatistická významnosť nie je totožná s praktickou alebo klinickou významnosťou. Malá p-hodnota iba naznačuje nízku pravdepodobnosť pozorovaného výsledku za nulovej hypotézy, nezaručuje veľký alebo dôležitý efekt. Časté problémy zahŕňajú viacnásobné porovnávania bez korekcie, p-hacking (výber analýz podľa výsledkov) a publikovanie len „pozitívnych“ výsledkov. Preto sa odporúča pred registračným plánom určiť analýzu a hladinu α, čo vedci často dokumentujú v protokoloch a registriách.
Alternatívy a doplnky
Pre vyvážené hodnotenie výsledkov sa odporúča kombinovať p-hodnoty s odhadmi veľkosti efektu, intervalmi spoľahlivosti a pri vhodnosti so Bayesianovskými metódami. Prehľadnosť zvyšuje aj prezentácia všetkých vykonaných testov a korekcia za viacnásobné porovnávania. Viac informácií o variantoch testov a metodike nájdete v literatúre o testy štatistických hypotéz a v úvodných textoch o premenných a pravdepodobnosti.