Interval spoľahlivosti: definícia, výpočet a interpretácia (95 % CI)

Interval spoľahlivosti: definícia, výpočet a interpretácia 95 % CI — jasné vysvetlenie, príklady a postupy výpočtu pre správnu interpretáciu štatistických výsledkov.

Autor: Leandro Alegsa

V štatistike je interval spoľahlivosti špeciálnou formou odhadu určitého parametra. Pri tejto metóde sa namiesto jednej hodnoty uvádza celý interval prijateľných hodnôt parametra spolu s pravdepodobnosťou, že skutočná (neznáma) hodnota parametra bude v tomto intervale. Interval spoľahlivosti je založený na pozorovaniach zo vzorky, a preto sa od vzorky k vzorke líši. Pravdepodobnosť, že parameter bude v intervale, sa nazýva úroveň spoľahlivosti. Veľmi často sa udáva v percentách. Interval spoľahlivosti sa vždy uvádza spolu s úrovňou spoľahlivosti. Ľudia môžu hovoriť o "95 % intervale spoľahlivosti". Koncové body intervalu spoľahlivosti sa označujú ako hranice spoľahlivosti. Pre daný postup odhadu v danej situácii platí, že čím vyššia je úroveň spoľahlivosti, tým širší bude interval spoľahlivosti.

Výpočet intervalu spoľahlivosti si vo všeobecnosti vyžaduje predpoklady o povahe procesu odhadu - je to predovšetkým parametrická metóda. Jedným z bežných predpokladov je, že rozdelenie populácie, z ktorej pochádza vzorka, je normálne. Intervaly spoľahlivosti ako také, o ktorých sa hovorí ďalej, nie sú robustnou štatistikou, hoci je možné vykonať zmeny na zvýšenie robustnosti.

Ako sa interval spoľahlivosti konštruuje (základný princíp)

Základná forma prebodovaného intervalu spoľahlivosti má tvar:

odhadeň (estimator) ± kritická hodnota × štandardná chyba.

Príklad pre strednú hodnotu populácie μ:

  • Ak poznáme smerodajnú odchýlku populácie σ: μ̂ ± z* × (σ / √n), kde z* je kritická hodnota z normálneho rozdelenia (napr. pre 95 % z* ≈ 1,96).
  • Ak σ nepoznáme (bežnejší prípad): μ̂ ± t* × (s / √n), kde s je smerodajná odchýlka vzorky a t* je kvantil t-rozdelenia s n−1 stupňami voľnosti (pre malé n je t* väčšie než z*).

Interpretácia 95 % intervalu spoľahlivosti

  • Frekventistická interpretácia: Pri opakovanom opakovaní tohto zisťovania a konštrukcii intervalu rovnakým spôsobom, približne 95 % takto vytvorených intervalov bude obsahovať pravú hodnotu parametra. To neznamená, že pravdepodobnosť 0,95 platí pre jednu konkrétnu už vypočítanú realizáciu intervalu (parameter je pevná, nie náhodná veličina).
  • V bežnej komunikácii sa však často hovorí, že "je 95% pravdepodobné, že parameter leží v tomto intervale" — to je zjednodušenie, ktoré pochádza skôr z intuitívneho chápania než z prísnej frekventistickej definície.

Praktický príklad (výpočet 95 % CI pre priemer)

Predpokladajme vzorku s priemerom x̄ = 100, smerodajnou odchýlkou vzorky s = 15 a veľkosťou vzorky n = 25. Pre 95 % CI použijeme t-kvantil t_{24,0.975} ≈ 2,064:

95 % CI = 100 ± 2,064 × (15 / √25) = 100 ± 2,064 × 3 = 100 ± 6,192 = (93,81; 106,19).

Tento interval naznačuje, že pri použití rovnakého postupu by približne 95 % takto vypočítaných intervalov obsahovalo skutočnú hodnotu priemeru populácie.

Ďalšie typy intervalov a ich výpočty

  • Pre podiel (proporciu) p: p̂ ± z* × √(p̂(1 − p̂) / n). Pri malých n alebo extrémnych p̂ sa odporúčajú opravené intervaly (Clopper–Pearson, Wilson, Agresti–Coull).
  • Pre rozdiel dvoch priemerov: použije sa kombinácia štandardných chýb jednotlivých odhadov a prípadne korekcia pre nezhodné variancie (Welchov interval).
  • Pre regresné koeficienty alebo iné parametre: intervaly sa dajú odvodiť zo štandardnej chyby odhadu a príslušného kvantilu rozdelenia (z alebo t), prípadne pomocou profilu alebo bootstrapu.

Vplyv veličín na šírku intervalu

  • Zvýšenie úrovne spoľahlivosti (napr. z 95 % na 99 %) vedie k väčšej kritickej hodnote a teda k širšiemu intervalu.
  • Zväčšenie veľkosti vzorky n znižuje štandardnú chybu (≈ 1/√n) a teda zužuje interval.
  • Väčšia variabilita v dátach (väčšia s alebo σ) zväčšuje šírku intervalu.

Bežné omyly a upozornenia

  • Neinterpretujte 95 % CI ako „pravdepodobnosť 0,95, že parameter je v tomto intervale“ v prísnom frekventistickom zmysle — tento výrok platí pre postup, nie pre jediný interval (viď vyššie).
  • Ak interval obsahuje nulovú hodnotu pri rozdiele dvoch skupín, často sa to považuje za nedostatok štatistickej sily (nie nevyhnutne za „žiadny efekt“). Treba brať do úvahy veľkosť efektu a presnosť (šírku intervalu).
  • Nesprávne použitie predpokladov (napr. normalita pri malých n) môže viesť k nepresným intervalom. V takých prípadoch zvážte neparametrické alebo bootstrap metódy.

Robustné alternatívy a bootstrap

Ak predpoklady parametrických metód nie sú splnené (nenormálne rozdelenie, odľahlé hodnoty, malé n), odporúčajú sa:

  • Bootstrap intervaly spoľahlivosti – generovanie veľkého počtu vzoriek zo získanej vzorky pomocou resamplingu a odhad rozdelenia odhadov; poskytuje flexibilné a často spoľahlivejšie intervaly pri porušení predpokladov.
  • Odhady založené na robustných štatistikách (medián, trimmed mean) s prispôsobenými intervalmi spoľahlivosti.

Rozdiel medzi intervalom spoľahlivosti a Bayesian‑ským „credible interval“

Bayesian‑ské intervaly (credible intervals) priamo predstavujú intervaly pre parameter, ku ktorým je možné priradiť pravdepodobnosť (podľa danej a posteriori distribúcie). To sa líši od frekventistického CI, ktorý hovorí o vlastnostiach postupu pri opakovaní experimentu.

Ako správne uvádzať interval spoľahlivosti vo výsledkoch

  • Uvádzať úroveň spoľahlivosti (napr. 95 %), hodnotu odhadu (napr. priemer), dolnú a hornú hranicu intervalu a veľkosť vzorky (n).
  • Uviesť metódu výpočtu (z‑interval, t‑interval, bootstrap, metóda pre proporcie) a prípadné dôležité predpoklady (normálnosť, známa/ neznáma σ atď.).

Zhrnutie

Interval spoľahlivosti je užitočný nástroj na vyjadrenie neistoty spojené s odhadom parametra. Správna interpretácia vyžaduje pochopenie, že ide o vlastnosť odhadovacieho postupu pri opakovaných pokusoch, nie o pravdepodobnosť pre jediné pozorovanie. Pri aplikácii je potrebné zvážiť predpoklady metódy a pri ich porušení zvážiť robustnejšie alebo neparametrické alternatívy, napríklad bootstrap.

Význam pojmu "confidence"

Pojem spoľahlivosť má v štatistike podobný význam ako v bežnom používaní. V bežnom používaní sa tvrdenie o 95 % spoľahlivosti niečoho zvyčajne považuje za označenie praktickej istoty. V štatistike tvrdenie o 95 % spoľahlivosti jednoducho znamená, že výskumník videl jeden možný interval z veľkého počtu možných, z ktorých devätnásť z dvadsiatich intervalov obsahuje skutočnú hodnotu parametra.

Praktický príklad

A factory assembly line fills margarine cups to a desired 250g +/- 5g

Stroj plní poháre margarínom. V tomto príklade je stroj nastavený tak, aby obsah pohárov predstavoval 250 g margarínu. Keďže stroj nemôže naplniť každý pohár presne 250 g, obsah pridaný do jednotlivých pohárov vykazuje určité odchýlky a považuje sa za náhodnú premennú X. Predpokladá sa, že tieto odchýlky sú normálne rozdelené okolo požadovaného priemeru 250 g so štandardnou odchýlkou 2,5 g. Aby sa určilo, či je stroj primerane kalibrovaný, náhodne sa vyberie vzorka n = 25 pohárov margarínu a poháre sa odvážia. Hmotnosti margarínu sú X1, ..., X25, náhodná vzorka z X.

Na získanie predstavy o očakávanej hodnote μ stačí uviesť jej odhad. Vhodným odhadom je výberový priemer:

μ ^ = X ¯ = 1 n ∑ i = 1 n X i . {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}. } {\displaystyle {\hat {\mu }}={\bar {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}.}

Vo vzorke sú zobrazené skutočné váhy x1, ...,x25 s priemerom:

x Ž = 1 25 ∑ i = 1 25 x i = 250,2 gramov . {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250,2\,{\text{gramov}}. } {\displaystyle {\bar {x}}={\frac {1}{25}}\sum _{i=1}^{25}x_{i}=250.2\,{\text{grams}}.}

Ak by sme zobrali ďalšiu vzorku 25 šálok, mohli by sme ľahko očakávať hodnoty ako 250,4 alebo 251,1 gramov. Priemerná hodnota vzorky 280 gramov by však bola veľmi zriedkavá, ak by sa priemerný obsah šálok v skutočnosti blížil k 250 g. Okolo pozorovanej hodnoty 250,2 priemernej hodnoty vzorky existuje celý interval, v rámci ktorého, ak by priemerná hodnota celej populácie skutočne nadobúdala hodnotu v tomto intervale, by sa pozorované údaje nepovažovali za obzvlášť nezvyčajné. Takýto interval sa nazýva interval spoľahlivosti pre parameter μ. Ako takýto interval vypočítame? Koncové body intervalu sa musia vypočítať zo vzorky, takže sú to štatistiky, funkcie vzorky X1, ..., X25, a teda samotné náhodné premenné.

V našom prípade môžeme určiť koncové body, ak uvážime, že priemer vzorky X z normálne rozdelenej vzorky je tiež normálne rozdelený, s rovnakým očakávaním μ, ale so štandardnou chybou σ/√n = 0,5 (gramy). Štandardizáciou dostaneme náhodnú premennú

Z = X¯ - μ σ / n = X¯ - μ 0,5 {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0,5}}} {\displaystyle Z={\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}={\frac {{\bar {X}}-\mu }{0.5}}}

závislé od parametra μ, ktorý sa má odhadnúť, ale so štandardným normálnym rozdelením nezávislým od parametra μ. Preto je možné nájsť čísla -z a z, nezávislé od μ, kde Z leží medzi nimi s pravdepodobnosťou 1 - α, čo je miera toho, akú istotu chceme mať. Berieme 1 - α = 0,95. Takže máme:

P ( - z ≤ Z ≤ z ) = 1 - α = 0,95. {\displaystyle P(-z\leq Z\leq z)=1-\alfa =0,95.\,} {\displaystyle P(-z\leq Z\leq z)=1-\alpha =0.95.\,}

Číslo z vyplýva z kumulatívnej distribučnej funkcie:

Φ ( z ) = P ( Z ≤ z ) = 1 - α 2 = 0,975 , z = Φ - 1 ( Φ ( z ) ) = Φ - 1 ( 0,975 ) = 1.96 , {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0,975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0,975)=1,96,\end{aligned}}} {\displaystyle {\begin{aligned}\Phi (z)&=P(Z\leq z)=1-{\tfrac {\alpha }{2}}=0.975,\\[6pt]z&=\Phi ^{-1}(\Phi (z))=\Phi ^{-1}(0.975)=1.96,\end{aligned}}}

a dostaneme:

0,95 = 1 - α = P ( - z ≤ Z ≤ z ) = P ( - 1,96 ≤ X¯ - μ σ / n ≤ 1,96 ) = P ( X¯ - 1,96 σ n ≤ μ ≤ X¯ + 1.96 σ n ) = P ( X¯ - 1,96 × 0,5 ≤ μ ≤ X¯ + 1,96 × 0,5 ) = P ( X¯ - 0,98 ≤ μ ≤ X¯ + 0,98 ) . {\displaystyle {\begin{aligned}0,95&=1-\alfa =P(-z\leq Z\leq z)=P\left(-1,96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\pravo)\\[6pt]&=P\levo({\bar {X}}-1,96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}}vpravo)\\[6pt]&=P\levo({\bar {X}}-1,96\times 0,5\leq \mu \leq {\bar {X}}+1.96\times 0,5\right)\\[6pt]&=P\left({\bar {X}}-0,98\leq \mu \leq {\bar {X}}+0,98\right).\end{aligned}} {\displaystyle {\begin{aligned}0.95&=1-\alpha =P(-z\leq Z\leq z)=P\left(-1.96\leq {\frac {{\bar {X}}-\mu }{\sigma /{\sqrt {n}}}}\leq 1.96\right)\\[6pt]&=P\left({\bar {X}}-1.96{\frac {\sigma }{\sqrt {n}}}\leq \mu \leq {\bar {X}}+1.96{\frac {\sigma }{\sqrt {n}}}\right)\\[6pt]&=P\left({\bar {X}}-1.96\times 0.5\leq \mu \leq {\bar {X}}+1.96\times 0.5\right)\\[6pt]&=P\left({\bar {X}}-0.98\leq \mu \leq {\bar {X}}+0.98\right).\end{aligned}}}

To možno interpretovať takto: s pravdepodobnosťou 0,95 nájdeme interval spoľahlivosti, v ktorom sa stretneme s parametrom μ medzi stochastickými koncovými bodmi

X - 0 . 98 {\displaystyle {\bar {X}}-0{.}98\,} {\displaystyle {\bar {X}}-0{.}98\,}

a

X ¯ + 0.98. {\displaystyle {\bar {X}}+0,98.\,} {\displaystyle {\bar {X}}+0.98.\,}

To neznamená, že vo vypočítanom intervale je pravdepodobnosť splnenia parametra μ 0,95. Pri každom opakovaní meraní sa bude vyskytovať iná hodnota strednej hodnoty X vzorky. V 95 % prípadov bude μ medzi koncovými bodmi vypočítanými z tohto priemeru, ale v 5 % prípadov nebude. Skutočný interval spoľahlivosti sa vypočíta zadaním nameraných hodnôt do vzorca. Náš interval spoľahlivosti 0,95 bude:

( x - 0,98 ; x - + 0,98 ) = ( 250,2 - 0,98 ; 250,2 + 0,98 ) = ( 249,22 ; 251,18 ) . {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,} {\displaystyle ({\bar {x}}-0.98;{\bar {x}}+0.98)=(250.2-0.98;250.2+0.98)=(249.22;251.18).\,}

Keďže požadovaná hodnota 250 μ je vo výslednom intervale spoľahlivosti, nie je dôvod domnievať sa, že stroj je nesprávne kalibrovaný.

Vypočítaný interval má pevné koncové body, pričom μ môže byť medzi nimi (alebo nie). Táto udalosť má teda pravdepodobnosť 0 alebo 1. Nemôžeme povedať: "s pravdepodobnosťou (1 - α) leží parameter μ v intervale spoľahlivosti." Vieme len, že opakovaním v 100(1 - α) % prípadov bude μ vo vypočítanom intervale. V 100α % prípadov však nie je. A bohužiaľ nevieme, v ktorých z prípadov sa tak stane. Preto hovoríme: "pri hladine spoľahlivosti 100(1 - α) % leží μ v intervale spoľahlivosti. "

Na obrázku vpravo je zobrazených 50 realizácií intervalu spoľahlivosti pre daný populačný priemer μ. Ak náhodne vyberieme jednu realizáciu, je pravdepodobnosť 95 %, že sme nakoniec vybrali interval, ktorý obsahuje parameter; môžeme však mať smolu a vybrať nesprávny interval. To sa nikdy nedozvieme, zostaneme pri našom intervale.

Zvislé úsečky predstavujú 50 realizácií intervalu spoľahlivosti pre μ.Zoom
Zvislé úsečky predstavujú 50 realizácií intervalu spoľahlivosti pre μ.

Otázky a odpovede

Otázka: Čo je to interval spoľahlivosti v štatistike?


Odpoveď: Interval spoľahlivosti je špeciálny interval používaný na odhad parametra, napríklad populačného priemeru, ktorý udáva rozsah prijateľných hodnôt parametra namiesto jednej hodnoty.

Otázka: Prečo sa používa interval spoľahlivosti namiesto jednej hodnoty?


Odpoveď: Interval spoľahlivosti sa používa namiesto jednej hodnoty na zohľadnenie neistoty odhadu parametra na základe vzorky a na poskytnutie pravdepodobnosti, že skutočná hodnota parametra je v rámci intervalu.

Otázka: Čo je úroveň spoľahlivosti?


Odpoveď: Úroveň spoľahlivosti je pravdepodobnosť, že odhadovaný parameter je v intervale spoľahlivosti, a často sa udáva v percentách (napr. 95 % interval spoľahlivosti).

Otázka: Čo sú hranice spoľahlivosti?


Odpoveď: Hranice spoľahlivosti sú koncové body intervalu spoľahlivosti, ktoré definujú rozsah prijateľných hodnôt odhadovaného parametra.

Otázka: Ako ovplyvňuje úroveň spoľahlivosti interval spoľahlivosti?


Odpoveď: V danom postupe odhadu platí, že čím vyššia je úroveň spoľahlivosti, tým širší je interval spoľahlivosti.

Otázka: Aké predpoklady sú potrebné na výpočet intervalu spoľahlivosti?


Odpoveď: Výpočet intervalu spoľahlivosti si vo všeobecnosti vyžaduje predpoklady o povahe procesu odhadu, napríklad predpoklad, že rozdelenie populácie, z ktorej pochádza vzorka, je normálne.

Otázka: Sú intervaly spoľahlivosti robustnou štatistikou?


Odpoveď: Intervaly spoľahlivosti, ako je uvedené nižšie, nie sú robustnou štatistikou, hoci je možné vykonať úpravy na zvýšenie robustnosti.


Prehľadať
AlegsaOnline.com - 2020 / 2025 - License CC3