Štatistika
Štatistika je odvetvie aplikovanej matematiky, ktoré sa zaoberá zberom, organizáciou, analýzou, interpretáciou a prezentáciou údajov. Deskriptívna štatistika sumarizuje údaje. Inferenčná štatistika umožňuje predpovede. Štatistika pomáha pri štúdiu mnohých ďalších oblastí, ako je veda, medicína, ekonómia, psychológia, politika a marketing. Osoba, ktorá pracuje v oblasti štatistiky, sa nazýva štatistik. Okrem toho, že slovo "štatistika" je názov študijného odboru, označuje aj čísla, ktoré sa používajú na opis údajov alebo vzťahov.
História
Prvými známymi štatistikami sú údaje zo sčítania ľudu. Babylončania sčítali obyvateľstvo okolo roku 3500 pred n. l., Egypťania okolo roku 2500 pred n. l. a starí Číňania okolo roku 1000 pred n. l.
Od 16. storočia matematici, ako napríklad Gerolamo Cardano, vyvinuli teóriu pravdepodobnosti, vďaka ktorej sa štatistika stala vedou. Odvtedy ľudia zhromažďujú a študujú štatistiky o mnohých veciach. Stromy, morské hviezdy, hviezdy, kamene, slová, takmer všetko, čo sa dá spočítať, bolo predmetom štatistiky.
Zhromažďovanie údajov
Predtým, ako môžeme opísať svet pomocou štatistiky, musíme zozbierať údaje. Údaje, ktoré zbierame v štatistike, sa nazývajú merania. Po zozbieraní údajov použijeme na opis každého pozorovania alebo merania jedno alebo viac čísel. Predpokladajme napríklad, že chceme zistiť, aká populárna je určitá televízna relácia. Z celkovej populácie divákov môžeme vybrať skupinu ľudí (nazývanú vzorka). Potom sa každého diváka vo vzorke opýtame, ako často sleduje daný program. Vzorka sú údaje, ktoré môžete vidieť, a populácia sú údaje, ktoré nemôžete vidieť (pretože ste sa nepýtali každého diváka v populácii). Iný príklad: Ak chceme zistiť, či určitý liek môže pomôcť znížiť krvný tlak, mohli by sme tento liek podávať ľuďom určitý čas a merať ich krvný tlak pred a po.
Deskriptívna a inferenčná štatistika
Čísla, ktoré popisujú údaje, ktoré môžete vidieť, sa nazývajú popisná štatistika. Čísla, ktoré predpovedajú údaje, ktoré nevidíte, sa nazývajú inferenčná štatistika.
Popisná štatistika zahŕňa používanie čísel na opis vlastností údajov. Napríklad priemerná výška žien v Spojených štátoch je opisná štatistika, ktorá opisuje vlastnosť (priemernú výšku) populácie (ženy v Spojených štátoch).
Po zhrnutí a opísaní výsledkov ich možno použiť na predpovedanie. Toto sa nazýva inferenčná štatistika. Ako príklad možno uviesť veľkosť zvieraťa, ktorá závisí od mnohých faktorov. Niektoré z týchto faktorov sú riadené prostredím, ale iné sú podmienené dedičnosťou. Biológ preto môže vytvoriť model, ktorý hovorí, že existuje vysoká pravdepodobnosť, že potomok bude malý, ak rodičia boli malí. Tento model pravdepodobne umožňuje predpovedať veľkosť lepším spôsobom ako len náhodným odhadom. Testovanie, či sa dá určitý liek použiť na vyliečenie určitého stavu alebo choroby, sa zvyčajne vykonáva porovnávaním výsledkov ľudí, ktorým sa liek podáva, s výsledkami ľudí, ktorým sa podáva placebo.
Metódy
Štatistické údaje najčastejšie zbierame prostredníctvom prieskumov alebo experimentov. Jedným z druhov prieskumu je napríklad prieskum verejnej mienky. Vyberieme malý počet ľudí a položíme im otázky. Potom ich odpovede použijeme ako údaje.
Výber osôb, ktoré sa zúčastnia na prieskume alebo zbere údajov, je dôležitý, pretože priamo ovplyvňuje štatistické údaje. Keď sú štatistiky hotové, už sa nedá určiť, ktorí jednotlivci sa berú. Predpokladajme, že chceme merať kvalitu vody veľkého jazera. Ak odoberieme vzorky vedľa odpadovej stoky, dostaneme iné výsledky, ako keď vzorky odoberieme na vzdialenom, ťažko prístupnom mieste jazera.
Pri odbere vzoriek sa bežne vyskytujú dva druhy problémov:
- Ak je veľa vzoriek, vzorky budú pravdepodobne veľmi blízke tomu, aké sú v skutočnej populácii. Ak je však vzoriek veľmi málo, môžu sa veľmi líšiť od toho, aké sú v skutočnej populácii. Táto chyba sa nazýva náhodná chyba (pozri Chyby a rezíduá v štatistike).
- Jednotlivcov do vzoriek je potrebné vyberať starostlivo, zvyčajne sa vyberajú náhodne. Ak to tak nie je, vzorky sa môžu veľmi líšiť od toho, aké sú v skutočnosti v celkovej populácii. To platí aj v prípade, že sa odoberie veľký počet vzoriek. Tento druh chyby sa nazýva skreslenie.
Chyby
Náhodné chyby môžeme znížiť výberom väčšej vzorky a náhodným výberom sa môžeme vyhnúť určitému skresleniu. Niekedy je však ťažké urobiť veľké náhodné vzorky. A k skresleniu môže dôjsť, ak sa rôznych ľudí nepýtame, alebo odmietnu odpovedať na naše otázky, alebo ak vedia, že dostávajú falošnú liečbu. Tieto problémy sa dajú ťažko odstrániť. Pozri tiež štandardná chyba.
Popisná štatistika
Nájdenie stredu údajov
Stred údajov sa nazýva priemer. Priemer nám hovorí o typickom jedincovi v populácii. Často sa používajú tri druhy priemeru: priemer, medián a modus.
V nasledujúcich príkladoch sú použité tieto vzorové údaje:
Názov | A B C D E F G H I J --------------------------------------------- skóre| 23 26 49 49 57 64 66 78 82 92Priemer
Vzorec pre strednú hodnotu je
x Ž = 1 N ∑ i = 1 N x i = x 1 + x 2 + ⋯ + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}
Kde x 1 , x 2 , ... , x N {\displaystyle x_{1},x_{2},\ldots ,x_{N}} sú údaje a N {\displaystyle N} je veľkosť populácie. (pozri Sigma notáciu).
To znamená, že všetky hodnoty sčítate a potom ich vydelíte počtom hodnôt.
V našom príklade x¯ = ( 23 + 26 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58,6 {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58,6}
Problém s priemerom spočíva v tom, že nevypovedá nič o tom, ako sú hodnoty rozložené. Hodnoty, ktoré sú veľmi veľké alebo veľmi malé, veľmi menia priemer. V štatistike môžu byť tieto extrémne hodnoty chybou merania, ale niekedy populácia tieto hodnoty naozaj obsahuje. Napríklad, ak je v miestnosti 10 ľudí, ktorí zarábajú 10 dolárov/deň, a 1, ktorý zarába 1 000 000 dolárov/deň. Priemerná hodnota údajov je 90 918 USD/deň. Aj keď ide o priemernú sumu, priemer v tomto prípade nie je sumou, ktorú zarobí každá jedna osoba, a teda je na niektoré účely nepoužiteľný.
Ide o "aritmetický priemer". Na niektoré účely sú užitočné aj iné druhy.
Medián
Medián je stredná položka údajov. Ak chceme zistiť medián, zoradíme údaje od najmenšieho po najväčšie číslo a potom vyberieme číslo uprostred. Ak je údajov párny počet, nebude číslo presne v strede, preto vyberieme dva stredné a vypočítame ich priemer. V našom príklade je 10 údajov, dva stredné sú "57" a "64", takže medián je (57+64)/2 = 60,5. Ďalší príklad, podobne ako príklad s príjmom uvedený pre priemer, uvažujme o miestnosti s 10 ľuďmi, ktorí majú príjmy 10, 20, 20, 40, 50, 60, 90, 90, 100 a 1 000 000 dolárov, medián je 55 dolárov, pretože 55 dolárov je priemer dvoch stredných čísel, 50 a 60 dolárov. Ak sa extrémna hodnota 1 000 000 dolárov ignoruje, priemer je 53 dolárov. V tomto prípade je medián blízky hodnote získanej po vyradení extrémnej hodnoty. Medián rieši problém extrémnych hodnôt, ako je opísané v definícii priemeru vyššie.
Režim
Režim je najčastejšia položka údajov. Napríklad najčastejšie sa vyskytujúcim písmenom v angličtine je písmeno "e". Povedali by sme, že "e" je modus rozdelenia písmen.
Napríklad ak je v miestnosti 10 ľudí s príjmami 10, 20, 20, 40, 50, 60, 90, 90, 90, 100 a 1 000 000 dolárov, modus je 90 dolárov, pretože 90 dolárov sa vyskytuje trikrát a všetky ostatné hodnoty sa vyskytujú menej ako trikrát.
Môže existovať viac ako jeden režim. Napríklad ak je v miestnosti 10 ľudí s príjmami 10, 20, 20, 20, 50, 60, 90, 90, 90, 100 a 1 000 000 dolárov, režimy sú 20 a 90 dolárov. Toto je bi-modálne, alebo má dva režimy. Bi-modalita je veľmi častá a často naznačuje, že údaje sú kombináciou dvoch rôznych skupín. Napríklad priemerná výška všetkých dospelých v USA má biomodálne rozdelenie. Je to preto, že muži a ženy majú samostatné priemerné výšky 1,763 m (5 stôp 9 + 1⁄2 palca) pre mužov a 1,622 m (5 stôp 4 palce) pre ženy. Tieto vrcholy sú zrejmé, keď sa obe skupiny skombinujú.
Modus je jediná forma priemeru, ktorú možno použiť pre údaje, ktoré nemožno zoradiť.
Zistenie rozloženia údajov
Ďalšou vecou, ktorú môžeme povedať o súbore údajov, je to, ako je rozložený. Bežným spôsobom, ako opísať rozptyl súboru údajov, je štandardná odchýlka. Ak je smerodajná odchýlka súboru údajov malá, potom je väčšina údajov veľmi blízko priemeru. Ak je však štandardná odchýlka veľká, potom sa veľká časť údajov veľmi líši od priemeru.
Ak sa údaje riadia bežným vzorom nazývaným normálne rozdelenie, potom je veľmi užitočné poznať štandardnú odchýlku. Ak sa údaje riadia týmto vzorom (povedali by sme, že údaje sú normálne rozdelené), približne 68 z každých 100 údajov sa od priemeru odchýli o menej ako štandardnú odchýlku. Nielen to, ale približne 95 z každých 100 meraní bude od priemeru vzdialených menej ako dvojnásobok štandardnej odchýlky a približne 997 z 1000 meraní bude bližšie k priemeru ako tri štandardné odchýlky.
Ostatné opisné štatistiky
Štatistiku môžeme použiť aj na zistenie, že určité percento, percentil, počet alebo zlomok ľudí alebo vecí v skupine niečo robí alebo patrí do určitej kategórie.
Sociológovia napríklad pomocou štatistík zistili, že 49 % ľudí na svete sú muži.
Súvisiaci softvér
Na podporu štatistikov bolo vyvinutých mnoho štatistických softvérov:
- SAS Institute
- SPSS (vyrobený spoločnosťou IBM)
Otázky a odpovede
Otázka: Čo je to štatistika?
Odpoveď: Štatistika je odbor aplikovanej matematiky, ktorý sa zaoberá zhromažďovaním, organizovaním, analyzovaním, čítaním a prezentovaním údajov.
Otázka: Aké sú dva druhy štatistiky?
Odpoveď: Existujú dva typy štatistiky: deskriptívna a inferenčná. Deskriptívna štatistika vytvára súhrny údajov, zatiaľ čo inferenčná štatistika vytvára predpovede.
Otázka: Ako pomáha štatistika v iných oblastiach?
Odpoveď: Štatistika pomáha pri štúdiu mnohých ďalších oblastí, ako je veda, medicína, ekonómia, psychológia, politika a marketing.
Otázka: Kto pracuje v oblasti štatistiky?
Odpoveď: Ten, kto pracuje v oblasti štatistiky, sa nazýva štatistik.
Otázka: Čo znamená slovo "štatistika"?
Odpoveď: Okrem toho, že slovo "štatistika" je názov študijného odboru, môže znamenať aj čísla, ktoré sa používajú na opis údajov alebo vzťahov.
Otázka: Akým činnostiam sa venujú štatistici?
Odpoveď: Štatistici sa venujú činnostiam, ako je zhromažďovanie, organizovanie, analyzovanie, čítanie a prezentovanie údajov.