Spearmanov korelačný koeficient (ρ) – definícia a výpočet
Naučte sa Spearmanov korelačný koeficient (ρ): jasná definícia, krok za krokom výpočet, príklady a interpretácia výsledkov pre zoraditeľné údaje.
V matematike a štatistike je Spearmanov korelačný koeficient miera korelácie, pomenovaná po svojom tvorcovi Charlesovi Spearmanovi. V skratke sa zapisuje ako grécke písmeno rho ( ρ {\displaystyle \rho } ) alebo niekedy ako r s {\displaystyle r_{s}}
. Merať pomocou neho môžeme, ako úzko sú dva súbory údajov prepojené v zmysle monotónnej súvislosti — t. j. či pri zväčšení jednej premennej dochádza k všeobecnému zväčšovaniu alebo zmenšovaniu druhej. Používa sa predovšetkým pre údaje, ktoré sa dajú zoradiť (ordinálne alebo poradové), prípadne keď chceme robustnú, neparametrickú alternatívu k Pearsonovej korelácii. Môže sa použiť len pre údaje, ktoré sa dajú zoradiť, napríklad od najvyššieho po najnižší.
Všeobecný vzorec pre r s {\displaystyle r_{s}} je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}
.
Vysvetlenie vzorca a premenné
- n je počet párov pozorovaní (veľkosť vzorky).
- d je rozdiel medzi poradiami (rankami) dvoch pozorovaní v každom páre: d = rank(x) − rank(y).
- Σ d² je súčet druhých mocnín týchto rozdielov cez všetky páry.
- Vzorec ρ = 1 − (6 Σ d²) / (n(n² − 1)) platí za predpokladu, že v údajoch nie sú viazané hodnoty (ties). Pri viazaných hodnotách sa odporúča použiť buď úpravu vzorca, alebo spočítať klasickú Pearsonovu koreláciu, ale z rankov (t. j. použiť Pearsonov koeficient na radoch).
- Hodnoty ρ sa pohybujú od −1 do +1:
- ρ = +1: dokonalá pozitívna monotónna závislosť (poradia zhodné).
- ρ = −1: dokonalá negatívna monotónna závislosť (poradia úplne opačné).
- ρ = 0: žiadna monotónna závislosť.
Postup výpočtu (krok za krokom) — jednoduchý príklad
Predstavme si, že máme údaje o tom, aké drahé sú rôzne počítače, a údaje o tom, ako rýchle sú počítače. Ukážeme výpočet na 5 počítačoch:
- Zo zoznamu hodnôt priradíme každej premennej poradie (rank). Poradia môžeme prideľovať vzostupne (1 = najmenšia hodnota) alebo zostupne; dôležité je byť konzistentný pre obe premenné.
- Pre každý počítač vypočítame rozdiel d = rank(cena) − rank(rýchlosť) a potom d².
- Sčítame všetky d², dosadíme do vzorca a vypočítame ρ.
Konkrétne (fiktívne údaje):
- Ceny: D = 800 €, A = 1000 €, C = 1200 €, B = 1500 €, E = 2000 €
- Rýchlosti: D = 180, A = 200, C = 220, B = 250, E = 300
Priradené poradia (1 = najmenšia hodnota):
- Rank(cena): D=1, A=2, C=3, B=4, E=5
- Rank(rýchlosť): D=1, A=2, C=3, B=4, E=5
Rozdiely d sú pre všetky položky 0, takže Σ d² = 0. Dosadíme do vzorca:
ρ = 1 − (6·0) / (5(5² − 1)) = 1.
Tento výsledok znamená dokonalú pozitívnu monotónnu závislosť medzi cenou a rýchlosťou v tomto príklade (vyššia cena zodpovedá vyššej rýchlosti).
Viazané hodnoty (ties) a všeobecný postup
Ak sa v údajoch vyskytujú viazané hodnoty (napr. dve položky majú rovnakú rýchlosť), priraďuje sa týmto hodnotám priemerné poradie. Pri väčšom počte viazaní alebo silných viazaní môže priama aplikácia jednoduchého vzorca viesť k chybám; v takom prípade je bezpečnejšie vypočítať Spearmanov koeficient ako Pearsonovu koreláciu medzi radenými hodnotami:
r_s = Pearson_corr(rank_x, rank_y) = cov(rank_x, rank_y) / (σ_rank_x · σ_rank_y).
Štatistická významnosť
- Pre testovanie nulovej hypotézy H0: ρ = 0 sa často používa priblíženie t-statistiky: t = r_s · sqrt((n−2)/(1−r_s²)), ktoré približne nasleduje t-rozloženie s n−2 stupňami voľnosti (pre dostatočne veľké n).
- Pre malé vzorky a pri viazaných hodnotách sú vhodnejšie presné testy založené na permutačnom prístupe alebo tabuľky kritických hodnôt pre Spearmanov koeficient.
Kedy použiť Spearmanov koeficient
- Keď údaje sú ordinálne alebo keď poradia dávajú zmysel.
- Keď vzťah medzi premennými nemusí byť lineárny, ale očakávame monotónny trend (napr. zvyšovanie jednej premennej vedie k všeobecnému zvyšovaniu druhej).
- Keď chceme robustnú metódu menej citlivú na odľahlé hodnoty než Pearsonova korelácia.
Rozdiel oproti Pearsonovej korelácii
- Pearson meria lineárny vzťah medzi hodnotami; Spearman meria monotónny vzťah medzi poradiami.
- Spearman je neparametrický a menej citlivý na porušenie normálnosti a prítomnosť extrémov.
Spearmanov korelačný koeficient je jednoduchý na pochopenie aj výpočet, poskytuje spoľahlivú mieru monotónnej súvislosti a je užitočným nástrojom pri prieskume dát pred zložitejšou analýzou alebo keď predpoklady pre Pearsonov koeficient nie sú splnené.
Vypracovanie
Prvý krok
Ak chcete zistiť r s {\displaystyle r_{s}}, musíte najprv zoradiť jednotlivé údaje. Použijeme príklad z úvodu o počítačoch a ich rýchlosti.
Počítač s najnižšou cenou by teda bol na 1. mieste. Ten s vyššou hodnotou by mal 2. Potom to ide nahor, až kým sa nezískajú všetky poradia. Musíte to urobiť s oboma súbormi údajov.
| Cena ($) | R a n k 1 {\displaystyle Rank_{1}} | Rýchlosť (GHz) | R a n k 2 {\displaystyle Rank_{2}} | |
| A | 200 | 1 | 1.80 | 2 |
| B | 275 | 2 | 1.60 | 1 |
| C | 300 | 3 | 2.20 | 4 |
| D | 350 | 4 | 2.10 | 3 |
| E | 600 | 5 | 4.00 | 5 |
Druhý krok
Ďalej musíme zistiť rozdiel medzi týmito dvoma radmi. Potom tento rozdiel vynásobíme sebou samým, čo sa nazýva odmocňovanie. Rozdiel sa nazýva d {\displaystyle d} , a číslo, ktoré dostanete po odmocnení d {\displaystyle d}
, sa nazýva d 2 {\displaystyle d^{2}}
.
| R a n k 1 {\displaystyle Rank_{1}} | R a n k 2 {\displaystyle Rank_{2}} | d {\displaystyle d} | d 2 {\displaystyle d^{2}} |
| 1 | 2 | -1 | 1 |
| 2 | 1 | 1 | 1 |
| 3 | 4 | -1 | 1 |
| 4 | 3 | 1 | 1 |
| 5 | 5 | 0 | 0 |
Tretí krok
Spočítajte, koľko údajov máme. Tieto údaje majú stupne 1 až 5, takže máme 5 údajov. Toto číslo sa nazýva n {\displayyle n} .
Štvrtý krok
Nakoniec použite všetko, čo sme doteraz zistili, v tomto vzorci: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} .
∑ d 2 {\displaystyle \sum d^{2}} znamená, že zoberieme súčet všetkých čísel, ktoré boli v stĺpci d 2 {\displaystyle d^{2}}
. Je to preto, lebo ∑ {\displaystyle \sum }
znamená spolu.
Takže ∑ d 2 {\displaystyle \sum d^{2}} je 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1}
, čo je 4. Vzorec hovorí, že sa vynásobí 6, čo je 24.
n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} je 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)},
čo je 120.
Aby sme teda zistili r s {\displaystyle r_{s}} jednoducho urobíme 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8}
.
Spearmanov koeficient korelácie je preto pre tento súbor údajov 0,8.
Čo čísla znamenajú
r s {\displaystyle r_{s}} vždy dáva odpoveď medzi -1 a 1. Čísla medzi nimi sú ako stupnica, kde -1 je veľmi silné prepojenie, 0 je žiadne prepojenie a 1 je tiež veľmi silné prepojenie. Rozdiel medzi 1 a -1 je v tom, že 1 je pozitívna korelácia a -1 je negatívna korelácia. Graf údajov s hodnotou r s {\displaystyle r_{s}}
-1 by vyzeral ako zobrazený graf s tým rozdielom, že čiara a body by smerovali zhora vľavo nadol vpravo.
Napríklad v prípade údajov, ktoré sme uviedli vyššie, bola hodnota r s {\displaystyle r_{s}} 0,8. Znamená to teda, že existuje pozitívna korelácia. Keďže sa blíži k hodnote 1, znamená to, že súvislosť medzi týmito dvoma súbormi údajov je silná. Môžeme teda povedať, že tieto dva súbory údajov sú prepojené a idú spolu hore. Ak by bol -0,8, mohli by sme povedať, že sú prepojené a keď jeden stúpa, druhý klesá.
Ak sú dve čísla rovnaké
Pri zoraďovaní údajov sa niekedy vyskytnú dve alebo viac rovnakých čísel. Keď sa to stane v r s {\displaystyle r_{s}} , berieme priemer alebo priemer hodnôt, ktoré sú rovnaké. Takéto ranky sa nazývajú viazané ranky. Na tento účel vytvoríme poradie viazaných čísel tak, ako keby neboli viazané. Potom spočítame všetky hodnosti, ktoré by mali, a vydelíme ich počtom. Napríklad, povedzme, že sme zoraďovali, ako dobre si rôzni ľudia počínali v pravopisnom teste.
| Výsledok testu | Poradie | Poradie (s viazaným) |
| 4 | 1 | 1 |
| 6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
| 6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
| 6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} |
| 8 | 5 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} |
| 8 | 6 | 5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} |
Tieto čísla sa používajú úplne rovnako ako bežné hodnosti.
Súvisiace stránky
Otázky a odpovede
Otázka: Čo je to Spearmanov koeficient korelácie?
Odpoveď: Spearmanov koeficient korelácie je miera korelácie, ktorá ukazuje, ako úzko sú dva súbory údajov prepojené. Môže sa použiť len pre údaje, ktoré sa dajú zoradiť, napríklad od najvyššej po najnižšiu hodnotu.
Otázka: Kto vytvoril Spearmanov koeficient korelácie?
Odpoveď: Spearmanov korelačný koeficient vytvoril Charles Spearman.
Otázka: Ako sa píše všeobecný vzorec pre Spearmanov korelačný koeficient?
Odpoveď: Všeobecný vzorec pre Spearmanov koeficient korelácie rangu sa zapisuje ako ρ = 1 - 6∑d2/n(n2-1).
Otázka: Kedy by ste mali použiť Spearmanov koeficient korelácie?
Odpoveď: Spearmanov koeficient rangovej korelácie by ste mali použiť vtedy, keď chcete zistiť, ako úzko sú dva súbory údajov prepojené a či vôbec sú prepojené.
Otázka: S akým typom údajov pracuje?
Odpoveď: Funguje s akýmkoľvek typom údajov, ktoré možno zoradiť, napríklad od najvyššieho po najnižší.
Otázka: Môžete uviesť príklad, kde by ste toto opatrenie použili?
Odpoveď: Príkladom použitia tejto miery môže byť, ak máte údaje o tom, aké drahé sú rôzne počítače, a údaje o tom, aké rýchle sú počítače, potom môžete zistiť, či sú prepojené a ako úzko sú prepojené pomocou r_s.
Prehľadať