V matematike a štatistike je Spearmanov korelačný koeficient miera korelácie, pomenovaná po svojom tvorcovi Charlesovi Spearmanovi. V skratke sa zapisuje ako grécke písmeno rho ( ρ {\displaystyle \rho } ) alebo niekedy ako r s {\displaystyle r_{s}}
. Merať pomocou neho môžeme, ako úzko sú dva súbory údajov prepojené v zmysle monotónnej súvislosti — t. j. či pri zväčšení jednej premennej dochádza k všeobecnému zväčšovaniu alebo zmenšovaniu druhej. Používa sa predovšetkým pre údaje, ktoré sa dajú zoradiť (ordinálne alebo poradové), prípadne keď chceme robustnú, neparametrickú alternatívu k Pearsonovej korelácii. Môže sa použiť len pre údaje, ktoré sa dajú zoradiť, napríklad od najvyššieho po najnižší.
Všeobecný vzorec pre r s {\displaystyle r_{s}} je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}
.
Vysvetlenie vzorca a premenné
- n je počet párov pozorovaní (veľkosť vzorky).
- d je rozdiel medzi poradiami (rankami) dvoch pozorovaní v každom páre: d = rank(x) − rank(y).
- Σ d² je súčet druhých mocnín týchto rozdielov cez všetky páry.
- Vzorec ρ = 1 − (6 Σ d²) / (n(n² − 1)) platí za predpokladu, že v údajoch nie sú viazané hodnoty (ties). Pri viazaných hodnotách sa odporúča použiť buď úpravu vzorca, alebo spočítať klasickú Pearsonovu koreláciu, ale z rankov (t. j. použiť Pearsonov koeficient na radoch).
- Hodnoty ρ sa pohybujú od −1 do +1:
- ρ = +1: dokonalá pozitívna monotónna závislosť (poradia zhodné).
- ρ = −1: dokonalá negatívna monotónna závislosť (poradia úplne opačné).
- ρ = 0: žiadna monotónna závislosť.
Postup výpočtu (krok za krokom) — jednoduchý príklad
Predstavme si, že máme údaje o tom, aké drahé sú rôzne počítače, a údaje o tom, ako rýchle sú počítače. Ukážeme výpočet na 5 počítačoch:
- Zo zoznamu hodnôt priradíme každej premennej poradie (rank). Poradia môžeme prideľovať vzostupne (1 = najmenšia hodnota) alebo zostupne; dôležité je byť konzistentný pre obe premenné.
- Pre každý počítač vypočítame rozdiel d = rank(cena) − rank(rýchlosť) a potom d².
- Sčítame všetky d², dosadíme do vzorca a vypočítame ρ.
Konkrétne (fiktívne údaje):
- Ceny: D = 800 €, A = 1000 €, C = 1200 €, B = 1500 €, E = 2000 €
- Rýchlosti: D = 180, A = 200, C = 220, B = 250, E = 300
Priradené poradia (1 = najmenšia hodnota):
- Rank(cena): D=1, A=2, C=3, B=4, E=5
- Rank(rýchlosť): D=1, A=2, C=3, B=4, E=5
Rozdiely d sú pre všetky položky 0, takže Σ d² = 0. Dosadíme do vzorca:
ρ = 1 − (6·0) / (5(5² − 1)) = 1.
Tento výsledok znamená dokonalú pozitívnu monotónnu závislosť medzi cenou a rýchlosťou v tomto príklade (vyššia cena zodpovedá vyššej rýchlosti).
Viazané hodnoty (ties) a všeobecný postup
Ak sa v údajoch vyskytujú viazané hodnoty (napr. dve položky majú rovnakú rýchlosť), priraďuje sa týmto hodnotám priemerné poradie. Pri väčšom počte viazaní alebo silných viazaní môže priama aplikácia jednoduchého vzorca viesť k chybám; v takom prípade je bezpečnejšie vypočítať Spearmanov koeficient ako Pearsonovu koreláciu medzi radenými hodnotami:
r_s = Pearson_corr(rank_x, rank_y) = cov(rank_x, rank_y) / (σ_rank_x · σ_rank_y).
Štatistická významnosť
- Pre testovanie nulovej hypotézy H0: ρ = 0 sa často používa priblíženie t-statistiky: t = r_s · sqrt((n−2)/(1−r_s²)), ktoré približne nasleduje t-rozloženie s n−2 stupňami voľnosti (pre dostatočne veľké n).
- Pre malé vzorky a pri viazaných hodnotách sú vhodnejšie presné testy založené na permutačnom prístupe alebo tabuľky kritických hodnôt pre Spearmanov koeficient.
Kedy použiť Spearmanov koeficient
- Keď údaje sú ordinálne alebo keď poradia dávajú zmysel.
- Keď vzťah medzi premennými nemusí byť lineárny, ale očakávame monotónny trend (napr. zvyšovanie jednej premennej vedie k všeobecnému zvyšovaniu druhej).
- Keď chceme robustnú metódu menej citlivú na odľahlé hodnoty než Pearsonova korelácia.
Rozdiel oproti Pearsonovej korelácii
- Pearson meria lineárny vzťah medzi hodnotami; Spearman meria monotónny vzťah medzi poradiami.
- Spearman je neparametrický a menej citlivý na porušenie normálnosti a prítomnosť extrémov.
Spearmanov korelačný koeficient je jednoduchý na pochopenie aj výpočet, poskytuje spoľahlivú mieru monotónnej súvislosti a je užitočným nástrojom pri prieskume dát pred zložitejšou analýzou alebo keď predpoklady pre Pearsonov koeficient nie sú splnené.