V matematike a štatistike je Spearmanov korelačný koeficient miera korelácie, pomenovaná po svojom tvorcovi Charlesovi Spearmanovi. V skratke sa zapisuje ako grécke písmeno rho ( ρ {\displaystyle \rho }{\displaystyle \rho } ) alebo niekedy ako r s {\displaystyle r_{s}} {\displaystyle r_{s}}. Merať pomocou neho môžeme, ako úzko sú dva súbory údajov prepojené v zmysle monotónnej súvislosti — t. j. či pri zväčšení jednej premennej dochádza k všeobecnému zväčšovaniu alebo zmenšovaniu druhej. Používa sa predovšetkým pre údaje, ktoré sa dajú zoradiť (ordinálne alebo poradové), prípadne keď chceme robustnú, neparametrickú alternatívu k Pearsonovej korelácii. Môže sa použiť len pre údaje, ktoré sa dajú zoradiť, napríklad od najvyššieho po najnižší.

Všeobecný vzorec pre r s {\displaystyle r_{s}}{\displaystyle r_{s}} je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Vysvetlenie vzorca a premenné

  • n je počet párov pozorovaní (veľkosť vzorky).
  • d je rozdiel medzi poradiami (rankami) dvoch pozorovaní v každom páre: d = rank(x) − rank(y).
  • Σ d² je súčet druhých mocnín týchto rozdielov cez všetky páry.
  • Vzorec ρ = 1 − (6 Σ d²) / (n(n² − 1)) platí za predpokladu, že v údajoch nie sú viazané hodnoty (ties). Pri viazaných hodnotách sa odporúča použiť buď úpravu vzorca, alebo spočítať klasickú Pearsonovu koreláciu, ale z rankov (t. j. použiť Pearsonov koeficient na radoch).
  • Hodnoty ρ sa pohybujú od −1 do +1:
    • ρ = +1: dokonalá pozitívna monotónna závislosť (poradia zhodné).
    • ρ = −1: dokonalá negatívna monotónna závislosť (poradia úplne opačné).
    • ρ = 0: žiadna monotónna závislosť.

Postup výpočtu (krok za krokom) — jednoduchý príklad

Predstavme si, že máme údaje o tom, aké drahé sú rôzne počítače, a údaje o tom, ako rýchle sú počítače. Ukážeme výpočet na 5 počítačoch:

  1. Zo zoznamu hodnôt priradíme každej premennej poradie (rank). Poradia môžeme prideľovať vzostupne (1 = najmenšia hodnota) alebo zostupne; dôležité je byť konzistentný pre obe premenné.
  2. Pre každý počítač vypočítame rozdiel d = rank(cena) − rank(rýchlosť) a potom d².
  3. Sčítame všetky d², dosadíme do vzorca a vypočítame ρ.

Konkrétne (fiktívne údaje):

  • Ceny: D = 800 €, A = 1000 €, C = 1200 €, B = 1500 €, E = 2000 €
  • Rýchlosti: D = 180, A = 200, C = 220, B = 250, E = 300

Priradené poradia (1 = najmenšia hodnota):

  • Rank(cena): D=1, A=2, C=3, B=4, E=5
  • Rank(rýchlosť): D=1, A=2, C=3, B=4, E=5

Rozdiely d sú pre všetky položky 0, takže Σ d² = 0. Dosadíme do vzorca:

ρ = 1 − (6·0) / (5(5² − 1)) = 1.

Tento výsledok znamená dokonalú pozitívnu monotónnu závislosť medzi cenou a rýchlosťou v tomto príklade (vyššia cena zodpovedá vyššej rýchlosti).

Viazané hodnoty (ties) a všeobecný postup

Ak sa v údajoch vyskytujú viazané hodnoty (napr. dve položky majú rovnakú rýchlosť), priraďuje sa týmto hodnotám priemerné poradie. Pri väčšom počte viazaní alebo silných viazaní môže priama aplikácia jednoduchého vzorca viesť k chybám; v takom prípade je bezpečnejšie vypočítať Spearmanov koeficient ako Pearsonovu koreláciu medzi radenými hodnotami:

r_s = Pearson_corr(rank_x, rank_y) = cov(rank_x, rank_y) / (σ_rank_x · σ_rank_y).

Štatistická významnosť

  • Pre testovanie nulovej hypotézy H0: ρ = 0 sa často používa priblíženie t-statistiky: t = r_s · sqrt((n−2)/(1−r_s²)), ktoré približne nasleduje t-rozloženie s n−2 stupňami voľnosti (pre dostatočne veľké n).
  • Pre malé vzorky a pri viazaných hodnotách sú vhodnejšie presné testy založené na permutačnom prístupe alebo tabuľky kritických hodnôt pre Spearmanov koeficient.

Kedy použiť Spearmanov koeficient

  • Keď údaje sú ordinálne alebo keď poradia dávajú zmysel.
  • Keď vzťah medzi premennými nemusí byť lineárny, ale očakávame monotónny trend (napr. zvyšovanie jednej premennej vedie k všeobecnému zvyšovaniu druhej).
  • Keď chceme robustnú metódu menej citlivú na odľahlé hodnoty než Pearsonova korelácia.

Rozdiel oproti Pearsonovej korelácii

  • Pearson meria lineárny vzťah medzi hodnotami; Spearman meria monotónny vzťah medzi poradiami.
  • Spearman je neparametrický a menej citlivý na porušenie normálnosti a prítomnosť extrémov.

Spearmanov korelačný koeficient je jednoduchý na pochopenie aj výpočet, poskytuje spoľahlivú mieru monotónnej súvislosti a je užitočným nástrojom pri prieskume dát pred zložitejšou analýzou alebo keď predpoklady pre Pearsonov koeficient nie sú splnené.