Spearmanov korelačný koeficient

Autor: Leandro Alegsa

17-05-2021 19:38

V matematike a štatistike je Spearmanov korelačný koeficient miera korelácie, pomenovaná po svojom tvorcovi Charlesovi Spearmanovi. V skratke sa zapisuje ako grécke písmeno rho ( ρ {\displaystyle \rho } $\rho$ ) alebo niekedy ako r s {\displaystyle r_{s}} $r_{s}$ . Je to číslo, ktoré ukazuje, ako úzko sú dva súbory údajov prepojené. Môže sa použiť len pre údaje, ktoré sa dajú zoradiť, napríklad od najvyššieho po najnižší.

Všeobecný vzorec pre r s {\displaystyle r_{s}} $r_{s}$ je ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} $\rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

Ak máte napríklad údaje o tom, aké drahé sú rôzne počítače, a údaje o tom, ako rýchle sú počítače, môžete zistiť, či sú prepojené a ako úzko sú prepojené, pomocou r s {\displaystyle r_{s}} $r_{s}$ .

Vypracovanie

Prvý krok

Ak chcete zistiť r s {\displaystyle r_{s}} $r_{s}$ , musíte najprv zoradiť jednotlivé údaje. Použijeme príklad z úvodu o počítačoch a ich rýchlosti.

Počítač s najnižšou cenou by teda bol na 1. mieste. Ten s vyššou hodnotou by mal 2. Potom to ide nahor, až kým sa nezískajú všetky poradia. Musíte to urobiť s oboma súbormi údajov.

PC	Cena ($)	R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	Rýchlosť (GHz)	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$
A	200	1	1.80	2
B	275	2	1.60	1
C	300	3	2.20	4
D	350	4	2.10	3
E	600	5	4.00	5

Druhý krok

Ďalej musíme zistiť rozdiel medzi týmito dvoma radmi. Potom tento rozdiel vynásobíme sebou samým, čo sa nazýva odmocňovanie. Rozdiel sa nazýva d {\displaystyle d} $d$ , a číslo, ktoré dostanete po odmocnení d {\displaystyle d} $d$ , sa nazýva d 2 {\displaystyle d^{2}} $d^{2}$ .

R a n k 1 {\displaystyle Rank_{1}} $Rank_{1}$	R a n k 2 {\displaystyle Rank_{2}} $Rank_{2}$	d {\displaystyle d} $d$	d 2 {\displaystyle d^{2}} $d^{2}$
1	2	-1	1
2	1	1	1
3	4	-1	1
4	3	1	1
5	5	0	0

Tretí krok

Spočítajte, koľko údajov máme. Tieto údaje majú stupne 1 až 5, takže máme 5 údajov. Toto číslo sa nazýva n {\displayyle n} .

Štvrtý krok

Nakoniec použite všetko, čo sme doteraz zistili, v tomto vzorci: r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}} $r_{s}=1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}$ .

∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ znamená, že zoberieme súčet všetkých čísel, ktoré boli v stĺpci d 2 {\displaystyle d^{2}} $d^{2}$ . Je to preto, lebo ∑ {\displaystyle \sum } $\sum$ znamená spolu.

Takže ∑ d 2 {\displaystyle \sum d^{2}} $\sum d^{2}$ je 1 + 1 + 1 + 1 {\displaystyle 1+1+1+1} $1+1+1+1$ , čo je 4. Vzorec hovorí, že sa vynásobí 6, čo je 24.

n ( n 2 - 1 ) {\displaystyle n(n^{2}-1)} $n(n^{2}-1)$ je 5 × ( 25 - 1 ) {\displaystyle 5\times (25-1)}, $5\times (25-1)$ čo je 120.

Aby sme teda zistili r s {\displaystyle r_{s}} $r_{s}$ jednoducho urobíme 1 - 24 120 = 0,8 {\displaystyle 1-{\cfrac {24}{120}}=0,8} $1-{\cfrac {24}{120}}=0.8$ .

Spearmanov koeficient korelácie je preto pre tento súbor údajov 0,8.

Čo čísla znamenajú

r s {\displaystyle r_{s}} $r_{s}$ vždy dáva odpoveď medzi -1 a 1. Čísla medzi nimi sú ako stupnica, kde -1 je veľmi silné prepojenie, 0 je žiadne prepojenie a 1 je tiež veľmi silné prepojenie. Rozdiel medzi 1 a -1 je v tom, že 1 je pozitívna korelácia a -1 je negatívna korelácia. Graf údajov s hodnotou r s {\displaystyle r_{s}} $r_{s}$ -1 by vyzeral ako zobrazený graf s tým rozdielom, že čiara a body by smerovali zhora vľavo nadol vpravo.

Napríklad v prípade údajov, ktoré sme uviedli vyššie, bola hodnota r s {\displaystyle r_{s}} $r_{s}$ 0,8. Znamená to teda, že existuje pozitívna korelácia. Keďže sa blíži k hodnote 1, znamená to, že súvislosť medzi týmito dvoma súbormi údajov je silná. Môžeme teda povedať, že tieto dva súbory údajov sú prepojené a idú spolu hore. Ak by bol -0,8, mohli by sme povedať, že sú prepojené a keď jeden stúpa, druhý klesá.

Tento rozptylový graf má pozitívnu koreláciu. Hodnota r s {\displaystyle r_{s}} $r_{s}$ by mala byť blízko 1 alebo 0,9. Červená čiara je priamka najlepšej zhody.

Ak sú dve čísla rovnaké

Pri zoraďovaní údajov sa niekedy vyskytnú dve alebo viac rovnakých čísel. Keď sa to stane v r s {\displaystyle r_{s}} $r_{s}$ , berieme priemer alebo priemer hodnôt, ktoré sú rovnaké. Takéto ranky sa nazývajú viazané ranky. Na tento účel vytvoríme poradie viazaných čísel tak, ako keby neboli viazané. Potom spočítame všetky hodnosti, ktoré by mali, a vydelíme ich počtom. Napríklad, povedzme, že sme zoraďovali, ako dobre si rôzni ľudia počínali v pravopisnom teste.

Výsledok testu	Poradie	Poradie (s viazaným)
4	1	1
6	2	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
6	3	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
6	4	2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}}=3} ${\tfrac {2+3+4}{3}}=3$
8	5	5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} ${\tfrac {5+6}{2}}=5.5$
8	6	5 + 6 2 = 5,5 {\displaystyle {\tfrac {5+6}{2}}=5,5} ${\tfrac {5+6}{2}}=5.5$

Tieto čísla sa používajú úplne rovnako ako bežné hodnosti.

Súvisiace stránky

Korelácia

Otázky a odpovede

Otázka: Čo je to Spearmanov koeficient korelácie?

Odpoveď: Spearmanov koeficient korelácie je miera korelácie, ktorá ukazuje, ako úzko sú dva súbory údajov prepojené. Môže sa použiť len pre údaje, ktoré sa dajú zoradiť, napríklad od najvyššej po najnižšiu hodnotu.

Otázka: Kto vytvoril Spearmanov koeficient korelácie?

Odpoveď: Spearmanov korelačný koeficient vytvoril Charles Spearman.

Otázka: Ako sa píše všeobecný vzorec pre Spearmanov korelačný koeficient?

Odpoveď: Všeobecný vzorec pre Spearmanov koeficient korelácie rangu sa zapisuje ako ρ = 1 - 6∑d2/n(n2-1).

Otázka: Kedy by ste mali použiť Spearmanov koeficient korelácie?

Odpoveď: Spearmanov koeficient rangovej korelácie by ste mali použiť vtedy, keď chcete zistiť, ako úzko sú dva súbory údajov prepojené a či vôbec sú prepojené.

Otázka: S akým typom údajov pracuje?

Odpoveď: Funguje s akýmkoľvek typom údajov, ktoré možno zoradiť, napríklad od najvyššieho po najnižší.

Otázka: Môžete uviesť príklad, kde by ste toto opatrenie použili?

Odpoveď: Príkladom použitia tejto miery môže byť, ak máte údaje o tom, aké drahé sú rôzne počítače, a údaje o tom, aké rýchle sú počítače, potom môžete zistiť, či sú prepojené a ako úzko sú prepojené pomocou r_s.

Prehľadať