Hoe de correlatiecoëfficiënt te berekenen

Er zijn veel vragen te stellen bij het bekijken van een spreidingsdiagram. Een van de meest voorkomende vragen zich af hoe goed een rechte lijn de gegevens benadert. Om dit te helpen beantwoorden, is er een beschrijvende statistiek die de correlatiecoëfficiënt wordt genoemd. We zullen zien hoe we deze statistiek kunnen berekenen.

De correlatiecoëfficiënt

De correlatiecoëfficiëntaangegeven met r, vertelt ons hoe nauwkeurig gegevens in een spreidingsplot vallen langs een rechte lijn. Hoe dichterbij dat de absolute waarde van r is één, hoe beter dat de gegevens worden beschreven door een lineaire vergelijking. Als r = 1 of r = -1 dan is de dataset perfect uitgelijnd. Gegevenssets met waarden van r bijna nul tonen weinig tot geen lineaire relatie.

Vanwege de lange berekeningen is het het beste om te berekenen r met behulp van een rekenmachine of statistische software. Het is echter altijd de moeite waard om te weten wat uw rekenmachine doet tijdens het berekenen. Wat volgt is een proces voor het berekenen van de correlatiecoëfficiënt hoofdzakelijk met de hand, met een calculator die wordt gebruikt voor de routinematige rekenkundige stappen.

instagram viewer

Stappen voor het berekenen r

We beginnen met een lijst van de stappen voor de berekening van de correlatiecoëfficiënt. De gegevens waarmee we werken zijn gepaarde gegevenswaarvan elk paar wordt aangeduid met (X_ik, j_ik).

We beginnen met een paar voorlopige berekeningen. De hoeveelheden van deze berekeningen worden gebruikt in de volgende stappen van onze berekening van r:
1. Bereken x̄, de gemeen van alle eerste coördinaten van de gegevens X_ik.
2. Bereken ȳ, het gemiddelde van alle tweede coördinaten van de gegevens
3. y_ik.
4. Berekenen s_X het voorbeeld standaardafwijking van alle eerste coördinaten van de gegevens X_ik.
5. Berekenen s_y de standaarddeviatie van het monster van alle tweede coördinaten van de gegevens y_ik.
Gebruik de formule (z_X)_ik = (X_ik - x̄) / s_X en bereken voor elk een gestandaardiseerde waarde X_ik.
Gebruik de formule (z_y)_ik = (y_ik – ȳ) / s_y en bereken voor elk een gestandaardiseerde waarde y_ik.
Vermenigvuldig overeenkomstige gestandaardiseerde waarden: (z_X)_ik(z_y)_ik
Voeg de producten van de laatste stap samen toe.
Deel de som van de vorige stap door n - 1, waar n is het totale aantal punten in onze set gepaarde gegevens. Het resultaat van dit alles is de correlatiecoëfficiënt r.

Dit proces is niet moeilijk en elke stap is redelijk routineus, maar het verzamelen van al deze stappen is behoorlijk ingewikkeld. De berekening van de standaardafwijking is op zichzelf al vervelend genoeg. Maar de berekening van de correlatiecoëfficiënt omvat niet alleen twee standaardafwijkingen, maar een veelheid aan andere bewerkingen.

Een voorbeeld

Om precies te zien hoe de waarde van r wordt verkregen kijken we naar een voorbeeld. Nogmaals, het is belangrijk op te merken dat we voor praktische toepassingen onze rekenmachine of statistische software willen gebruiken om te berekenen r voor ons.

We beginnen met een lijst met gepaarde gegevens: (1, 1), (2, 3), (4, 5), (5,7). Het gemiddelde van de X waarden, het gemiddelde van 1, 2, 4 en 5 is x̄ = 3. We hebben ook dat ȳ = 4. De standaardafwijking van de

X waarden is s_X = 1,83 en s_y = 2.58. De onderstaande tabel geeft een overzicht van de andere berekeningen die nodig zijn voor r. De som van de producten in de meest rechtse kolom is 2.969848. Aangezien er in totaal vier punten zijn en 4 - 1 = 3, delen we de som van de producten door 3. Dit geeft ons een correlatiecoëfficiënt van r = 2.969848/3 = 0.989949.

Tabel voor voorbeeld van berekening van correlatiecoëfficiënt

X	y	z_X	z_y	z_Xz_y
1	1	-1.09544503	-1.161894958	1.272792057
2	3	-0.547722515	-0.387298319	0.212132009
4	5	0.547722515	0.387298319	0.212132009
5	7	1.09544503	1.161894958	1.272792057