De berekening van een monster afwijking of standaardafwijking wordt meestal vermeld als een breuk. De teller van deze breuk omvat een som van gekwadrateerde afwijkingen van het gemiddelde. In statistiekenis de formule voor deze totale som van vierkanten
Σ (xik x x)2
Hier verwijst het symbool x x naar het voorbeeldgemiddelde en het symbool Σ vertelt ons om de gekwadrateerde verschillen bij elkaar op te tellen (xik - x XR) voor iedereen ik.
Hoewel deze formule werkt voor berekeningen, is er een equivalente snelkoppelingsformule waarvoor we niet eerst de steekproefgemiddelde. Deze snelkoppelingsformule voor de som van vierkanten is
Σ (xik2) - (Σ xik)2/n
Hier de variabele n verwijst naar het aantal gegevenspunten in onze steekproef.
Voorbeeld van standaardformule
Om te zien hoe deze snelkoppelingsformule werkt, zullen we een voorbeeld beschouwen dat is berekend met beide formules. Stel dat ons voorbeeld 2, 4, 6, 8 is. Het steekproefgemiddelde is (2 + 4 + 6 + 8) / 4 = 20/4 = 5. Nu berekenen we het verschil van elk gegevenspunt met het gemiddelde 5.
- 2 – 5 = -3
- 4 – 5 = -1
- 6 – 5 = 1
- 8 – 5 = 3
We kwadrateren nu elk van deze nummers en voegen ze bij elkaar. (-3)2 + (-1)2 + 12 + 32 = 9 + 1 + 1 + 9 = 20.
Voorbeeld van snelkoppelingsformule
Nu gebruiken we dezelfde gegevensset: 2, 4, 6, 8, met de snelkoppelingsformule om de som van de vierkanten te bepalen. We kwadrateren eerst elk gegevenspunt en voegen ze samen toe: 22 + 42 + 62 + 82 = 4 + 16 + 36 + 64 = 120.
De volgende stap is om alle gegevens bij elkaar op te tellen en deze som te kwadrateren: (2 + 4 + 6 + 8)2 = 400. We delen dit door het aantal datapunten om 400/4 = 100 te verkrijgen.
We trekken dit getal nu af van 120. Dit geeft ons dat de som van de gekwadrateerde afwijkingen 20 is. Dit was precies het nummer dat we al uit de andere formule hebben gevonden.
Hoe werkt dit?
Veel mensen accepteren de formule gewoon op het eerste gezicht en hebben geen idee waarom deze formule werkt. Door een beetje algebra te gebruiken, kunnen we zien waarom deze snelkoppelingsformule equivalent is aan de standaard, traditionele manier om de som van gekwadrateerde afwijkingen te berekenen.
Hoewel er honderden, zo niet duizenden waarden in een echte gegevensset kunnen zijn, gaan we ervan uit dat er slechts drie gegevenswaarden zijn: x1, x2, x3. Wat we hier zien, kan worden uitgebreid tot een dataset met duizenden punten.
We beginnen met op te merken dat (x1 + x2 + x3) = 3 x x. De uitdrukking Σ (xik x x)2 = (x1 x x)2 + (x2 x x)2 + (x3 x x)2.
We gebruiken nu het feit uit basisalgebra dat (a + b)2 = een2 + 2ab + b2. Dit betekent dat (x1 x x)2 = x12 -2x1 x x + x x2. We doen dit voor de andere twee voorwaarden van onze sommatie en we hebben:
X12 -2x1 x x + x x2 + x22 -2x2 x x + x x2 + x32 -2x3 x x + x x2.
We herschikken dit en hebben:
X12+ x22 + x323x 3x2 - 2 x 3 (x1 + x2 + x3) .
Door herschrijven (x1 + x2 + x3) = 3 x 3, het bovenstaande wordt:
X12+ x22 + x32 3x 3x2.
Nu sinds 3 x 32 = (x1+ x2 + x3)2/ 3, onze formule wordt:
X12+ x22 + x32 - (x1+ x2 + x3)2/3
En dit is een speciaal geval van de algemene formule die hierboven werd genoemd:
Σ (xik2) - (Σ xik)2/n
Is het echt een snelkoppeling?
Het lijkt misschien niet dat deze formule echt een snelkoppeling is. In bovenstaand voorbeeld lijkt het er immers op dat er evenveel berekeningen zijn. Een deel hiervan heeft te maken met het feit dat we alleen naar een kleine steekproef hebben gekeken.
Naarmate we de omvang van onze steekproef vergroten, zien we dat de snelkoppelingsformule het aantal berekeningen met ongeveer de helft vermindert. We hoeven het gemiddelde niet van elk gegevenspunt af te trekken en het resultaat vervolgens te kwadrateren. Dit vermindert het totale aantal operaties aanzienlijk.