Verschillen tussen populatie en standaarddeviaties van steekproeven

Bij het overwegen van standaarddeviaties kan het als een verrassing komen dat er eigenlijk twee te overwegen zijn. Er is een standaarddeviatie van de populatie en er is een standaarddeviatie van een steekproef. We zullen deze twee onderscheiden en hun verschillen benadrukken.

Kwalitatieve verschillen

Hoewel beide standaarddeviaties variabiliteit meten, zijn er verschillen tussen een populatie en een standaarddeviatie van de steekproef. De eerste heeft te maken met het onderscheid tussen statistieken en parameters. De standaarddeviatie van de populatie is een parameter, een vaste waarde die wordt berekend op basis van elk individu in de populatie.

Een standaarddeviatie van een steekproef is een statistiek. Dit betekent dat het wordt berekend op basis van slechts enkele individuen in een populatie. Aangezien de standaarddeviatie van de steekproef afhangt van de steekproef, heeft deze een grotere variabiliteit. De standaardafwijking van de steekproef is dus groter dan die van de populatie.

Kwantitatief verschil

instagram viewer

We zullen zien hoe deze twee soorten standaarddeviaties numeriek van elkaar verschillen. Om dit te doen, beschouwen we de formules voor zowel de standaarddeviatie van de steekproef als de standaarddeviatie van de populatie.

De formules om beide standaarddeviaties te berekenen zijn bijna identiek:

Bereken het gemiddelde.
Trek het gemiddelde van elke waarde af om afwijkingen van het gemiddelde te verkrijgen.
Vierkant van alle afwijkingen.
Tel al deze kwadratische afwijkingen bij elkaar op.

Nu verschilt de berekening van deze standaardafwijkingen:

Als we de standaarddeviatie van de populatie berekenen, delen we door n, het aantal gegevenswaarden.
Als we de standaarddeviatie van de steekproef berekenen, delen we door n -1, een minder dan het aantal gegevenswaarden.

De laatste stap, in elk van de twee gevallen die we overwegen, is om de vierkantswortel van het quotiënt uit de vorige stap te nemen.

Hoe groter de waarde van n is, hoe dichter de populatie en standaardafwijkingen van de steekproef zullen zijn.

Voorbeeld berekening

Om deze twee berekeningen te vergelijken, beginnen we met dezelfde gegevensset:

1, 2, 4, 5, 8

Vervolgens voeren we alle stappen uit die beide berekeningen gemeen hebben. Hierop volgend zullen de berekeningen van elkaar verschillen en zullen we onderscheid maken tussen de populatie en steekproefstandaardafwijkingen.

Het gemiddelde is (1 + 2 + 4 + 5 + 8) / 5 = 20/5 = 4.

De afwijkingen worden gevonden door het gemiddelde van elke waarde af te trekken:

1 - 4 = -3
2 - 4 = -2
4 - 4 = 0
5 - 4 = 1
8 - 4 = 4.

De afwijkingen in het kwadraat zijn als volgt:

(-3)² = 9
(-2)² = 4
0² = 0
1² = 1
4² = 16

We voegen nu deze gekwadrateerde afwijkingen toe en zien dat hun som 9 + 4 + 0 + 1 + 16 = 30 is.

In onze eerste berekening behandelen we onze gegevens alsof het de hele populatie is. We delen door het aantal datapunten, dat is vijf. Dit betekent dat de bevolking variantie is 30/5 = 6. De standaarddeviatie van de populatie is de vierkantswortel van 6. Dit is ongeveer 2.4495.

In onze tweede berekening behandelen we onze gegevens alsof het een steekproef is en niet de hele populatie. We delen door één minder dan het aantal datapunten. Dus in dit geval delen we door vier. Dit betekent dat de steekproefvariantie 30/4 = 7,5 is. De standaarddeviatie van de steekproef is de vierkantswortel van 7,5. Dit is ongeveer 2.7386.

Uit dit voorbeeld blijkt heel duidelijk dat er een verschil is tussen de populatie en de standaarddeviaties van de steekproef.