Statistische steekproef wordt vrij vaak gebruikt in statistieken. In dit proces willen we iets bepalen over een populatie. Aangezien populaties doorgaans groot zijn, vormen we een statistische steekproef door een subset van de populatie te selecteren die een vooraf bepaalde grootte heeft. Door de steekproef te bestuderen, kunnen we inferentiële statistieken gebruiken om iets over de populatie te bepalen.
Een statistische steekproef van grootte n omvat een enkele groep n individuen of proefpersonen die willekeurig zijn gekozen uit de populatie. Nauw verwant aan het concept van een statistische steekproef is een steekproefverdeling.
Oorsprong van bemonsteringsdistributies
Een steekproefverdeling vindt plaats wanneer we er meer dan één vormen eenvoudige willekeurige steekproef van dezelfde grootte van een bepaalde populatie. Deze monsters worden als onafhankelijk van elkaar beschouwd. Dus als een individu in één monster zit, heeft het dezelfde kans om in het volgende monster te zitten dat wordt genomen.
We berekenen voor elke steekproef een bepaalde statistiek. Dit kan een voorbeeld zijn gemeen, een steekproefvariantie of een steekproefverhouding. Aangezien een statistiek afhangt van de steekproef die we hebben, zal elke steekproef doorgaans een andere waarde opleveren voor de desbetreffende statistiek. Het bereik van de geproduceerde waarden is wat ons onze steekproefverdeling geeft.
Steekproefverdeling voor middelen
Als voorbeeld nemen we de steekproefverdeling voor het gemiddelde. Het gemiddelde van een populatie is een typisch onbekende parameter. Als we een steekproef van grootte 100 selecteren, kan het gemiddelde van deze steekproef gemakkelijk worden berekend door alle waarden bij elkaar op te tellen en vervolgens te delen door het totale aantal gegevenspunten, in dit geval 100. Een monster van maat 100 kan ons een gemiddelde van 50 geven. Een andere dergelijke steekproef kan een gemiddelde van 49 hebben. Nog eens 51 en nog een steekproef zouden gemiddeld 50,5 kunnen hebben.
De verdeling van deze steekproefgemiddelden geeft ons een steekproefverdeling. We zouden meer dan vier voorbeeldmiddelen willen overwegen, zoals we hierboven hebben gedaan. Met nog enkele steekproefgemiddelden zouden we een goed idee hebben van de vorm van de steekproefverdeling.
Waarom kan het ons schelen?
Sampling-distributies lijken misschien vrij abstract en theoretisch. Het gebruik ervan heeft echter enkele zeer belangrijke gevolgen. Een van de belangrijkste voordelen is dat we de variabiliteit die aanwezig is in statistieken elimineren.
Stel dat we beginnen met een populatie met een gemiddelde van μ en een standaarddeviatie van σ. De standaarddeviatie geeft ons een maat voor hoe gespreid de verdeling is. We zullen dit vergelijken met een steekproefverdeling verkregen door het vormen van eenvoudige willekeurige steekproeven van grootte n. De steekproefverdeling van het gemiddelde heeft nog steeds een gemiddelde van μ, maar de standaarddeviatie is anders. De standaarddeviatie voor een steekproefverdeling wordt σ / √ n.
We hebben dus het volgende
- Met een steekproefomvang van 4 hebben we een steekproefverdeling met een standaarddeviatie van σ / 2.
- Met een steekproefomvang van 9 hebben we een steekproefverdeling met een standaarddeviatie van σ / 3.
- Met een steekproefomvang van 25 kunnen we een steekproefverdeling hebben met een standaarddeviatie van σ / 5.
- Een steekproefomvang van 100 stelt ons in staat om een steekproefverdeling te hebben met een standaarddeviatie van σ / 10.
In praktijk
In de praktijk van statistiek vormen we zelden steekproefverdelingen. In plaats daarvan behandelen we statistieken die zijn afgeleid van een eenvoudige willekeurige steekproef van grootte n alsof ze één punt vormen langs een corresponderende steekproefverdeling. Dit benadrukt nogmaals waarom we relatief grote steekproeven wensen. Hoe groter de steekproefomvang, hoe minder variatie we zullen krijgen in onze statistiek.
Merk op dat we, behalve het midden en de spreiding, niets kunnen zeggen over de vorm van onze steekproefverdeling. Het blijkt dat onder sommige vrij brede omstandigheden de Centrale limietstelling kan worden toegepast om ons iets verbazingwekkends te vertellen over de vorm van een steekproefverdeling.