Voorbeeld van bootstrapping in statistieken

Bootstrapping is een krachtige statistische techniek. Het is vooral handig als de monster maat waarmee we werken is klein. Onder normale omstandigheden kunnen steekproeven van minder dan 40 niet worden behandeld door uit te gaan van a normale verdeling of een t distributie. Bootstrap-technieken werken redelijk goed met monsters die minder dan 40 elementen bevatten. De reden hiervoor is dat bootstrapping een resampling inhoudt. Dit soort technieken veronderstellen niets over de distributie van onze gegevens.

Bootstrapping is populairder geworden omdat computerbronnen gemakkelijker beschikbaar zijn. Dit komt omdat om bootstrapping praktisch te laten zijn een computer moet worden gebruikt. We zullen zien hoe dit werkt in het volgende voorbeeld van bootstrapping.

We beginnen met een statistische steekproef van een populatie waarvan we niets weten. Ons doel is een betrouwbaarheidsinterval van 90% over het gemiddelde van de steekproef. Hoewel andere statistische technieken worden gebruikt om te bepalen

instagram viewer

betrouwbaarheidsintervallen Ga ervan uit dat we de gemiddelde of standaarddeviatie van onze populatie kennen, bootstrapping vereist niets anders dan de steekproef.

Voor ons voorbeeld gaan we ervan uit dat de steekproef 1, 2, 4, 4, 10 is.

We nemen nu een nieuwe steekproef met vervanging van onze steekproef om zogeheten bootstrap-voorbeelden te vormen. Elke bootstrap-sample heeft een grootte van vijf, net als onze originele sample. Aangezien we willekeurig elke waarde selecteren en vervolgens vervangen, kunnen de bootstrap-samples verschillen van de originele sample en van elkaar.

Voor voorbeelden die we in de echte wereld zouden tegenkomen, zouden we dit honderden, zo niet duizenden keren doen. In wat hieronder volgt, zien we een voorbeeld van 20 bootstrap-voorbeelden:

Omdat we bootstrapping gebruiken om een betrouwbaarheidsinterval voor het populatiegemiddelde te berekenen, berekenen we nu de gemiddelden van elk van onze bootstrap-monsters. Deze middelen zijn in oplopende volgorde gerangschikt: 2, 2,4, 2,6, 2,6, 2,8, 3, 3, 3,2, 3,4, 3,6, 3,8, 4, 4, 4,2, 4,6, 5,2, 6, 6, 6,6, 7,6.

We halen nu uit onze lijst met bootstrap-steekproeven een betrouwbaarheidsinterval. Aangezien we een betrouwbaarheidsinterval van 90% willen, gebruiken we de 95e en 5e percentielen als eindpunten van de intervallen. De reden hiervoor is dat we 100% - 90% = 10% doormidden splitsen, zodat we de middelste 90% van alle bootstrap-steekproefgemiddelden hebben.