Betrouwbaarheidsintervallen zijn een belangrijk onderdeel van inferentiële statistieken. We kunnen enige waarschijnlijkheid en informatie gebruiken van een kansverdeling een populatieparameter schatten met behulp van een steekproef. De verklaring van een Betrouwbaarheidsinterval wordt zo gedaan dat het gemakkelijk verkeerd wordt begrepen. We kijken naar de juiste interpretatie van betrouwbaarheidsintervallen en onderzoeken vier fouten die worden gemaakt op dit gebied van statistiek.
Wat is een betrouwbaarheidsinterval?
Een betrouwbaarheidsinterval kan worden uitgedrukt als een bereik van waarden of in de volgende vorm:
Schatting ± Foutmarge
Een betrouwbaarheidsinterval wordt doorgaans vermeld met een betrouwbaarheidsniveau.Gemeenschappelijke vertrouwensniveaus zijn 90%, 95% en 99%.
We zullen een voorbeeld bekijken waarin we een steekproefgemiddelde willen gebruiken om het gemiddelde van een populatie af te leiden. Stel dat dit resulteert in een betrouwbaarheidsinterval van 25 tot 30. Als we zeggen dat we 95% zeker zijn dat de onbekende populatie
gemeen is opgenomen in dit interval, dan zeggen we eigenlijk dat we het interval hebben gevonden met behulp van een methode die 95% van de tijd succesvol is in het geven van correcte resultaten. Op de lange termijn zal onze methode 5% van de tijd niet slagen. Met andere woorden, we zullen er niet in slagen de ware populatie gemiddeld slechts één op de twintig keer te vangen.Fout # 1
We zullen nu kijken naar een reeks verschillende fouten die kunnen worden gemaakt bij het omgaan met betrouwbaarheidsintervallen. Een onjuiste uitspraak die vaak wordt gedaan over een betrouwbaarheidsinterval bij een betrouwbaarheidsniveau van 95% is dat er een kans van 95% is dat het betrouwbaarheidsinterval het werkelijke gemiddelde van de populatie bevat.
De reden dat dit een vergissing is, is eigenlijk heel subtiel. Het belangrijkste idee met betrekking tot een betrouwbaarheidsinterval is dat de gebruikte waarschijnlijkheid in beeld komt de methode die wordt gebruikt bij het bepalen van het betrouwbaarheidsinterval is dat het verwijst naar de methode die is gebruikt.
Fout # 2
Een tweede fout is om een betrouwbaarheidsinterval van 95% te interpreteren als te zeggen dat 95% van alle gegevenswaarden in de populatie binnen het interval vallen. Nogmaals, 95% spreekt de methode van de test.
Om te zien waarom de bovenstaande verklaring onjuist is, kunnen we een normale populatie met een standaardafwijking van 1 en een gemiddelde van 5. Een steekproef met twee gegevenspunten, elk met een waarde van 6, heeft een steekproefgemiddelde van 6. Een betrouwbaarheidsinterval van 95% voor het populatiegemiddelde zou 4,6 tot 7,4 zijn. Dit overlapt duidelijk niet met 95% van de normale verdeling, dus het zal niet 95% van de bevolking bevatten.
Fout # 3
Een derde fout is te zeggen dat een betrouwbaarheidsinterval van 95% inhoudt dat 95% van alle mogelijke steekproefgemiddelden binnen het interval vallen. Heroverweeg het voorbeeld uit de laatste sectie. Elke steekproef van grootte twee die slechts uit waarden kleiner dan 4,6 bestond, zou een gemiddelde hebben die kleiner was dan 4,6. Deze steekproefgemiddelden vallen dus buiten dit specifieke betrouwbaarheidsinterval. Monsters die aan deze beschrijving voldoen, vertegenwoordigen meer dan 5% van het totale bedrag. Het is dus een vergissing om te zeggen dat dit betrouwbaarheidsinterval 95% van alle steekproefgemiddelden omvat.
Fout # 4
Een vierde fout bij het omgaan met betrouwbaarheidsintervallen is te denken dat ze de enige bron van fouten zijn. Hoewel er een foutmarge is gekoppeld aan een betrouwbaarheidsinterval, zijn er andere plaatsen waar fouten in een statistische analyse kunnen kruipen. Een paar voorbeelden van dit soort fouten kunnen het gevolg zijn van een onjuiste opzet van het experiment, een vertekening in de steekproef of het onvermogen om gegevens te verkrijgen van een bepaalde subset van de populatie.