De populatievariantie geeft een indicatie hoe een dataset moet worden verspreid. Helaas is het doorgaans onmogelijk om precies te weten wat deze populatieparameter is. Om ons gebrek aan kennis te compenseren, gebruiken we een onderwerp uit inferentiële statistieken, genaamd betrouwbaarheidsintervallen. We zullen een voorbeeld zien van het berekenen van een betrouwbaarheidsinterval voor een populatievariantie.
Betrouwbaarheidsintervalformule
De formule voor de (1 - α) betrouwbaarheidsinterval over de populatievariantie. Wordt gegeven door de volgende reeks ongelijkheden:
[ (n - 1)s2] / B < σ2 < [ (n - 1)s2] / EEN.
Hier n is de steekproefomvang, s2 is de steekproefvariantie. Het nummer EEN is het punt van de chi-kwadraatverdeling met n -1 vrijheidsgraden waarbij precies α / 2 van het gebied onder de curve zich links van bevindt EEN. Op een vergelijkbare manier is het nummer B is het punt van dezelfde chikwadraatverdeling met exact α / 2 van het gebied onder de curve rechts van B.
Voorrondes
We beginnen met een dataset met 10 waarden. Deze set gegevenswaarden is verkregen door een eenvoudige willekeurige steekproef:
97, 75, 124, 106, 120, 131, 94, 97,96, 102
Er zou enige verkennende gegevensanalyse nodig zijn om aan te tonen dat er geen uitbijters zijn. Door een stengel en blad plot we zien dat deze gegevens waarschijnlijk afkomstig zijn van een distributie die ongeveer normaal verdeeld is. Dit betekent dat we kunnen doorgaan met het vinden van een 95% betrouwbaarheidsinterval voor de populatievariantie.
Steekproefvariantie
We moeten de populatievariantie schatten met de steekproefvariantie, aangegeven met s2. Dus beginnen we met het berekenen van deze statistiek. In wezen middelen we het gemiddelde som van de gekwadrateerde afwijkingen van het gemiddelde. Echter, in plaats van dit bedrag te delen door n we delen het door n - 1.
We vinden dat het steekproefgemiddelde 104,2 is. Hiermee hebben we de som van gekwadrateerde afwijkingen van het gemiddelde gegeven door:
(97 – 104.2)2 + (75 – 104.3)2 +... + (96 – 104.2)2 + (102 – 104.2)2 = 2495.6
We delen deze som door 10 - 1 = 9 om een steekproefvariantie van 277 te verkrijgen.
Chi-Square distributie
We gaan nu naar onze chikwadraatverdeling. Aangezien we 10 gegevenswaarden hebben, hebben we er 9 graden van vrijheid. Aangezien we de middelste 95% van onze distributie willen, hebben we 2,5% nodig in elk van de twee staarten. We raadplegen een chi-square-tabel of software en zien dat de tabelwaarden van 2.7004 en 19.023 95% van het verspreidingsgebied beslaan. Deze nummers zijn EEN en Brespectievelijk.
We hebben nu alles wat we nodig hebben en we zijn klaar om ons betrouwbaarheidsinterval samen te stellen. De formule voor het linker eindpunt is [(n - 1)s2] / B. Dit betekent dat ons linker eindpunt is:
(9 x 277) / 19,023 = 133
Het juiste eindpunt wordt gevonden door te vervangen B met EEN:
(9 x 277) / 2.7004 = 923
En dus zijn we 95% zeker dat de populatievariantie tussen 133 en 923 ligt.
Standaarddeviatie van de populatie
Aangezien de standaarddeviatie de vierkantswortel van de variantie is, kan deze methode natuurlijk worden gebruikt om een betrouwbaarheidsinterval te construeren voor de populatie-standaarddeviatie. Het enige dat we zouden moeten doen, is vierkantswortels van de eindpunten nemen. Het resultaat zou een betrouwbaarheidsinterval van 95% zijn voor de standaardafwijking.