Vertrouwensintervallen zijn een onderdeel van inferentiële statistieken. Het basisidee achter dit onderwerp is het schatten van de waarde van een onbekende populatie parameter door een statistische steekproef te gebruiken. We kunnen niet alleen de waarde van een parameter schatten, maar we kunnen ook onze methoden aanpassen om het verschil tussen twee gerelateerde parameters te schatten. We willen bijvoorbeeld het verschil vinden in het percentage van de mannelijke stemgerechtigde Amerikaanse bevolking dat een bepaald stuk wetgeving steunt in vergelijking met de vrouwelijke stemgerechtigde bevolking.
We zullen zien hoe we dit type berekening kunnen uitvoeren door een betrouwbaarheidsinterval te construeren voor het verschil van twee populaties. In het proces zullen we een deel van de theorie achter deze berekening onderzoeken. We zullen enkele overeenkomsten zien in hoe we een construeren betrouwbaarheidsinterval voor een enkel bevolkingsaandeel evenals een betrouwbaarheidsinterval voor het verschil van twee populatiegemiddelden.
Algemeenheden
Laten we, voordat we naar de specifieke formule gaan kijken die we zullen gebruiken, eerst kijken naar het algemene kader waarin dit type betrouwbaarheidsinterval past. De vorm van het type betrouwbaarheidsinterval dat we zullen bekijken, wordt gegeven door de volgende formule:
Schatting +/- foutmarge
Veel betrouwbaarheidsintervallen zijn van dit type. Er zijn twee getallen die we moeten berekenen. De eerste van deze waarden is de schatting voor de parameter. De tweede waarde is de foutmarge. Deze foutmarge verklaart het feit dat we een schatting hebben. Het betrouwbaarheidsinterval biedt ons een bereik van mogelijke waarden voor onze onbekende parameter.
Voorwaarden
We moeten ervoor zorgen dat aan alle voorwaarden is voldaan voordat we een berekening uitvoeren. Om een betrouwbaarheidsinterval te vinden voor het verschil tussen twee bevolkingsverhoudingen, moeten we ervoor zorgen dat het volgende geldt:
- We hebben twee eenvoudige steekproeven van grote populaties. "Groot" betekent hier dat de populatie minstens 20 keer groter is dan de steekproefgrootte. De steekproefgroottes worden aangegeven met n1 en n2.
- Onze individuen zijn onafhankelijk van elkaar gekozen.
- Er zijn minstens tien successen en tien mislukkingen in elk van onze voorbeelden.
Als niet is voldaan aan het laatste item in de lijst, kan dit een oplossing bieden. We kunnen de wijzigen plus-vier betrouwbaarheidsinterval constructie en verkrijgen robuuste resultaten. Naarmate we verder gaan, gaan we ervan uit dat aan alle bovenstaande voorwaarden is voldaan.
Monsters en populatie-verhoudingen
Nu zijn we klaar om ons betrouwbaarheidsinterval te construeren. We beginnen met de schatting voor het verschil tussen onze populaties. Beide populatie-verhoudingen worden geschat door een steekproefverhouding. Deze steekproefverhoudingen zijn statistieken die worden gevonden door het aantal successen in elke steekproef te delen en vervolgens te delen door de respectieve steekproefgrootte.
Het eerste deel van de bevolking wordt aangegeven met p1. Als het aantal successen in onze steekproef uit deze populatie is k1, dan hebben we een steekproefverhouding van k1 / n1.
We duiden deze statistiek aan met p̂1. We lezen dit symbool als "p1-hat "omdat het lijkt op het symbool p1 met een hoed op de top.
Op een vergelijkbare manier kunnen we een steekproefverhouding uit onze tweede populatie berekenen. De parameter van deze populatie is p2. Als het aantal successen in onze steekproef uit deze populatie is k2, en onze steekproefverhouding is p̂2 = k2 / n2.
Deze twee statistieken worden het eerste deel van ons betrouwbaarheidsinterval. De schatting van p1 is p̂1. De schatting van p2 is p̂2. Dus de schatting voor het verschil p1 - p2 is p̂1 - p̂2.
Steekproefverdeling van het verschil in steekproefverhoudingen
Vervolgens moeten we de formule voor de foutmarge verkrijgen. Om dit te doen zullen we eerst de bemonstering distributie van p̂1 . Dit is een binomiale verdeling met kans op succes p1 en n1 proeven. Het gemiddelde van deze verdeling is de verhouding p1. De standaarddeviatie van dit type willekeurige variabele heeft een variantie van p1 (1 - p1 )/n1.
De steekproefverdeling van p̂2 is vergelijkbaar met die van p̂1 . Verander eenvoudig alle indices van 1 in 2 en we hebben een binomiale verdeling met gemiddelde van p2 en variantie van p2 (1 - p2 )/n2.
We hebben nu een paar resultaten van wiskundige statistieken nodig om de steekproefverdeling van p̂ te bepalen1 - p̂2. Het gemiddelde van deze verdeling is p1 - p2. Vanwege het feit dat de variaties bij elkaar optellen, zien we dat de variantie van de steekproefverdeling is p1 (1 - p1 )/n1 + p2 (1 - p2 )/n2. De standaarddeviatie van de verdeling is de vierkantswortel van deze formule.
Er zijn een aantal aanpassingen die we moeten maken. De eerste is dat de formule voor de standaardafwijking van p̂1 - p̂2 gebruikt de onbekende parameters van p1 en p2. Als we deze waarden echt kenden, zou het natuurlijk helemaal geen interessant statistisch probleem zijn. We hoeven het verschil niet te schatten p1 en p2.. In plaats daarvan kunnen we eenvoudig het exacte verschil berekenen.
Dit probleem kan worden opgelost door een standaardfout te berekenen in plaats van een standaardafwijking. Het enige dat we moeten doen, is de populatieverhoudingen te vervangen door steekproefverhoudingen. Standaardfouten worden berekend op basis van statistieken in plaats van parameters. Een standaardfout is nuttig omdat hiermee een standaardafwijking wordt geschat. Wat dit voor ons betekent, is dat we niet langer de waarde van de parameters hoeven te weten p1 en p2. .Omdat deze steekproefverhoudingen bekend zijn, wordt de standaardfout gegeven door de vierkantswortel van de volgende uitdrukking:
p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.
Het tweede punt dat we moeten behandelen, is de specifieke vorm van onze steekproefverdeling. Het blijkt dat we een normale verdeling kunnen gebruiken om de steekproefverdeling van p̂ te benaderen1 - p̂2. De reden hiervoor is enigszins technisch, maar wordt in de volgende paragraaf uiteengezet.
Beide p̂1 en P2 een steekproefverdeling hebben die binomiaal is. Elk van deze binomiale verdelingen kan redelijk goed worden benaderd door een normale verdeling. Dus p̂1 - p̂2 is een willekeurige variabele. Het wordt gevormd als een lineaire combinatie van twee willekeurige variabelen. Elk van deze wordt benaderd door een normale verdeling. Daarom is de steekproefverdeling van p̂1 - p̂2 wordt ook normaal verdeeld.
Formule voor betrouwbaarheidsinterval
We hebben nu alles wat we nodig hebben om ons betrouwbaarheidsinterval samen te stellen. De schatting is (p̂1 - p̂2) en de foutmarge is z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5. De waarde waarvoor we invoeren z * wordt bepaald door het niveau van vertrouwen C. Veelgebruikte waarden voor z * zijn 1.645 voor 90% vertrouwen en 1,96 voor 95% vertrouwen. Deze waarden voor z * duiden het gedeelte van de standaard normale verdeling precies aan C procent van de verdeling is tussen -z * en z *.
De volgende formule geeft ons een betrouwbaarheidsinterval voor het verschil tussen twee populatie-verhoudingen:
(p̂1 - p̂2) +/- z * [p̂1 (1 - p̂1 )/n1 + p̂2 (1 - p̂2 )/n2.]0.5