ANOVA (analyse van variantie)

Als we een groep bestuderen, vergelijken we vaak twee populaties. Afhankelijk van de parameter van deze groep waarin we geïnteresseerd zijn en de omstandigheden waarmee we te maken hebben, zijn er verschillende technieken beschikbaar. Statistisch gevolgtrekking procedures die betrekking hebben op de vergelijking van twee populaties kunnen doorgaans niet worden toegepast op drie of meer populaties. Om meer dan twee populaties tegelijk te bestuderen, hebben we verschillende soorten statistische tools nodig. Variantie-analyseof ANOVA, is een techniek van statistische interferentie waarmee we met verschillende populaties kunnen omgaan.

Vergelijking van middelen

Om te zien welke problemen zich voordoen en waarom we ANOVA nodig hebben, zullen we een voorbeeld overwegen. Stel dat we proberen te bepalen of de gemeen gewichten van groen, rood, blauw en oranje M&M snoepjes verschillen van elkaar. We zullen de gemiddelde gewichten voor elk van deze populaties vermelden, μ1, μ2, μ3 μ4 en respectievelijk. We kunnen de juiste gebruiken

instagram viewer
hypothesetest meerdere keren, en test C (4,2), of zes verschillende nul hypothesen:

  • H0: μ1 = μ2 om te controleren of het gemiddelde gewicht van de populatie rode snoepjes verschilt van het gemiddelde gewicht van de populatie blauwe snoepjes.
  • H0: μ2 = μ3 om te controleren of het gemiddelde gewicht van de populatie van de blauwe snoepjes verschilt van het gemiddelde gewicht van de populatie van de groene snoepjes.
  • H0: μ3 = μ4 om te controleren of het gemiddelde gewicht van de populatie van de groene snoepjes verschilt van het gemiddelde gewicht van de populatie van de oranje snoepjes.
  • H0: μ4 = μ1 om te controleren of het gemiddelde gewicht van de populatie van de oranje snoepjes verschilt van het gemiddelde gewicht van de populatie van de rode snoepjes.
  • H0: μ1 = μ3 om te controleren of het gemiddelde gewicht van de populatie rode snoepjes verschilt van het gemiddelde gewicht van de populatie groene snoepjes.
  • H0: μ2 = μ4 om te controleren of het gemiddelde gewicht van de populatie van de blauwe snoepjes verschilt van het gemiddelde gewicht van de populatie van de oranje snoepjes.

Er zijn veel problemen met dit soort analyse. We zullen er zes hebben p-waarden. Ook al testen we ze elk voor 95% niveau van vertrouwen, ons vertrouwen in het totale proces is minder dan dit omdat de waarschijnlijkheid zich vermenigvuldigt: 0,95 x 0,95 x 0,95 x 0,95 x 0,95 x 0,95 is ongeveer 0,74, of een betrouwbaarheidsniveau van 74%. De kans op een type I-fout is dus toegenomen.

Op een fundamenteler niveau kunnen we deze vier parameters als geheel niet vergelijken door ze twee tegelijk te vergelijken. De gemiddelden van de rode en blauwe M & M's kunnen significant zijn, waarbij het gemiddelde gewicht van rood relatief groter is dan het gemiddelde gewicht van het blauw. Als we echter de gemiddelde gewichten van alle vier de soorten snoep beschouwen, is er mogelijk geen significant verschil.

Analyse van variantie

Om te gaan met situaties waarin we meerdere vergelijkingen moeten maken, gebruiken we ANOVA. Deze test stelt ons in staat om de parameters van verschillende populaties tegelijk te bekijken, zonder in te gaan op enkele van de problemen waarmee we worden geconfronteerd hypothesetests uitvoeren op twee parameters tegelijk.

Om ANOVA uit te voeren met het bovenstaande M & M-voorbeeld, zouden we de nulhypothese H testen01 = μ2 = μ3= μ4. Hierin staat dat er geen verschil is tussen de gemiddelde gewichten van de rode, blauwe en groene M & M's. De alternatieve hypothese is dat die er is enig verschil tussen de gemiddelde gewichten van de rode, blauwe, groene en oranje M & M's. Deze hypothese is eigenlijk een combinatie van verschillende uitspraken Heen:

  • Het gemiddelde gewicht van de populatie van rode snoepjes is niet gelijk aan het gemiddelde gewicht van de populatie van blauwe snoepjes, OF
  • Het gemiddelde gewicht van de populatie blauwe snoepjes is niet gelijk aan het gemiddelde gewicht van de populatie groene snoepjes, OF
  • Het gemiddelde gewicht van de populatie van groene snoepjes is niet gelijk aan het gemiddelde gewicht van de populatie van oranje snoepjes, OF
  • Het gemiddelde gewicht van de populatie van groene snoepjes is niet gelijk aan het gemiddelde gewicht van de populatie van rode snoepjes, OF
  • Het gemiddelde gewicht van de populatie blauwe snoepjes is niet gelijk aan het gemiddelde gewicht van de populatie oranje snoepjes, OR
  • Het gemiddelde gewicht van de populatie blauwe snoepjes is niet gelijk aan het gemiddelde gewicht van de populatie rode snoepjes.

In dit specifieke geval zouden we, om onze p-waarde te verkrijgen, een kansverdeling bekend als de F-verdeling. Berekeningen met de ANOVA F-test kunnen met de hand worden uitgevoerd, maar worden meestal berekend met statistische software.

Meerdere vergelijkingen

Wat ANOVA onderscheidt van andere statistische technieken, is dat het wordt gebruikt om meerdere vergelijkingen te maken. Dit is gebruikelijk in statistieken, omdat we vaak meer dan slechts twee groepen willen vergelijken. Doorgaans suggereert een algemene test dat er een soort verschil is tussen de parameters die we bestuderen. Vervolgens volgen we deze test met een andere analyse om te beslissen welke parameter verschilt.

instagram story viewer