Het aantal graden van vrijheid voor onafhankelijkheid van twee categorische variabelen wordt gegeven door een eenvoudige formule: (r - 1)(c - 1). Hier r is het aantal rijen en c is het aantal kolommen in de bidirectionele tafel van de waarden van de categorische variabele. Lees verder voor meer informatie over dit onderwerp en om te begrijpen waarom deze formule het juiste nummer geeft.
Achtergrond
Een stap in het proces van velen hypothesetests is de bepaling van het aantal vrijheidsgraden. Dit nummer is belangrijk omdat voor kansverdelingen die een familie van verdelingen omvatten, zoals de chikwadraatverdeling, het aantal graden van vrijheid geeft de exacte verdeling van de familie aan die we in onze hypothese zouden moeten gebruiken test.
Vrijheidsgraden vertegenwoordigen het aantal vrije keuzes dat we in een bepaalde situatie kunnen maken. Een van de hypothesetests waarvoor we de vrijheidsgraden moeten bepalen, is de chi-vierkant test voor onafhankelijkheid voor twee categorische variabelen.
Tests voor onafhankelijkheid en bidirectionele tabellen
De chikwadraattoets voor onafhankelijkheid vereist dat we een tweezijdige tafel construeren, ook wel een kruistabel genoemd. Dit type tafel heeft r rijen en c kolommen, die de r niveaus van één categorische variabele en de c niveaus van de andere categorische variabele. Dus als we de rij en kolom waarin we totalen registreren niet tellen, zijn er in totaal rc cellen in de bidirectionele tabel.
De chi-kwadraattoets voor onafhankelijkheid stelt ons in staat de hypothese te testen dat de categorisch variabelen zijn onafhankelijk van elkaar. Zoals we hierboven vermeldden, de r rijen en c kolommen in de tabel geven ons (r - 1)(c - 1) vrijheidsgraden. Maar het is misschien niet meteen duidelijk waarom dit het juiste aantal vrijheidsgraden is.
Het aantal vrijheidsgraden
Om te zien waarom (r - 1)(c - 1) het juiste nummer is, zullen we deze situatie nader onderzoeken. Stel dat we de marginale totalen kennen voor elk van de niveaus van onze categorische variabelen. Met andere woorden, we kennen het totaal voor elke rij en het totaal voor elke kolom. Voor de eerste rij zijn er c kolommen in onze tabel, dus er zijn c cellen. Zodra we de waarden van alle cellen op één na kennen, is het, omdat we het totaal van alle cellen kennen, een eenvoudig algebraprobleem om de waarde van de resterende cel te bepalen. Als we deze cellen van onze tafel invulden, konden we binnenkomen c - 1 vrij, maar dan wordt de resterende cel bepaald door het totaal van de rij. Zo zijn er c - 1 vrijheidsgraden voor de eerste rij.
We gaan op deze manier verder voor de volgende rij, en die zijn er weer c - 1 vrijheidsgraden. Dit proces gaat door totdat we bij de voorlaatste rij komen. Elk van de rijen draagt bij, behalve de laatste c - 1 vrijheidsgraden voor het totaal. Tegen de tijd dat we alle behalve de laatste rij hebben, kunnen we, omdat we de kolomsom kennen, alle vermeldingen van de laatste rij bepalen. Dit geeft ons r - 1 rijen met c - 1 vrijheidsgraden in elk van deze, voor een totaal van (r - 1)(c - 1) vrijheidsgraden.
Voorbeeld
We zien dit met het volgende voorbeeld. Stel dat we een tweewegtabel hebben met twee categorische variabelen. De ene variabele heeft drie niveaus en de andere twee. Stel verder dat we de rij- en kolomtotalen voor deze tabel kennen:
Niveau A | Niveau B | Totaal | |
Niveau 1 | 100 | ||
Level 2 | 200 | ||
Niveau 3 | 300 | ||
Totaal | 200 | 400 | 600 |
De formule voorspelt dat er (3-1) (2-1) = 2 vrijheidsgraden zijn. We zien dit als volgt. Stel dat we de cel linksboven invullen met het nummer 80. Dit bepaalt automatisch de hele eerste rij items:
Niveau A | Niveau B | Totaal | |
Niveau 1 | 80 | 20 | 100 |
Level 2 | 200 | ||
Niveau 3 | 300 | ||
Totaal | 200 | 400 | 600 |
Als we nu weten dat het eerste item in de tweede rij 50 is, wordt de rest van de tabel ingevuld, omdat we het totaal van elke rij en kolom weten:
Niveau A | Niveau B | Totaal | |
Niveau 1 | 80 | 20 | 100 |
Level 2 | 50 | 150 | 200 |
Niveau 3 | 70 | 230 | 300 |
Totaal | 200 | 400 | 600 |
De tafel is helemaal ingevuld, maar we hadden maar twee vrije keuzes. Zodra deze waarden bekend waren, werd de rest van de tabel volledig bepaald.
Hoewel we doorgaans niet hoeven te weten waarom er zoveel vrijheidsgraden zijn, is het goed om te weten dat we het concept van vrijheidsgraden eigenlijk alleen toepassen op een nieuwe situatie.