Kwantielen begrijpen: definities en toepassingen

Overzichtsstatistieken zoals de mediaan, eerste kwartiel en derde kwartiel zijn positiemetingen. Dit komt omdat deze cijfers aangeven waar een bepaald deel van de gegevensverdeling ligt. De mediaan is bijvoorbeeld de middelste positie van de gegevens die worden onderzocht. De helft van de gegevens heeft waarden kleiner dan de mediaan. Evenzo heeft 25% van de gegevens waarden lager dan het eerste kwartiel en 75% van de gegevens waarden lager dan het derde kwartiel.

Dit concept kan worden gegeneraliseerd. Een manier om dit te doen is om te overwegen percentielen. Het 90e percentiel geeft het punt aan waar 90% van de gegevens waarden hebben die lager zijn dan dit aantal. Meer in het algemeen, de phet percentiel is het getal n waarvoor p% van de gegevens is minder dan n.

Continue willekeurige variabelen

Hoewel de orderstatistieken van mediaan, eerste kwartiel en derde kwartiel doorgaans worden geïntroduceerd in een instelling met een discrete set gegevens, kunnen deze statistieken ook worden gedefinieerd voor een continu willekeurig variabel. Omdat we werken met een continue distributie gebruiken we de integraal. De

instagram viewer

phet percentiel is een getal n zoals dat:

∫_-₶ⁿf ( X ) dx = p/100.

Hier f ( X ) is een kansdichtheidsfunctie. Zo kunnen we elk percentiel verkrijgen dat we voor een willen continu distributie.

Kwantielen

Een verdere generalisatie is dat onze orderstatistieken de verdeling splitsen waarmee we werken. De mediaan splitst de gegevensset in de helft, en de mediaan, of het 50e percentiel van een continue verdeling, splitst de verdeling in termen van oppervlakte. Het eerste kwartiel, mediaan- en het derde kwartiel verdeelt onze gegevens in vier stukken met dezelfde telling in elk. We kunnen de bovenstaande integraal gebruiken om het 25e, 50e en 75e percentiel te verkrijgen en een continue verdeling op te splitsen in vier delen van hetzelfde gebied.

We kunnen deze procedure generaliseren. De vraag waarmee we kunnen beginnen, krijgt een natuurlijk nummer n, hoe kunnen we de verdeling van een variabele in splitsen n even grote stukken? Dit spreekt rechtstreeks naar het idee van kwantielen.

De n kwantielen voor een gegevensset worden ongeveer gevonden door de gegevens in volgorde te rangschikken en deze rangorde vervolgens te splitsen n - 1 punten met gelijke tussenruimte op het interval.

Als we een kansdichtheidsfunctie hebben voor een continue willekeurige variabele, gebruiken we de bovenstaande integraal om de kwantielen te vinden. Voor n kwantielen, we willen:

De eerste die 1 /n van het gebied van de verdeling links ervan.
De tweede die 2 /n van het gebied van de verdeling links ervan.
De rth te hebben r/n van het gebied van de verdeling links ervan.
De laatste om (n - 1)/n van het gebied van de verdeling links ervan.

We zien dat voor elk natuurlijk getal n, de n kwantielen komen overeen met de 100r/nth percentielen, waar r kan elk natuurlijk getal van 1 tot en met zijn n - 1.

Gemeenschappelijke kwantielen

Bepaalde soorten kwantielen worden gewoonlijk voldoende gebruikt om specifieke namen te hebben. Hieronder is een lijst hiervan:

De 2 kwantiel wordt de mediaan genoemd
De 3 kwantielen worden terciles genoemd
De 4 kwantielen worden kwartielen genoemd
De 5 kwantielen worden quintielen genoemd
De 6 kwantielen worden sextielen genoemd
De 7 kwantielen worden septielen genoemd
De 8 kwantielen worden octielen genoemd
De 10 kwantielen worden decielen genoemd
De 12 kwantielen worden duodeciles genoemd
De 20 kwantielen worden vigintiles genoemd
De 100 kwantielen worden percentielen genoemd
De 1000 kwantielen worden permilles genoemd

Natuurlijk bestaan er andere kwantielen naast die in de bovenstaande lijst. Vaak komt de gebruikte specifieke kwantiel overeen met de grootte van het monster uit een continu distributie.

Gebruik van kwantielen

Naast het specificeren van de positie van een set gegevens, zijn kwantielen op andere manieren nuttig. Stel dat we een eenvoudige steekproef van een populatie hebben en dat de verdeling van de populatie onbekend is. Om te helpen bepalen of een model, zoals een normale distributie of Weibull-distributie, geschikt is voor de populatie waaruit we hebben gesampled, kunnen we kijken naar de kwantielen van onze gegevens en het model.

Door de kwantielen uit onze voorbeeldgegevens te vergelijken met de kwantielen van een bepaalde kansverdeling, het resultaat is een verzameling van gepaarde gegevens. We plotten deze gegevens in een spreidingsdiagram, bekend als een kwantiel-kwantiel plot of q-q plot. Als het resulterende spreidingsdiagram ruwweg lineair is, past het model goed bij onze gegevens.