Hoe de binnen- en buitenomheiningen te vinden

Een kenmerk van een dataset die belangrijk is om te bepalen, is of het uitschieters bevat. Uitschieters worden intuïtief gezien als waarden in onze gegevensset die sterk verschillen van de meerderheid van de rest van de gegevens. Dit begrip van uitbijters is natuurlijk dubbelzinnig. Om als uitbijter te worden beschouwd, hoeveel moet de waarde afwijken van de rest van de gegevens? Zal wat een onderzoeker een uitbijter noemt, overeenkomen met die van een andere? Om enige consistentie en een kwantitatieve maat te bieden voor het bepalen van uitbijters, gebruiken we binnen- en buitenomheiningen.

Om de binnen- en buitenhekken van een set gegevens te vinden, hebben we eerst een paar andere nodig beschrijvende statistieken. We beginnen met het berekenen van kwartielen. Dit zal leiden tot het interkwartielbereik. Eindelijk, met deze berekeningen achter de rug, kunnen we de binnen- en buitenomheiningen bepalen.

Kwartielen

De eerste en derde kwartielen maken deel uit van de samenvatting van vijf cijfers

instagram viewer
van elke set kwantitatieve gegevens. We beginnen met het vinden van de mediaan of het midden van de gegevens nadat alle waarden in oplopende volgorde zijn vermeld. De waarden lager dan de mediaan komen overeen met ongeveer de helft van de gegevens. We vinden de mediaan van deze helft van de dataset en dit is het eerste kwartiel.

Op een vergelijkbare manier beschouwen we nu de bovenste helft van de dataset. Als we de mediaan voor deze helft van de gegevens vinden, hebben we het derde kwartiel. Deze kwartielen ontlenen hun naam aan het feit dat ze de dataset in vier gelijke delen of kwartalen hebben opgesplitst. Met andere woorden, ongeveer 25% van alle gegevenswaarden is minder dan het eerste kwartiel. Op een vergelijkbare manier is ongeveer 75% van de gegevenswaarden kleiner dan het derde kwartiel.

Interkwartielbereik

We moeten de volgende vinden interkwartielbereik (IQR). Dit is gemakkelijker te berekenen dan het eerste kwartiel q1 en het derde kwartiel q3. Alles wat we moeten doen is het verschil tussen deze twee kwartielen nemen. Dit geeft ons de formule:

IQR = Q3 - Q1

De IQR vertelt ons hoe verspreid de middelste helft van onze dataset is.

Vind de Inner Fences

We kunnen nu de innerlijke hekken vinden. We beginnen met de IQR en vermenigvuldigen dit aantal met 1,5. Dit getal trekken we vervolgens af van het eerste kwartiel. Dit nummer voegen we ook toe aan het derde kwartiel. Deze twee cijfers vormen ons innerlijke hek.

Vind de buitenste hekken

Voor de buitenste hekken beginnen we met de IQR en vermenigvuldigen we dit aantal met 3. We trekken dit getal vervolgens af van het eerste kwartiel en voegen het toe aan het derde kwartiel. Deze twee cijfers zijn onze buitenste hekken.

Uitschieters detecteren

De detectie van uitschieters wordt nu net zo eenvoudig als bepalen waar de gegevenswaarden liggen met betrekking tot onze binnen- en buitenomheiningen. Als een enkele gegevenswaarde extremer is dan een van onze buitenste hekken, dan is dit een uitbijter en wordt deze soms een sterke uitbijter genoemd. Als onze gegevenswaarde tussen een overeenkomstig binnen- en buitenhek ligt, is deze waarde een vermoedelijke uitbijter of een milde uitbijter. We zullen zien hoe dit werkt met het onderstaande voorbeeld.

Voorbeeld

Stel dat we het eerste en derde kwartiel van onze gegevens hebben berekend en deze waarden hebben gevonden op respectievelijk 50 en 60. Het interkwartielbereik IQR = 60 - 50 = 10. Vervolgens zien we dat 1,5 x IQR = 15. Dit betekent dat de binnenomheiningen 50 - 15 = 35 en 60 + 15 = 75 zijn. Dit is 1,5 x IQR minder dan het eerste kwartiel en meer dan het derde kwartiel.

We berekenen nu 3 x IQR en zien dat dit 3 x 10 = 30 is. De buitenste hekken zijn 3 x IQR extremer dan het eerste en derde kwartiel. Dit betekent dat de buitenste hekken 50 - 30 = 20 en 60 + 30 = 90 zijn.

Alle gegevenswaarden die kleiner zijn dan 20 of groter dan 90, worden als uitschieters beschouwd. Alle gegevenswaarden tussen 29 en 35 of tussen 75 en 90 zijn vermoedelijke uitschieters.

instagram story viewer