Uitschieters in statistieken bepalen

Uitbijters zijn gegevenswaarden die sterk verschillen van de meerderheid van een set gegevens. Deze waarden vallen buiten een algemene trend die in de gegevens aanwezig is. Een zorgvuldig onderzoek van een set gegevens om uitschieters te zoeken, levert enige problemen op. Hoewel het gemakkelijk te zien is, mogelijk door het gebruik van een stemplot, dat sommige waarden verschillen van de rest van de gegevens, in hoeverre moet de waarde als een uitbijter worden beschouwd? We zullen kijken naar een specifieke meting die ons een objectieve standaard zal geven van wat een uitbijter is.

Interkwartielbereik

De interkwartielbereik is wat we kunnen gebruiken om te bepalen of een extreme waarde inderdaad een uitbijter is. Het interkwartielbereik is gebaseerd op een deel van de samenvatting met vijf cijfers van een dataset, namelijk de eerste kwartiel en het derde kwartiel. De berekening van het interkwartielbereik omvat een enkele rekenkundige bewerking. Alles wat we moeten doen om het interkwartielbereik te vinden, is het eerste kwartiel van het derde kwartiel af te trekken. Het resulterende verschil vertelt ons hoe verspreid de middelste helft van onze gegevens is.

instagram viewer

Uitschieters bepalen

Door het interkwartielbereik (IQR) met 1,5 te vermenigvuldigen, kunnen we bepalen of een bepaalde waarde een uitbijter is. Als we 1,5 x IQR aftrekken van het eerste kwartiel, worden gegevenswaarden die lager zijn dan dit aantal beschouwd als uitschieters. Evenzo, als we 1,5 x IQR toevoegen aan het derde kwartiel, worden alle gegevenswaarden die groter zijn dan dit aantal, beschouwd als uitbijters.

Sterke uitschieters

Sommige uitschieters vertonen een extreme afwijking van de rest van een dataset. In deze gevallen kunnen we de bovenstaande stappen nemen, waarbij we alleen het aantal veranderen waarmee we de IQR vermenigvuldigen, en een bepaald type uitbijter definiëren. Als we 3.0 x IQR aftrekken van het eerste kwartiel, wordt elk punt onder dit getal een sterke uitbijter genoemd. Op dezelfde manier stelt de toevoeging van 3.0 x IQR aan het derde kwartiel ons in staat sterke uitschieters te definiëren door te kijken naar punten die groter zijn dan dit aantal.

Zwakke uitbijters

Naast sterke uitbijters is er nog een categorie voor uitbijters. Als een gegevenswaarde een uitbijter is, maar geen sterke uitbijter, dan zeggen we dat de waarde een zwakke uitbijter is. We zullen deze concepten bekijken door enkele voorbeelden te verkennen.

voorbeeld 1

Stel eerst dat we de dataset {1, 2, 2, 3, 3, 4, 5, 5, 9} hebben. Het nummer 9 ziet er zeker uit alsof het een uitbijter kan zijn. Het is veel groter dan enige andere waarde uit de rest van de set. Om objectief te bepalen of 9 een uitbijter is, gebruiken we de bovenstaande methoden. Het eerste kwartiel is 2 en het derde kwartiel is 5, wat betekent dat het interkwartielbereik 3 is. We vermenigvuldigen het interkwartielbereik met 1,5, waarbij we 4,5 verkrijgen, en voegen dit getal toe aan het derde kwartiel. Het resultaat, 9,5, is groter dan al onze gegevenswaarden. Daarom zijn er geen uitschieters.

Voorbeeld 2

Nu kijken we naar dezelfde dataset als voorheen, behalve dat de grootste waarde 10 is in plaats van 9: {1, 2, 2, 3, 3, 4, 5, 5, 10}. Het bereik van het eerste kwartiel, het derde kwartiel en het interkwartiel zijn identiek aan voorbeeld 1. Als we 1,5 x IQR = 4,5 aan het derde kwartiel toevoegen, is de som 9,5. Aangezien 10 groter is dan 9,5, wordt het als een uitbijter beschouwd.

Is 10 een sterke of zwakke uitbijter? Hiervoor moeten we kijken naar 3 x IQR = 9. Als we 9 optellen bij het derde kwartiel, krijgen we een som van 14. Aangezien 10 niet groter is dan 14, is het geen sterke uitbijter. We concluderen dus dat 10 een zwakke uitbijter is.

Redenen om uitbijters te identificeren

We moeten altijd uitkijken naar uitbijters. Soms worden ze veroorzaakt door een fout. Andere keren wijzen uitschieters op de aanwezigheid van een voorheen onbekend fenomeen. Een andere reden dat we ijverig moeten zijn bij het controleren op uitbijters, is vanwege al het beschrijvende statistieken die gevoelig zijn voor uitbijters. De betekenis, standaardafwijking en correlatiecoëfficiënt voor gepaarde gegevens zijn slechts een paar van dit soort statistieken.

instagram story viewer