Wat is de interkwartielafstandsregel?

De interkwartielafstandsregel is handig bij het detecteren van de aanwezigheid van uitbijters. Uitschieters zijn individuele waarden die buiten het algemene patroon van een dataset vallen. Deze definitie is enigszins vaag en subjectief, dus het is handig om een ​​regel te hebben wanneer bepalen of een gegevenspunt echt een uitbijter is - dit is waar de interkwartielafstandsregel geldt komt binnen.

Elke set gegevens kan worden beschreven door zijn samenvatting met vijf cijfers. Deze vijf cijfers, die u de informatie geven die u nodig heeft om patronen en uitbijters te vinden, bestaan ​​uit (in oplopende volgorde):

Deze vijf cijfers vertellen een persoon meer over hun gegevens dan wanneer ze in één keer naar de cijfers kijken, of dit in ieder geval veel gemakkelijker maken. Bijvoorbeeld de bereik, wat het minimum is dat van het maximum wordt afgetrokken, is een indicator van hoe verspreid de gegevens in een set zijn (let op: het bereik is zeer gevoelig voor uitbijters - als een uitbijter ook een minimum of maximum is, is het bereik geen nauwkeurige weergave van de breedte van een data set).

instagram viewer

Het bereik zou anders moeilijk te extrapoleren zijn. Vergelijkbaar met het bereik, maar minder gevoelig voor uitbijters, is het interkwartielbereik. De interkwartielbereik wordt op vrijwel dezelfde manier berekend als het bereik. Het enige dat u hoeft te doen, is het eerste kwartiel aftrekken van het derde kwartiel:

Het interkwartielbereik laat zien hoe de gegevens over de mediaan zijn verdeeld. Het is minder vatbaar voor uitschieters dan het bereik en kan daarom nuttiger zijn.

Hoewel het niet vaak door hen wordt beïnvloed, kan het interkwartielbereik worden gebruikt om uitbijters te detecteren. Dit wordt gedaan met behulp van deze stappen:

Onthoud dat de interkwartielregel slechts een vuistregel is die over het algemeen geldt, maar niet voor alle gevallen geldt. Over het algemeen moet u altijd uw uitbijteranalyse volgen door de resulterende uitbijters te bestuderen om te zien of ze logisch zijn. Elke mogelijke uitbijter die wordt verkregen door de interkwartielmethode, moet worden onderzocht in de context van de volledige set gegevens.

Zie de interkwartielafstandsregel aan het werk met een voorbeeld. Stel dat u de volgende set gegevens heeft: 1, 3, 4, 6, 7, 7, 8, 8, 10, 12, 17. De samenvatting met vijf cijfers voor deze dataset is minimaal = 1, eerste kwartiel = 4, mediaan = 7, derde kwartiel = 10 en maximaal = 17. Je kunt naar de gegevens kijken en automatisch zeggen dat 17 een uitbijter is, maar wat zegt de regel voor het interkwartielbereik?

Vermenigvuldig nu uw antwoord met 1,5 om 1,5 x 6 = 9 te krijgen. Negen minder dan het eerste kwartiel is 4 - 9 = -5. Geen enkele data is minder dan dit. Negen meer dan het derde kwartiel is 10 + 9 = 19. Geen gegevens zijn groter dan dit. Ondanks dat de maximale waarde vijf meer is dan het dichtstbijzijnde gegevenspunt, laat de interkwartielafstandsregel zien dat deze waarschijnlijk niet als een uitbijter voor deze gegevensverzameling mag worden beschouwd.