Er zijn verschillende beschrijvende statistieken. Getallen zoals het gemiddelde, mediaan-, modus, scheefheidkurtosis, standaardafwijking, eerste kwartiel en derde kwartiel, om er maar een paar te noemen, ze vertellen ons allemaal iets over onze gegevens. In plaats van hiernaar te kijken beschrijvende statistieken individueel, soms combineren ze om ons een compleet beeld te geven. Met dit doel voor ogen is de samenvatting met vijf cijfers een handige manier om vijf beschrijvende statistieken te combineren.
Welke vijf nummers?
Het is duidelijk dat er in onze samenvatting vijf cijfers staan, maar welke vijf? De gekozen cijfers zijn bedoeld om ons te helpen het centrum van onze gegevens te kennen, evenals hoe verspreid de gegevenspunten zijn. Met dit in gedachten bestaat de samenvatting met vijf cijfers uit het volgende:
- Het minimum - dit is de kleinste waarde in onze dataset.
- Het eerste kwartiel - dit nummer wordt aangegeven Q1 en 25% van onze gegevens valt onder het eerste kwartiel.
- De mediaan - dit is het midden van de gegevens. 50% van alle gegevens valt onder de mediaan.
- Het derde kwartiel - dit nummer wordt aangegeven Q3 en 75% van onze gegevens valt onder het derde kwartiel.
- Het maximum - dit is de grootste waarde in onze dataset.
De gemiddelde en standaarddeviatie kunnen ook samen worden gebruikt om het midden en de verspreiding van een set gegevens over te brengen. Beide statistieken zijn echter vatbaar voor uitbijters. Het mediaan, eerste kwartiel en derde kwartiel worden niet zo sterk beïnvloed door uitschieters.
Een voorbeeld
Gegeven de volgende reeks gegevens, zullen we de samenvatting met vijf cijfers rapporteren:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7, 8, 11, 12, 15, 15, 15, 17, 17, 18, 20
De dataset bevat in totaal twintig punten. De mediaan is dus het gemiddelde van de tiende en elfde gegevenswaarden of:
(7 + 8)/2 = 7.5.
De mediaan van de onderste helft van de gegevens is het eerste kwartiel. De onderste helft is:
1, 2, 2, 3, 4, 6, 6, 7, 7, 7
Zo rekenen we uitQ1= (4 + 6)/2 = 5.
De mediaan van de bovenste helft van de oorspronkelijke dataset is het derde kwartiel. We moeten de mediaan vinden van:
8, 11, 12, 15, 15, 15, 17, 17, 18, 20
Zo rekenen we uitQ3= (15 + 15)/2 = 15.
We verzamelen alle bovenstaande resultaten samen en rapporteren dat de samenvatting met vijf cijfers voor de bovenstaande gegevensset 1, 5, 7.5, 12, 20 is.
Grafische weergave
Vijf nummeroverzichten kunnen met elkaar worden vergeleken. We zullen zien dat twee sets met vergelijkbare middelen en standaarddeviaties zeer verschillende vijf getalsamenvattingen kunnen hebben. Om eenvoudig twee samenvattingen van vijf cijfers in één oogopslag te vergelijken, kunnen we een gebruiken boxplotof een grafiek met vakjes en snorharen.