Histogramklassen: informatie en voorbeelden

click fraud protection

Er is echt geen regel voor hoeveel klassen er moeten zijn. Er zijn een paar dingen die u moet overwegen over het aantal lessen. Als er maar één klasse was, zouden alle gegevens in deze klasse vallen. Ons histogram zou gewoon een enkele rechthoek zijn met de hoogte die wordt gegeven door het aantal elementen in onze gegevensset. Dit zou niet erg nuttig zijn of nuttig histogram.

Aan de andere kant zouden we een veelvoud aan lessen kunnen hebben. Dit zou resulteren in een veelheid aan staven, die waarschijnlijk niet allemaal erg groot zouden zijn. Door dit type histogram te gebruiken, zou het erg moeilijk zijn om onderscheidende kenmerken van de gegevens te bepalen.

Om ons tegen deze twee uitersten te beschermen, hebben we een vuistregel om het aantal klassen voor een histogram te bepalen. Als we een relatief kleine set gegevens hebben, gebruiken we meestal maar ongeveer vijf klassen. Als de dataset relatief groot is, gebruiken we ongeveer 20 klassen.

Nogmaals, ik wil benadrukken dat dit een vuistregel is en geen absoluut statistisch principe. Er kunnen goede redenen zijn om een ​​ander aantal klassen voor gegevens te hanteren. We zullen hieronder een voorbeeld zien.

instagram viewer

Voordat we een paar voorbeelden bekijken, zullen we zien hoe we kunnen bepalen wat de lessen eigenlijk zijn. We beginnen dit proces door het vinden van de bereik van onze gegevens. Met andere woorden, we trekken de laagste gegevenswaarde af van de hoogste gegevenswaarde.

Als de dataset relatief klein is, delen we het bereik door vijf. Het quotiënt is de breedte van de klassen voor ons histogram. We zullen waarschijnlijk wat afronding in dit proces moeten doen, wat betekent dat het totale aantal klassen misschien niet op vijf komt.

Als de dataset relatief groot is, delen we het bereik met 20. Net als voorheen geeft dit deelprobleem ons de breedte van de klassen voor ons histogram. Zoals we eerder zagen, kan onze afronding ook resulteren in iets meer of iets minder dan 20 klassen.

In een van de grote of kleine gegevensverzamelingen laten we de eerste klasse beginnen op een punt dat iets minder is dan de kleinste gegevenswaarde. We moeten dit zo doen dat de eerste datawaarde in de eerste klasse valt. Andere volgende klassen worden bepaald door de breedte die was ingesteld toen we het bereik verdeelden. We weten dat we in de laatste klasse zitten wanneer onze hoogste gegevenswaarde door deze klasse wordt bepaald.

Voor een voorbeeld zullen we een geschikte klassebreedte en klassen bepalen voor de dataset: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3, 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

We zien dat er 27 datapunten in onze set zitten. Dit is een relatief kleine set en daarom delen we het bereik met vijf. Het bereik is 19,2 - 1,1 = 18,1. We delen 18,1 / 5 = 3,62. Dit betekent dat een klassebreedte van 4 geschikt is. Onze kleinste gegevenswaarde is 1,1, dus we beginnen de eerste klasse op een punt lager dan dit. Aangezien onze gegevens uit positieve cijfers bestaan, is het logisch om de eerste klas van 0 naar 4 te laten gaan.

Stel bijvoorbeeld dat er een meerkeuzetoets is met 35 vragen erop en dat 1000 leerlingen op een middelbare school de toets afleggen. We willen een histogram vormen met het aantal studenten dat bepaalde scores op de toets heeft behaald. We zien dat 35/5 = 7 en dat 35/20 = 1,75. Ondanks dat onze vuistregel ons de keuze geeft tussen klassen van breedte 2 of 7 om te gebruiken voor ons histogram, is het misschien beter om klassen van breedte 1 te hebben. Deze lessen komen overeen met elke vraag die een leerling op de toets correct heeft beantwoord. De eerste hiervan zou zijn gecentreerd op 0 en de laatste zou zijn gecentreerd op 35.

instagram story viewer