Een normale verdeling is beter bekend als een belcurve. Dit type curve komt overal voor statistieken en de echte wereld.
Nadat ik bijvoorbeeld een test in een van mijn lessen heb gegeven, is een ding dat ik graag doe, een grafiek maken van alle scores. Ik schrijf meestal 10 puntenbereiken op, zoals 60-69, 70-79 en 80-89, en zet dan een aantekening voor elke testscore in dat bereik. Bijna elke keer dat ik dit doe, komt er een bekende vorm naar voren. Een paar studenten doen het heel goed en enkelen doen het heel slecht. Een aantal scores eindigt rond de gemiddelde score. Verschillende tests kunnen resulteren in verschillende gemiddelden en standaarddeviaties, maar de vorm van de grafiek is bijna altijd hetzelfde. Deze vorm wordt gewoonlijk de belcurve genoemd.
Waarom zou je het een belcurve noemen? De belcurve dankt zijn naam eenvoudigweg aan de vorm die lijkt op die van een bel. Deze curven verschijnen tijdens de studie van statistieken en hun belang kan niet genoeg worden benadrukt.
Wat is een belcurve?
Om technisch te zijn, worden de soorten belcurven die we het belangrijkst vinden in statistieken eigenlijk normaal genoemd kansverdelingen. Voor wat volgt, nemen we aan dat de belcurven waar we het over hebben normale kansverdelingen zijn. Ondanks de naam "belcurve" worden deze curven niet bepaald door hun vorm. In plaats daarvan een intimiderend uiterlijk formule wordt gebruikt als de formele definitie voor belcurven.
Maar we hoeven ons echt niet al te veel zorgen te maken over de formule. De enige twee getallen waar we om geven zijn de gemiddelde en standaarddeviatie. De belcurve voor een gegeven set gegevens heeft het middelpunt op het gemiddelde. Hier bevindt zich het hoogste punt van de bocht of "top van de bel". De standaarddeviatie van een dataset bepaalt hoe gespreid onze belcurve is. Hoe groter de standaarddeviatie, hoe meer spreiding over de curve.
Belangrijke kenmerken van een belcurve
Er zijn verschillende kenmerken van belcurven die belangrijk zijn en deze onderscheiden van andere curven in statistieken:
- Een belcurve heeft één modus, die samenvalt met het gemiddelde en de mediaan. Dit is het midden van de curve waar deze het hoogst is.
- Een belcurve is symmetrisch. Als het bij een gemiddelde lijn langs een verticale lijn zou worden gevouwen, zouden beide helften perfect bij elkaar passen omdat het spiegelbeelden van elkaar zijn.
- Een belcurve volgt de 68-95-99,7-regel, die een handige manier is om geschatte berekeningen uit te voeren:
- Ongeveer 68% van alle gegevens ligt binnen één standaarddeviatie van het gemiddelde.
- Ongeveer 95% van alle gegevens valt binnen twee standaarddeviaties van het gemiddelde.
- Ongeveer 99,7% van de gegevens valt binnen drie standaarddeviaties van het gemiddelde.
Een voorbeeld
Als we weten dat een belcurve onze gegevens modelleert, kunnen we de bovenstaande kenmerken van de belcurve gebruiken om nogal wat te zeggen. Terug naar het testvoorbeeld, stel dat we 100 studenten hebben die een statistiekentest hebben afgelegd met een gemiddelde score van 70 en een standaarddeviatie van 10.
De standaarddeviatie is 10. Trek af en tel 10 op bij het gemiddelde. Dit geeft ons 60 en 80. Volgens de regel 68-95-99,7 zouden we verwachten dat ongeveer 68% van de 100 of 68 studenten tussen de 60 en 80 scoren op de test.
Tweemaal is de standaarddeviatie 20. Als we aftrekken en 20 optellen bij het gemiddelde, hebben we 50 en 90. We verwachten dat ongeveer 95% van de 100 of 95 studenten tussen de 50 en 90 scoren op de test.
Een vergelijkbare berekening leert ons dat effectief iedereen tussen de 40 en 100 scoorde op de test.
Maakt gebruik van de Bell Curve
Er zijn veel toepassingen voor belcurven. Ze zijn belangrijk in statistieken omdat ze een grote verscheidenheid aan gegevens uit de echte wereld modelleren. Zoals hierboven vermeld, zijn testresultaten een plaats waar ze verschijnen. Enkele andere:
- Herhaalde metingen van een apparaat
- Metingen van kenmerken in de biologie
- Toevallige gebeurtenissen zoals het meerdere keren omdraaien van munten
- Hoogte van studenten op een bepaald niveau in een schooldistrict
Wanneer de belcurve niet te gebruiken
Ook al zijn er talloze toepassingen van belcurven, het is niet geschikt om in alle situaties te gebruiken. Sommige statistische gegevenssets, zoals uitval van apparatuur of inkomensverdelingen, hebben verschillende vormen en zijn niet symmetrisch. Andere keren kunnen er twee of meer modi zijn, zoals wanneer meerdere studenten het heel goed doen en verschillende het erg slecht doen bij een toets. Deze toepassingen vereisen het gebruik van andere curven die anders zijn gedefinieerd dan de belcurve. Kennis over hoe de gegevensset in kwestie is verkregen, kan helpen bepalen of een belcurve moet worden gebruikt om de gegevens al dan niet weer te geven.