Bell bochten verschijnen in statistieken. Diverse metingen zoals diameters van zaden, lengtes van visvinnen, scores op de SAT en gewichten van individuele vellen van een pak papier vormen allemaal klokkrommen wanneer ze worden getekend. De algemene vorm van al deze curven is hetzelfde. Maar al deze curven zijn verschillend omdat het hoogst onwaarschijnlijk is dat ze allemaal dezelfde gemiddelde of standaarddeviatie delen. Belcurven met grote standaarddeviaties zijn breed en belcurven met kleine standaarddeviaties zijn mager. Klokcurven met grotere middelen worden meer naar rechts verschoven dan die met kleinere middelen.
Een voorbeeld
Om dit wat concreter te maken, laten we doen alsof we de diameters van 500 maïskorrels meten. Vervolgens registreren, analyseren en tekenen we die gegevens. Het blijkt dat de dataset de vorm heeft van een klokkromme en een gemiddelde heeft van 1,2 cm met een standaarddeviatie van 0,4 cm. Stel nu dat we hetzelfde doen met 500 bonen, en we ontdekken dat ze een gemiddelde diameter van 0,8 cm hebben met een standaarddeviatie van 0,04 cm.
De belcurven van beide gegevenssets zijn hierboven uitgezet. De rode curve komt overeen met de maïsgegevens en de groene curve komt overeen met de bonengegevens. Zoals we kunnen zien, zijn de centra en spreads van deze twee curven verschillend.
Dit zijn duidelijk twee verschillende belcurven. Ze zijn anders omdat hun middelen en standaard afwijkingen komen niet overeen. Aangezien alle interessante datasets die we tegenkomen elk positief getal als standaarddeviatie kunnen hebben, en elk getal voor een gemiddelde, krabben we eigenlijk gewoon het oppervlak van een eindeloos aantal belcurven. Dat zijn veel bochten en veel te veel om mee om te gaan. Wat is de oplossing?
Een heel bijzondere belcurve
Een doel van wiskunde is om dingen waar mogelijk te generaliseren. Soms zijn verschillende individuele problemen speciale gevallen van één probleem. Deze situatie met klokkrommen is daar een geweldige illustratie van. In plaats van te werken met een oneindig aantal belcurven, kunnen we ze allemaal relateren aan een enkele curve. Deze speciale belcurve wordt de standaard belcurve of standaard normale verdeling genoemd.
De standaard belcurve heeft een gemiddelde van nul en een standaarddeviatie van één. Elke andere belcurve kan worden vergeleken met deze standaard door middel van een eenvoudige berekening.
Kenmerken van de standaard normale distributie
Alle eigenschappen van elke belcurve gelden voor de standaard normale verdeling.
- De standaard normale verdeling heeft niet alleen een gemiddelde van nul, maar ook een mediaan en een modus van nul. Dit is het midden van de curve.
- De standaard normale verdeling toont spiegelsymmetrie op nul. De helft van de curve is links van nul en de helft van de curve is rechts. Als de curve op een verticale lijn op nul was gevouwen, zouden beide helften perfect op elkaar aansluiten.
- De standaard normale verdeling volgt de 68-95-99,7 regel, wat ons een gemakkelijke manier geeft om het volgende te schatten:
- Ongeveer 68% van alle gegevens ligt tussen -1 en 1.
- Ongeveer 95% van alle gegevens ligt tussen -2 en 2.
- Ongeveer 99,7% van alle gegevens ligt tussen -3 en 3.
Waarom wij erom geven
Op dit punt kunnen we ons afvragen: "Waarom zou u zich druk maken over een standaard belcurve?" Het lijkt misschien een onnodige complicatie, maar de standaard belcurve zal nuttig zijn als we verder gaan in de statistieken.
We zullen ontdekken dat één type probleem in de statistiek ons verplicht om gebieden te vinden onder delen van elke belcurve die we tegenkomen. De belcurve is geen mooie vorm voor gebieden. Het is niet zoals een rechthoek of rechthoekige driehoek die gemakkelijk zijn gebiedsformules. Het vinden van delen van delen van een belcurve kan lastig zijn, zo moeilijk zelfs dat we wat calculus nodig hebben. Als we onze belcurven niet standaardiseren, moeten we elke keer wat rekenwerk doen als we een gebied willen vinden. Als we onze curven standaardiseren, is al het werk van het berekenen van gebieden voor ons gedaan.