Op een dag tijdens de lunch at een jonge vrouw een grote kom ijs, en een collega-docent kwam naar haar toe en zei: 'Je kunt maar beter voorzichtig zijn, er is een hoge statistischcorrelatie tussen ijs en verdrinking. ' Ze moet hem verward hebben aangekeken, terwijl hij er wat meer uitwerkte. "Dagen met de meeste verkoop van ijs zien ook de meeste mensen verdrinken."
Toen ze mijn ijsje op had, bespraken de twee collega's het feit dat het feit dat de ene variabele statistisch geassocieerd is met de andere, niet betekent dat de ene de oorzaak is van de andere. Soms zit er een variabele verstopt op de achtergrond. In dit geval verbergt de dag van het jaar in de gegevens. Op warme zomerdagen wordt meer ijs verkocht dan besneeuwde winterdagen. Meer mensen zwemmen in de zomer en verdrinken daardoor meer in de zomer dan in de winter.
Pas op voor loerende variabelen
De bovenstaande anekdote is een goed voorbeeld van wat bekend staat als een loerende variabele. Zoals de naam al doet vermoeden, kan een sluimerende variabele ongrijpbaar en moeilijk te detecteren zijn. Als we ontdekken dat twee numerieke gegevenssets sterk gecorreleerd zijn, moeten we ons altijd afvragen: 'Zou er nog iets anders kunnen zijn dat deze relatie veroorzaakt?'
Hieronder volgen voorbeelden van een sterke correlatie veroorzaakt door een sluimerende variabele:
- Het gemiddelde aantal computers per persoon in een land en de gemiddelde levensverwachting van dat land.
- Het aantal brandweerlieden bij een brand en de schade veroorzaakt door de brand.
- De lengte van een basisschoolstudent en zijn of haar leesniveau.
In al deze gevallen is de relatie tussen de variabelen erg sterk. Dit wordt meestal aangegeven met een correlatiecoëfficiënt die een waarde heeft die dicht bij 1 of -1 ligt. Het maakt niet uit hoe dicht deze correlatiecoëfficiënt bij 1 of -1 ligt, deze statistiek kan niet aantonen dat de ene variabele de oorzaak is van de andere variabele.
Detectie van loerende variabelen
Door hun aard zijn loer variabelen moeilijk te detecteren. Een van de mogelijke strategieën is om te onderzoeken wat er in de loop van de tijd met de gegevens gebeurt. Dit kan seizoensgebonden trends onthullen, zoals het ijsvoorbeeld, dat wordt verduisterd wanneer de gegevens worden samengevoegd. Een andere methode is om naar te kijken uitschieters en probeer te bepalen waardoor ze anders zijn dan de andere gegevens. Soms geeft dit een hint van wat er achter de schermen gebeurt. Proactief handelen is de beste manier; stel aannames zorgvuldig op en ontwerp experimenten.
Waarom is het belangrijk?
Stel in het openingsscenario dat een goedbedoeld maar statistisch ongeïnformeerd congreslid voorstelde om al het ijs te verbieden om verdrinking te voorkomen. Een dergelijk wetsvoorstel zou grote delen van de bevolking ongemak bezorgen, verschillende bedrijven tot een faillissement dwingen en duizenden banen schrappen bij het sluiten van de ijsindustrie van het land. Ondanks de beste bedoelingen zou dit wetsvoorstel het aantal verdrinkingsdoden niet verminderen.
Als dat voorbeeld een beetje te vergezocht lijkt, overweeg dan het volgende, wat echt is gebeurd. Aan het begin van de twintigste eeuw merkten artsen op dat sommige baby's op mysterieuze wijze in hun slaap stierven door waargenomen ademhalingsproblemen. Dit werd wiegendood genoemd en staat nu bekend als wiegendood. Een ding dat opviel bij autopsies die werden uitgevoerd bij degenen die stierven aan wiegendood, was een vergrote thymus, een klier in de borst. Uit de correlatie van vergrote thymusklieren bij baby's met wiegendood, veronderstelden artsen dat een abnormaal grote thymus een onjuiste ademhaling en de dood veroorzaakte.
De voorgestelde oplossing was om de thymus te krimpen met veel straling, of om de klier volledig te verwijderen. Deze procedures hadden een hoog sterftecijfer en leidden tot nog meer sterfgevallen. Wat triest is, is dat deze operaties niet hadden hoeven worden uitgevoerd. Vervolgonderzoek heeft aangetoond dat deze artsen zich vergisten in hun veronderstellingen en dat de thymus niet verantwoordelijk is voor wiegendood.
Correlatie impliceert geen oorzakelijk verband
Het bovenstaande zou ons moeten laten pauzeren wanneer we denken dat statistisch bewijs wordt gebruikt om zaken als medische regimes, wetgeving en educatieve voorstellen te rechtvaardigen. Het is belangrijk dat er goed werk wordt verricht bij het interpreteren van gegevens, vooral als resultaten met correlatie het leven van anderen zullen beïnvloeden.
Als iemand zegt: 'Studies tonen aan dat A een oorzaak is van B en sommige statistieken ondersteunen het', wees er klaar voor antwoord: "correlatie impliceert geen oorzakelijk verband." Wees altijd op uw hoede voor wat er onder de loer ligt gegevens.