Wat is robuustheid in statistieken?

In statistieken, de term robuust of robuustheid verwijst naar de sterkte van een statistisch model, tests en procedures volgens de specifieke voorwaarden van de statistische analyse die een studie hoopt te bereiken. Aangezien aan deze voorwaarden van een studie is voldaan, kunnen de modellen door middel van wiskundige bewijzen worden geverifieerd.

Veel modellen zijn gebaseerd op ideale situaties die niet bestaan ​​bij het werken met gegevens uit de echte wereld, en als gevolg daarvan kan het model correcte resultaten opleveren, zelfs als niet precies aan de voorwaarden wordt voldaan.

Robuuste statistieken zijn daarom alle statistieken die goede prestaties opleveren wanneer gegevens uit een breed scala van kansverdelingen die grotendeels niet worden beïnvloed door uitschieters of kleine afwijkingen van modelaannames in een gegeven dataset. Met andere woorden, een robuuste statistiek is bestand tegen fouten in de resultaten.

Een manier om een ​​algemeen aanvaarde robuuste statistische procedure te observeren, hoeft niet verder te kijken dan t-procedures, die hypothesetests gebruiken om de meest nauwkeurige statistische voorspellingen te bepalen.

instagram viewer

T-procedures naleven

Voor een voorbeeld van robuustheid zullen we overwegen t-procedures, waaronder de Betrouwbaarheidsinterval voor een populatiegemiddelde met onbekende populatie-standaarddeviatie en hypothesetests over het populatiegemiddelde.

Het gebruik van t-procedures gaat uit van het volgende:

  • De gegevensset waarmee we werken is a eenvoudige willekeurige steekproef van de populatie.
  • De populatie waarvan we een steekproef hebben genomen, is normaal verdeeld.

In de praktijk met praktijkvoorbeelden hebben statistici zelden een populatie die normaal verdeeld is, dus de vraag wordt: 'Hoe robuust zijn onze t-procedures?"

In het algemeen is de voorwaarde dat we een eenvoudige willekeurige steekproef hebben belangrijker dan de voorwaarde die we hebben genomen uit een normaal verdeelde populatie; de reden hiervoor is dat de centrale limietstelling zorgt voor een steekproefverdeling die ongeveer is normaal - hoe groter onze steekproefomvang, hoe dichter de steekproefverdeling van het steekproefgemiddelde is normaal.

Hoe T-procedures functioneren als robuuste statistieken

Dus robuustheid voor t-procedures hangen af ​​van de steekproefomvang en de verdeling van ons monster. Overwegingen hiervoor zijn onder meer:

  • Als de steekproefomvang groot is, wat betekent dat we 40 of meer waarnemingen hebben, dan t-procedures kunnen zelfs worden gebruikt bij verdraaide distributies.
  • Als de steekproefomvang tussen 15 en 40 is, kunnen we gebruiken t-procedures voor elke vormverdeling, tenzij er uitbijters zijn of een hoge mate van scheefheid.
  • Als de steekproefomvang kleiner is dan 15, dan kunnen we gebruiken t- procedures voor gegevens die geen uitbijters hebben, een enkele piek, en bijna symmetrisch zijn.

In de meeste gevallen is robuustheid vastgesteld door technisch werk in wiskundige statistiek, en, gelukkig hoeven we deze geavanceerde wiskundige berekeningen niet per se te doen om goed te kunnen werken gebruik ze; we hoeven alleen te begrijpen wat de algemene richtlijnen zijn voor de robuustheid van onze specifieke statistische methode.

T-procedures functioneren als robuuste statistieken omdat ze doorgaans goede prestaties opleveren voor deze modellen door rekening te houden met de omvang van de steekproef als basis voor de toepassing van de procedure.

instagram story viewer