De looptest voor willekeurige reeksen

Gezien een opeenvolging van gegevens, een vraag die we ons misschien kunnen afvragen is of de volgorde is opgetreden door toevalsverschijnselen of dat de gegevens niet willekeurig zijn. Willekeurigheid is moeilijk te identificeren, omdat het erg moeilijk is om simpelweg naar gegevens te kijken en te bepalen of ze al dan niet alleen door toeval zijn geproduceerd. Een methode die kan worden gebruikt om te bepalen of een reeks echt toevallig is opgetreden, wordt de looptest genoemd.

De looptest is een test van betekenis of hypothesetest. De procedure voor deze test is gebaseerd op een run of een sequentie van gegevens met een bepaald kenmerk. Om te begrijpen hoe de looptest werkt, moeten we eerst het concept van een run onderzoeken.

Gegevensreeksen

We beginnen met een voorbeeld van runs te bekijken. Beschouw de volgende reeks willekeurige cijfers:

6 2 7 0 0 1 7 3 0 5 0 8 4 6 8 7 0 6 5 5

Een manier om deze cijfers te classificeren is om ze in twee categorieën te splitsen, ofwel zelfs (inclusief de cijfers 0, 2, 4, 6 en 8) of oneven (inclusief de cijfers 1, 3, 5, 7 en 9). We zullen de volgorde van willekeurige cijfers bekijken en de even getallen aanduiden als E en oneven getallen als O:

instagram viewer

E E O E E O O E O E E E E E E O E E O O

De runs zijn gemakkelijker te zien als we dit herschrijven zodat alle Os samen zijn en alle Es samen zijn:

EE O EE OO E O EEEEE O EE OO

We tellen het aantal blokken met even of oneven nummers en zien dat er in totaal tien runs zijn voor de data. Vier runs hebben lengte één, vijf hebben lengte twee en één heeft lengte vijf

Voorwaarden

Met elk test van betekenis, is het belangrijk om te weten welke voorwaarden nodig zijn om de test uit te voeren. Voor de looptest kunnen we elke gegevenswaarde uit de steekproef in twee categorieën indelen. We tellen het totale aantal runs ten opzichte van het aantal van de gegevenswaarden die in elke categorie vallen.

De test zal een zijn dubbelzijdige test. De reden hiervoor is dat te weinig runs betekenen dat er waarschijnlijk niet genoeg variatie is en het aantal runs dat zou optreden vanuit een willekeurig proces. Te veel runs zullen resulteren wanneer een proces te vaak tussen de categorieën wisselt om bij toeval te worden beschreven.

Hypothesen en P-waarden

Elke belangrijke test heeft een null en een alternatieve hypothese. Voor de looptest is de nulhypothese dat de reeks een willekeurige reeks is. De alternatieve hypothese is dat de volgorde van steekproefgegevens niet willekeurig is.

Statistische software kan de p-waarde dat komt overeen met een bepaalde teststatistiek. Er zijn ook tabellen die op een bepaald moment kritische cijfers geven mate van belang voor het totale aantal runs.

Voert testvoorbeeld uit

We zullen het volgende voorbeeld doornemen om te zien hoe de looptest werkt. Stel dat een student bij een opdracht wordt gevraagd om 16 keer een munt op te draaien en de volgorde van de koppen en staarten te noteren. Als we eindigen met deze dataset:

H T H H H T T H T T H T H T H H

We kunnen ons afvragen of de student zijn huiswerk daadwerkelijk heeft gemaakt, of heeft hij vals gespeeld en een reeks H en T opgeschreven die er willekeurig uitzien? De looptest kan ons helpen. Aan de aannames wordt voldaan voor de looptest, aangezien de gegevens in twee groepen kunnen worden ingedeeld, als een kop of een staart. We gaan door door het aantal runs te tellen. Bij hergroepering zien we het volgende:

H T HHH TT H TT H T H T HH

Er zijn tien runs voor onze gegevens met zeven staarten en negen koppen.

De nulhypothese is dat de gegevens willekeurig zijn. Het alternatief is dat het niet willekeurig is. Voor een significantieniveau van alpha gelijk aan 0,05, zien we door de juiste tabel te raadplegen dat we de nulhypothese verwerpen wanneer het aantal runs kleiner is dan 4 of groter dan 16. Aangezien onze gegevens tien runs bevatten, hebben wij niet afwijzen de nulhypothese H0.

Normale benadering

De looptest is een handig hulpmiddel om te bepalen of een reeks al dan niet willekeurig is. Voor een grote dataset is het soms mogelijk om een ​​normale benadering te gebruiken. Deze normale benadering vereist dat we het aantal elementen in elke categorie gebruiken en vervolgens de gemiddelde en standaarddeviatie van de juiste berekenen normale verdeling.

instagram story viewer