Gegevens opschonen voor gegevensanalyse in de sociologie

Gegevens opschonen is een cruciaal onderdeel van gegevensanalyse, met name wanneer u uw eigen kwantitatieve gegevens verzamelt. Nadat u de gegevens hebt verzameld, moet u deze invoeren in een computerprogramma zoals SAS, SPSS of Excel. Tijdens dit proces, of het nu met de hand wordt gedaan of een computerscanner doet het, er zullen fouten optreden. Hoe zorgvuldig de gegevens ook zijn ingevoerd, fouten zijn onvermijdelijk. Dit kan een onjuiste codering zijn, een onjuiste lezing van geschreven codes, een onjuiste detectie van zwarte markeringen, ontbrekende gegevens, enzovoort. Gegevens opschonen is het proces van het detecteren en corrigeren van deze coderingsfouten.

Er zijn twee soorten gegevens opschonen die moeten worden uitgevoerd voor gegevenssets. Het zijn mogelijke codereiniging en rampenreiniging. Beide zijn cruciaal voor het data-analyseproces, want als je dit negeert, produceer je bijna altijd misleidende onderzoeksresultaten.

Mogelijk reinigen van code

Elke gegeven variabele heeft een gespecificeerde set antwoordkeuzen en codes die overeenkomen met elke antwoordkeuze. Bijvoorbeeld de variabele

instagram viewer

geslacht heeft drie antwoordkeuzes en codes voor elk: 1 voor mannelijk, 2 voor vrouwelijk en 0 voor geen antwoord. Als u een respondent hebt die is gecodeerd als 6 voor deze variabele, is het duidelijk dat er een fout is gemaakt, omdat dit geen mogelijke antwoordcode is. Mogelijk code opschonen is het proces van controleren om te zien of alleen de codes die zijn toegewezen aan de antwoordkeuzes voor elke vraag (mogelijke codes) in het gegevensbestand verschijnen.

Sommige computerprogramma's en statistische softwarepakketten die beschikbaar zijn voor gegevensinvoer controleren op dit soort fouten terwijl de gegevens worden ingevoerd. Hier definieert de gebruiker de mogelijke codes voor elke vraag voordat de gegevens worden ingevoerd. Als er een nummer buiten de vooraf gedefinieerde mogelijkheden wordt ingevoerd, verschijnt er een foutmelding. Als de gebruiker bijvoorbeeld een 6 voor geslacht probeert in te voeren, kan de computer piepen en de code weigeren. Andere computerprogramma's zijn ontworpen om te testen op illegale codes in voltooide gegevensbestanden. Dat wil zeggen, als ze niet werden gecontroleerd tijdens het gegevensinvoerproces zoals zojuist beschreven, zijn er manieren om de bestanden te controleren op coderingsfouten nadat de gegevensinvoer is voltooid.

Als u geen computerprogramma gebruikt dat op codefouten controleert tijdens het gegevensinvoerproces, u kunt enkele fouten opsporen door eenvoudig de distributie van antwoorden op elk item in de gegevens te onderzoeken ingesteld. U kunt bijvoorbeeld een frequentietabel voor de variabele genereren geslacht en hier zou u het nummer 6 zien dat verkeerd werd ingevoerd. U kunt dan naar dat gegeven in het gegevensbestand zoeken en dit corrigeren.

Reiniging van onvoorziene uitgaven

Het tweede type gegevens schoonmaken wordt rampenreiniging genoemd en is iets ingewikkelder dan schoonmaken met mogelijke codes. De logische structuur van de gegevens kan bepaalde grenzen stellen aan de antwoorden van bepaalde respondenten of aan bepaalde variabelen. Contingency cleaning is het proces waarbij wordt gecontroleerd of alleen die gevallen die gegevens over een bepaalde variabele moeten hebben, dergelijke gegevens ook hebben. Stel dat u een vragenlijst hebt waarin u de respondenten vraagt hoe vaak ze zwanger zijn geweest. Alle vrouwelijke respondenten moeten een in de gegevens gecodeerde reactie hebben. Mannetjes moeten echter leeg worden gelaten of moeten een speciale code hebben om niet te antwoorden. Als mannen in de gegevens zijn gecodeerd met bijvoorbeeld 3 zwangerschappen, weet u dat er een fout is en dat deze moet worden gecorrigeerd.

_Referenties

_{Babbie, E. (2001). De praktijk van sociaal onderzoek: 9e editie. Belmont, Californië: Wadsworth Thomson.}