Gepaarde gegevens in statistieken, vaak aangeduid als geordende paren, verwijzen naar twee variabelen in de individuen van een populatie die aan elkaar zijn gekoppeld om de correlatie daartussen te bepalen. Om een gegevensset als gepaarde gegevens te kunnen beschouwen, moeten beide gegevenswaarden aan elkaar zijn gekoppeld of aan elkaar zijn gekoppeld en niet afzonderlijk worden beschouwd.
Het idee van gepaarde gegevens staat in contrast met de gebruikelijke associatie van één nummer met elk gegevenspunt zoals in andere kwantitatieve gegevens stelt dat elk afzonderlijk gegevenspunt wordt geassocieerd met twee getallen, wat een grafiek oplevert waarmee statistici de relatie tussen deze variabelen in een populatie kunnen observeren.
Deze methode van gepaarde gegevens wordt gebruikt wanneer een onderzoek hoopt twee variabelen bij individuen van de populatie te vergelijken om een soort conclusie te trekken over de waargenomen correlatie. Bij het observeren van deze gegevenspunten is de volgorde van de paren belangrijk omdat het eerste getal een maat is voor één ding, terwijl het tweede een maat is voor iets heel anders.
Voorbeeld van gepaarde gegevens
Stel dat een leraar het aantal huiswerkopdrachten per student telt om een voorbeeld van gepaarde gegevens te zien opgegeven voor een bepaalde eenheid en koppelt dit aantal vervolgens met het percentage van elke student op de eenheidstest. De paren zijn als volgt:
- Een persoon die 10 opdrachten voltooide, verdiende 95% op zijn of haar test. (10, 95%)
- Een persoon die 5 opdrachten voltooide, verdiende 80% op zijn of haar test. (5, 80%)
- Een persoon die 9 opdrachten voltooide, verdiende 85% op zijn of haar test. (9, 85%)
- Een persoon die 2 opdrachten voltooide, verdiende 50% op zijn of haar test. (2, 50%)
- Een persoon die 5 opdrachten voltooide, verdiende 60% op zijn of haar test. (5, 60%)
- Een persoon die 3 opdrachten voltooide, verdiende 70% op zijn of haar test. (3, 70%)
In elk van deze sets gepaarde gegevens kunnen we zien dat het aantal toewijzingen altijd eerst komt in de bestelde paar terwijl het percentage verdiend op de test op de tweede plaats komt, zoals te zien in de eerste instantie van (10, 95%).
Hoewel een statistische analyse van deze gegevens ook kan worden gebruikt om het gemiddelde aantal te berekenen huiswerkopdrachten voltooid of de gemiddelde testscore, er kunnen nog andere vragen zijn de gegevens. In dit geval wil de leraar weten of er een verband bestaat tussen het aantal huiswerkopdrachten ingeleverd en prestaties op de test, en de leraar zou de gegevens gekoppeld moeten houden om dit te kunnen beantwoorden vraag.
Gepaarde gegevens analyseren
De statistische technieken van correlatie en regressie worden gebruikt om gepaarde gegevens te analyseren waarbij de correlatiecoëfficiënt kwantificeert hoe dicht de gegevens langs een rechte lijn liggen en meet de sterkte van de lineaire relatie.
Regressie wordt daarentegen gebruikt voor verschillende toepassingen, waaronder het bepalen welke lijn het beste bij onze set gegevens past. Deze lijn kan vervolgens op zijn beurt worden gebruikt om te schatten of te voorspellen Y waarden voor waarden van X die geen deel uitmaakten van onze oorspronkelijke gegevensset.
Er is een speciaal type grafiek dat vooral geschikt is voor gepaarde gegevens, een scatterplot. In deze type grafiekrepresenteert één coördinaatas één hoeveelheid van de gepaarde gegevens, terwijl de andere coördinaatas de andere hoeveelheid gepaarde gegevens vertegenwoordigt.
Een spreidingsdiagram voor de bovenstaande gegevens zou hebben dat de x-as het aantal ingeleverde toewijzingen aangeeft, terwijl de y-as de scores op de eenheidstest zou aangeven.