Lineaire regressiestatistieken en -analyse

Lineaire regressie is een statistische techniek die wordt gebruikt om meer te weten te komen over de relatie tussen een onafhankelijke (voorspellende) variabele en een afhankelijke (criterium) variabele. Wanneer u meer dan één onafhankelijke variabele in uw analyse heeft, wordt dit meervoudige lineaire regressie genoemd. Over het algemeen stelt regressie de onderzoeker in staat om de algemene vraag te stellen: "Wat is de beste voorspeller van ???"

Laten we bijvoorbeeld zeggen dat we de oorzaken van bestudeerden zwaarlijvigheid, gemeten door body mass index (BMI). We wilden met name kijken of de volgende variabelen significante voorspellers waren van de BMI van een persoon: aantal fastfood maaltijden gegeten per week, aantal uren televisie bekeken per week, het aantal minuten besteed aan inspanning per week en ouders ' BMI. Lineaire regressie zou een goede methode zijn voor deze analyse.

De regressievergelijking

Wanneer u een regressieanalyse uitvoert met één onafhankelijke variabele, is de regressievergelijking Y = a + b * X waarbij Y de afhankelijke variabele is, X de onafhankelijke variabele is, a de constante is (of onderschept) en b is de

instagram viewer
helling van de regressielijn. Laten we bijvoorbeeld zeggen dat GPA het best wordt voorspeld door de regressievergelijking 1 + 0,02 * IQ. Als een student een IQ van 130 had, zou zijn of haar GPA 3,6 zijn (1 + 0,02 * 130 = 3,6).

Wanneer u een regressieanalyse uitvoert waarin u meer dan één onafhankelijke variabele hebt, is de regressievergelijking Y = a + b1 * X1 + b2 * X2 +... + bp * Xp. Als we bijvoorbeeld meer variabelen in onze GPA-analyse wilden opnemen, zoals motivatiemaatstaven en zelfdiscipline, zouden we dit gebruiken vergelijking.

R-vierkant

R-vierkant, ook bekend als de bepalingscoëfficiënt, is een veel gebruikte statistiek om de modelpassing van een regressievergelijking te evalueren. Dat wil zeggen, hoe goed zijn al uw onafhankelijke variabelen in het voorspellen van uw afhankelijke variabele? De waarde van het R-kwadraat varieert van 0,0 tot 1,0 en kan worden vermenigvuldigd met 100 om een ​​percentage van te verkrijgen variantie uitgelegd. Als we bijvoorbeeld teruggaan naar onze GPA-regressievergelijking met slechts één onafhankelijke variabele (IQ)... Laten we zeggen dat onze R-vierkant voor de vergelijking was 0,4. We kunnen dit zo interpreteren dat 40% van de variantie in GPA wordt verklaard door IQ. Als we dan onze andere twee variabelen (motivatie en zelfdiscipline) toevoegen en het R-kwadraat toeneemt 0.6, dit betekent dat IQ, motivatie en zelfdiscipline samen 60% van de variantie in GPA verklaren scores.

Regressieanalyses worden meestal gedaan met behulp van statistische software, zoals SPSS of SAS en dus wordt het R-vierkant voor u berekend.

De regressiecoëfficiënten interpreteren (b)

De b-coëfficiënten uit de bovenstaande vergelijkingen vertegenwoordigen de sterkte en richting van de relatie tussen de onafhankelijke en afhankelijke variabelen. Als we de GPA- en IQ-vergelijking bekijken, is 1 + 0,02 * 130 = 3,6, 0,02 de regressiecoëfficiënt voor de variabele IQ. Dit vertelt ons dat de richting van de relatie positief is, zodat naarmate het IQ toeneemt, ook GPA toeneemt. Als de vergelijking 1 - 0,02 * 130 = Y was, zou dit betekenen dat de relatie tussen IQ en GPA negatief was.

Veronderstellingen

Er zijn verschillende veronderstellingen over de gegevens waaraan moet worden voldaan om een ​​lineaire regressieanalyse uit te voeren:

  • Lineariteit: Er wordt aangenomen dat de relatie tussen de onafhankelijke en afhankelijke variabelen lineair is. Hoewel deze veronderstelling nooit volledig kan worden bevestigd, kijkend naar a spreidingsplot van uw variabelen kan deze beslissing helpen nemen. Als een kromming in de relatie aanwezig is, kunt u overwegen de variabelen te transformeren of expliciet niet-lineaire componenten toe te staan.
  • Normaliteit: Er wordt aangenomen dat de residuen van uw variabelen zijn normaal verdeeld. Dat wil zeggen dat de fouten in de voorspelling van de waarde van Y (de afhankelijke variabele) worden verdeeld op een manier die de normale curve benadert. Je kunt ernaar kijken histogrammen of normale kansplots om de verdeling van uw variabelen en hun restwaarden te inspecteren.
  • Onafhankelijkheid: Er wordt aangenomen dat de fouten in de voorspelling van de waarde van Y allemaal onafhankelijk van elkaar zijn (niet gecorreleerd).
  • Homoscedasticiteit: Er wordt aangenomen dat de variantie rond de regressielijn hetzelfde is voor alle waarden van de onafhankelijke variabelen.

Bron

  • StatSoft: Elektronisch statistiekboek. (2011). http://www.statsoft.com/textbook/basic-statistics/#Crosstabulationb.