Lineaire regressie is een statistisch hulpmiddel dat bepaalt hoe goed een rechte lijn in een set past gepaarde gegevens. De rechte lijn die het beste bij die gegevens past, wordt de regressielijn met de minste vierkanten genoemd. Deze lijn kan op verschillende manieren worden gebruikt. Een van deze toepassingen is het schatten van de waarde van een responsvariabele voor een gegeven waarde van een verklarende variabele. Gerelateerd aan dit idee is dat van een reststof.
(1, 2), (2, 3), (3, 7), (3, 6), (4, 9), (5, 9)
Om het residu op de punten te berekenen X = 5, we trekken de voorspelde waarde af van onze waargenomen waarde. Sinds de y coördinaat van ons gegevenspunt was 9, dit geeft een restwaarde van 9 - 10 = -1.
Er zijn verschillende toepassingen voor residuen. Eén gebruik is om ons te helpen te bepalen of we een gegevensset hebben met een algemene lineaire trend, of dat we een ander model moeten overwegen. De reden hiervoor is dat residuen helpen bij het versterken van elk niet-lineair patroon in onze gegevens. Wat moeilijk te zien is door naar een spreidingsdiagram te kijken, kan gemakkelijker worden waargenomen door de residuen en een bijbehorend restdiagram te onderzoeken.
Een andere reden om residuen te overwegen is om te controleren of aan de voorwaarden voor inferentie voor lineaire regressie is voldaan. Na verificatie van een lineaire trend (door de residuen te controleren), controleren we ook de verdeling van de residuen. Om regressie-inferentie te kunnen uitvoeren, willen we dat de residuen rond onze regressielijn ongeveer normaal verdeeld zijn. EEN histogram of stemplot van de residuen zal helpen om te verifiëren dat aan deze voorwaarde is voldaan.