Hoofdcomponentenanalyse (PCA) en factoranalyse (FA) zijn statistische technieken die worden gebruikt voor gegevensreductie of structuurdetectie. Deze twee methoden worden toegepast op één set variabelen wanneer de onderzoeker hierin geïnteresseerd is ontdekken welke variabelen in de set coherente subsets vormen die relatief onafhankelijk zijn van één een andere. Variabelen die met elkaar gecorreleerd zijn maar grotendeels onafhankelijk zijn van andere sets variabelen, worden gecombineerd in factoren. Met deze factoren kunt u het aantal variabelen in uw analyse verkleinen door verschillende variabelen in één factor te combineren.
De specifieke doelen van PCA of FA zijn het samenvatten van patronen van correlaties onder waargenomen variabelen, om een groot aantal waargenomen variabelen te verminderen tot een kleiner aantal factoren, om een regressievergelijking voor een onderliggend proces door geobserveerde variabelen te gebruiken, of om een theorie te testen over de aard van onderliggende processen.
Voorbeeld
Stel dat een onderzoeker bijvoorbeeld geïnteresseerd is in het bestuderen van de kenmerken van afgestudeerde studenten. De onderzoeker onderzoekt een groot aantal afgestudeerde studenten op persoonlijkheidskenmerken zoals motivatie, intellectueel vermogen, schoolgeschiedenis, familiegeschiedenis, gezondheid, fysieke kenmerken, enz. Elk van deze gebieden wordt gemeten met verschillende variabelen. De variabelen worden vervolgens afzonderlijk in de analyse ingevoerd en de onderlinge correlaties worden bestudeerd. De analyse onthult correlatiepatronen tussen de variabelen waarvan wordt gedacht dat ze de onderliggende processen weerspiegelen die het gedrag van de afgestudeerde studenten beïnvloeden. Zo worden verschillende variabelen uit de metingen van intellectuele bekwaamheid gecombineerd met enkele variabelen uit de scholastieke geschiedenismaten om een factor te vormen die intelligentie meet. Evenzo kunnen variabelen van de persoonlijkheidsmetingen worden gecombineerd met enkele variabelen van de motivatie en scholastiek geschiedenis meet om een factor te vormen die de mate meet waarin een student het liefst zelfstandig werkt - een onafhankelijkheid factor.
Stappen van analyse van hoofdcomponenten en factoranalyse
Stappen in de analyse van hoofdcomponenten en factoranalyse omvatten:
- Selecteer en meet een reeks variabelen.
- Bereid de correlatiematrix voor om PCA of FA uit te voeren.
- Extraheer een set factoren uit de correlatiematrix.
- Bepaal het aantal factoren.
- Draai indien nodig de factoren om de interpreteerbaarheid te vergroten.
- Interpreteer de resultaten.
- Controleer de factorstructuur door de constructvaliditeit van de factoren vast te stellen.
Verschil tussen analyse van hoofdcomponenten en factoranalyse
De analyse van hoofdcomponenten en factoranalyse zijn vergelijkbaar omdat beide procedures worden gebruikt om de structuur van een set variabelen te vereenvoudigen. De analyses verschillen echter op verschillende belangrijke manieren:
- In PCA worden de componenten berekend als lineaire combinaties van de oorspronkelijke variabelen. In FA worden de oorspronkelijke variabelen gedefinieerd als lineaire combinaties van de factoren.
- In PCA is het doel om zoveel mogelijk van het totaal te verantwoorden variantie in de variabelen mogelijk. Het doel van FA is om de covarianties of correlaties tussen de variabelen uit te leggen.
- PCA wordt gebruikt om de gegevens te verminderen tot een kleiner aantal componenten. FA wordt gebruikt om te begrijpen welke constructen aan de gegevens ten grondslag liggen.
Problemen met analyse van hoofdcomponenten en factoranalyse
Een probleem met PCA en FA is dat er geen criteriumvariabele is om de oplossing te testen. In andere statistische technieken zoals discriminante functieanalyse, logistische regressie, profielanalyse en multivariate analyse van variantie, wordt de oplossing beoordeeld op basis van hoe goed het groepslidmaatschap voorspelt. In PCA en FA is er geen extern criterium zoals groepslidmaatschap om de oplossing te testen.
Het tweede probleem van PCA en FA is dat er na extractie een oneindig aantal rotaties beschikbaar is, allemaal goed voor dezelfde hoeveelheid variantie in de oorspronkelijke gegevens, maar met een licht gedefinieerde factor anders. De uiteindelijke keuze wordt aan de onderzoeker overgelaten op basis van hun beoordeling van de interpreteerbaarheid en wetenschappelijke bruikbaarheid. Onderzoekers verschillen vaak van mening over welke keuze de beste is.
Een derde probleem is dat FA vaak wordt gebruikt om slecht opgezet onderzoek te 'redden'. Als er geen andere statistische procedure geschikt of toepasbaar is, kunnen de gegevens op zijn minst factorgeanalyseerd worden. Dit laat velen geloven dat de verschillende vormen van FA geassocieerd worden met slordig onderzoek.