De zin en onzin van factoranalyse

U komt het vast weleens tegen in uw vakliteratuur: factoranalyse. Om uw geheugen op te frissen, vindt u een voorbeeld in bijgevoegde figuur. Stel u heeft data verzameld over drie symptomen van depressie: insomnia, moeheid en somberheid (de geobserveerde variabelen). Met een confirmatief 1-factor model toetst u of de covariantiestructuur van deze symptomen (hier de sterke positieve correlaties tussen de symptomen) zich adequaat laat beschrijven door één onderliggende en niet-geobserveerde factor die we voor het gemak ‘depressie’ zullen noemen. Zo is factoranalyse een slimme manier om te toetsen of een vragenlijst het beoogde te meten construct meet. Zijn niet één maar meerdere factoren nodig om de samenhang tussen de geobserveerde variabelen te verklaren, dan is het zeer wel mogelijk dat de desbetreffende vragenlijst niet meet wat u beoogt te meten.
Na deze lofzang op de factoranalyse vraagt u zich wellicht af waarom er een rubriek aan gewijd moet worden. De reden hiervoor is dat het in de empirische literatuur helaas relatief vaak voorkomt dat meer betekenis aan een factoranalyse wordt toegekend dan gerechtvaardigd is. Voor een methodoloog of psychometricus is een factor niets meer dan een mathematische abstractie, een manier om een set gecorreleerde variabelen te beschrijven. Als u een methodoloog vraagt wat u heeft gevonden als een 1-factor model past op uw data, dan krijgt u als antwoord: uw data laten zich het beste beschrijven door één onderliggende, niet-geobserveerde factor. Niets meer, en niets minder.
Waar gaat het weleens mis in de literatuur? Het probleem laat zich het beste omschrijven als het over-interpreteren van de gevonden factor. Ten eerste, als een 1-factor model past op de data van drie symptomen, is het strikt genomen prematuur om de factor ‘depressie’ te noemen. De factor kan net zo goed ‘kraamtijd’ heten: ouders van een pasgeboren baby zijn moe, slapen niet en zijn daardoor weleens somber. Er staat nergens in het statistische model hoe we betekenis moeten toekennen aan een gevonden factor. Ten tweede, los van een label als ‘depressie’ is het zeer de vraag of een statistische factor enige referent heeft in de echte wereld. Een passend 1-factor model op intelligentiedata is immers geen bewijs voor het bestaan van intelligentie, als entiteit in de wereld, in de hoofden van mensen. Een reden hiervoor is het gegeven dat collega’s enige tijd geleden hebben aangetoond dat een 1-factor model uitstekend past op data die met een geheel ander model gegenereerd zijn. Ergo: er staat nergens in het statistische model of we betekenis moeten toekennen aan een factor.
Een en ander geeft dus te denken over de bandbreedte waarbinnen we zinvol factoren kunnen interpreteren. Zolang we er nog niet uit zijn, wees gewaarschuwd als u een factoranalyse tegenkomt: een factor beschrijft een covariantiestructuur, niets meer en niets minder.