Rapporteren van Subtestscores in de Klinische Praktijk

In dit artikel bespreken Rob Meijer en collega’s het gebruik van subtestscores in relatie tot het gebruik van totaalscores. Ze bespreken recente literatuur waaruit blijkt dat in sommige gevallen subtestscores niet veel toevoegen aan informatie die wordt verkregen op basis van de totaalscore. Oorzaken zijn dat bij veel constructen vooral een algemene factor wordt gemeten waaraan subtestscores weinig toevoegen. Ook blijkt uit analyses dat voor sommige vragenlijsten de betrouwbaarheid van subtestscores laag is in vergelijking met de totaalscore. Rob Meijer cs. doen suggesties voor testconstructeurs om te onderzoeken in hoeverre een test een algemene factor meet en we raden aan om subtestscores met de nodige voorzichtigheid te interpreteren. Joëlle Dek en Saskia van Es dienen hen van repliek.

Anja Boevé, Rob Meijer, Susan Niessen

In de psychometrische literatuur maar ook in verschillende meer inhoudelijk georiënteerde wetenschappelijke tijdschriften van de American Psychological Association, zoals Psychological Assessment, is de afgelopen jaren de nodige aandacht gegeven aan het gebruik van subtestscores op een test of vragenlijst. Verschillende auteurs hebben laten zien dat testgebruikers voorzichtig moeten zijn bij het gebruik van subtestscores in relatie tot het rapporteren van totaalscores. Deze artikelen zijn vaak weinig toegankelijk voor psychologen die in de praktijk werkzaam zijn, maar de inhoud is wel relevant voor praktische testconstructie en testgebruik.

Wij denken dat het voor testgebruikers en testconstructeurs belangrijk is om van deze ontwikkelingen op de hoogte te zijn en ook te beseffen dat men soms voorzichtig moet zijn bij het gebruik van subtestscores. In deze forumbijdrage bespreken we de problematiek van het rapporteren van subtestscores. Het doel van dit artikel is om psychologen bewust te maken van de soms lastige interpretatie van scores op een vragenlijst.

Wat willen psychologen meten?

Wanneer psychologen een test of vragenlijst construeren is het vaak de bedoeling om een construct te meten en een totaalscore daarop te rapporteren. Bijvoorbeeld: psychologen construeren een vragenlijst om ‘depressie’ te meten en rapporteren een depressiescore bestaande uit de som van de scores op de individuele items van de vragenlijst. Omdat psychologische constructen complex zijn, zijn er vaak ook groepjes van items te onderscheiden die een onderdeel van het construct meten. Lucke (2005) beargumenteerde dat door de complexiteit van psychologische begrippen, vragenlijsten die deze begrippen meten inhoudelijk heterogeen moeten zijn. Lucke (2005, p.66) zegt hierover het volgende: ‘The complexity of psychosocial behavior may require tests to be heterogeneous, perhaps irreducibly so, to maintain their reliability, validity and predictive utility …. A psychosocial entity such as social support, selfesteem, or depression is a contingently clustered set of attributes that covary under mutual causation or share underlying common causal mechanisms … . The attempts to measure any single attribute in isolation from the others may distort the measurement results … Therefore, the test must be heterogeneous. The meaningfulness of a test lies not in a methodological prescription of homogeneity but in the test’s ability to capture all relevant attributes of the entity it purports to measure.’

Dus Lucke (2005) benadrukt dat een betekenisvolle test alle relevante elementen van het te meten construct omvat. Vaak worden dan ook subtestscores gerapporteerd naast de totaalscore, bijvoorbeeld om extra diagnostische informatie te verkrijgen. De centrale vraag bij de interpretatie van totaalscores en subtestscores is nu: zijn de data ééndimensioneel genoeg om de totaalscores te kunnen interpreteren als zijnde – in ons voorbeeld – depressie of moeten we ook subtestscores onderscheiden?

Als zowel totaalscores als subtestscores worden gerapporteerd is het idee dat er een algemene factor is die de variantie van de totaalscore verklaard, maar dat er ook subfactoren zijn die unieke variantie verklaren op de subtestsscores waardoor het belangrijk is ook subtestscores te rapporteren. Hieronder proberen we inzichtelijk te maken dat om dit te onderbouwen een onderzoeker moet aantonen hoeveel variantie wordt verklaard door de algemene factor en hoeveel variantie er dan nog uniek verklaard wordt door de subfactoren. Slechts wanneer er een substantiële hoeveelheid variantie wordt verklaard door de subfactoren nadat er rekening is gehouden met de algemene factor, heeft het ook zin om subtestscores te rapporteren.

Voorbeeld: Beck Depression Inventory

Om dit punt verder uit te leggen nemen we de Beck Depression Inventory-II (BDI-II; Beck et al., 1996, 2002), een van de meest gebruikte schalen in de klinische praktijk, als voorbeeld. Deze vragenlijst bestaat uit 21 items die alle een indicatie geven van depressie, en zo wil het idee, ook van een aantal deelconstructen van depressie. Een voorbeelditem (waarbij de respondent een optie moet kiezen) is:

Schuldgevoel

ik voel me vaak schuldig;
ik voel me niet bijzonder schuldig;
ik voel me meestal schuldig;
ik voel me voortdurend schuldig.

In de Nederlandse handleiding worden, naast de totaalscore, subtestscores vermeld voor affectieve (verlies, pessimisme, somberheid), cognitieve (schuldgevoelens, zelfkritiek, waardeloosheid) en somatische componenten (moeheid, prikkelbaarheid) van depressie. Het idee is dan dat een psycholoog, naast de rapportage van een totaalscore (met grensscores voor de mate van depressie), door middel van de scores op deze subtests van depressie een beter beeld kan krijgen van de cliënt en bijvoorbeeld de effecten van psychotherapie beter kan inschatten.

Waarom is deze interpretatie een probleem? Kort gezegd: omdat de scorevariantie op de subtests voor een groot gedeelte wordt bepaald door de algemene factor (Brouwer, Meijer & Zevalkink, 2013). We zullen dit hieronder nader toelichten.

Het is eerst goed om te weten hoe de BDI-II is geconstrueerd. De BDI-II is ontstaan uit de BDI die is geconstrueerd om depressie te meten. Afgaand op de eerste artikelen van Beck ging het niet om het meten van verschillende onderdelen van depressie. Vervolgens zijn er veel artikelen verschenen waarbij gebruik werd gemaakt van exploratieve en confirmatieve factoranalyse om te onderzoeken of er groepen items te onderscheiden waren die samen afzonderlijke factoren rechtvaardigen. Veel modellen die werden gebruikt gaan ervan uit dat ‘depressie’ een hogere ordeconstruct is dat de correlatie tussen de scores op de subconstructen (somatiek, cognitie, affectie) verklaart. Dus itemvariantie wordt niet rechtstreeks verklaard door depressie maar via de subfactoren. Vandaar ook de rapportage van subtestscores, waarbij de score op de algemene factor een soort samenvattende score is op de centraal staande subfactoren.

Een alternatief model, en in onze ogen een model dat een betere voorstelling van zaken geeft, gaat uit van een algemene factor (depressie) die rechtstreeks de variantie op de itemscores beïnvloedt. Daarnaast bestaan er subfactoren die, bovenop de algemene factor, de variantie op de itemscores bepalen. Dit model wordt wel aangeduid als bifactor-model (voor een recente discussie, zie Reise, 2013). Dit model geeft precies weer hoe de BDI is geconstrueerd. Centraal stond het meten van depressie, elk item heeft dus rechtsreeks iets met depressie te maken. Het kan zijn dat er groepjes van items zijn die naast depressie ook nog iets unieks meten, maar dan moet eerst de gemeenschappelijke ‘depressie variantie’ eruit worden gefilterd.

Om te beoordelen in welke mate een totaalscore depressie representeert, kan Omega H (ωh) worden berekend. Dit is een index die de proportie variantie aangeeft die kan worden toegeschreven aan de gemeenschappelijke factor. Dus als deze index hoog is, verklaart de gemeenschappelijke factor een groter aandeel van de variantie ten opzichte van de subfactoren. De onderzoeker kan er dan vrij zeker van zijn dat de scores één dimensie representeren. Ook zijn er indices die de betrouwbaarheid van de subtestscores geven nadat we rekening hebben gehouden met de algemene factor (Reise, 2013).

Voor de BDI-II hebben Brouwer et al. (2013) laten zien dat bijna alle items hoofdzakelijk laden op de algemene factor en dat, wanneer er rekening wordt gehouden met de algemene factor, er weinig variantie verklaard wordt door de afzonderlijke groepsfactoren. Brouwer et al. (2013) vergeleken verschillende factormodellen en vonden dat het bifactor model het beste een beschrijving van de data gaf. Bovendien vonden zij dat 75% van de gemeenschappelijke variantie kon worden verklaard uit een gemeenschappelijke factor en dat dan de betrouwbaarheid van de subtestscores vrij laag was (ongeveer .40).

Voorzichtigheid met subtestscores

Deze bevindingen wijzen erop dat psychologen heel voorzichtig moet zijn met het rapporteren van subtestscores voor de BDI.

Een ander argument om voorzichtig te zijn met de interpretatie van subtestscores is dat deze scores vaak gebaseerd zijn op een gering aantal items en daardoor een onbetrouwbaarder score opleveren in vergelijking met de score op de totale test. Dit argument speelt met name bij onderwijskundige toetsen een belangrijke rol.

In een aantal intrigerende papers laten Haberman en Sinharay (bijv. Sinharay, Puhan & Haberman, 2011) zien dat, vanwege de onbetrouwbaarheid van de subtestscores, het soms beter is om totaalscores te gebruiken om individuele ‘ware’ subtestscores te voorspellen dan de subtestscores zelf! Hoewel deze voorbeelden vooral zijn gebaseerd op onderwijskundige toetsen, speelt dit probleem ook bij klinische vragenlijsten. Zoals hierboven besproken laten Brouwer et al. (2013) zien dat voor de BDI-II de betrouwbaarheid van de subtestscores erg laag was.

Een derde argument om voorzichtig te zijn met subtestscores is een statistisch argument. Als we subtestscores gebruiken in een multiple regressievergelijking om een criterium te voorspellen en deze subtestscores zijn hoog gecorreleerd, dan kan er multicolliniariteit optreden. Multicolliniariteit treedt op wanneer een voorspeller in de regressievergelijking goed kan worden voorspeld door een andere voorspeller in de vergelijking. Hoewel multicolliniariteit geen effect heeft op hoe goed de predictoren samen het criterium kunnen voorspellen, zorgt het er wel voor dat we geen goede indicatie hebben voor de afzonderlijke bijdrage van de individuele predictoren voor het voorspellen van het criterium of welke predictoren overbodig zijn om een criterium te voorspellen. Als bijvoorbeeld somatiekscores en angstscores hoog correleren en beide worden gebruikt als predictor om het effect van een therapie te voorspellen, dan lijkt het of ze afzonderlijke informatie toevoegen terwijl ze eigenlijk hetzelfde meten. Het gevolg is dat de regressiecoëfficiënten onjuist worden geschat.

Correlatiegedrag met andere Constructen

Een ander vaak gebruikt argument om subfactoren te gebruiken en de algemene factor als een tweede, samenvattende maat op te vatten, is dat subtestscores verschillend correleren met criteriumscores. Dus met betrekking tot ons voorbeeld: somatisatie-items zouden een ander correlatiegedrag vertonen dan cognitieve items met bijvoorbeeld therapie-effecten. Echter, elke twee items die niet perfect correleren, zullen een ander correlatiegedrag vertonen met een criterium. Dus dit is op zich geen argument om subtestscores te gebruiken.

Naar onze mening is het beter om eerst grondig te onderzoeken hoeveel gemeenschappelijke variantie wordt verklaard door de algemene factor en hoe betrouwbaar de afzonderlijke constructen worden gemeten wanneer we rekening houden met de gemeenschappelijke factor, dan om eindeloze correlatiestudies uit voeren. Daarvan is het immers nog maar de vraag hoeveel die correlaties van elkaar verschillen en hoe robuust de verkregen resultaten zijn.

Veel dezelfde vragen

Tot nu toe hebben we ervoor gepleit voorzichtig te zijn met het gebruik van subtestscores vanuit het perspectief dat constructen vaak bestaan uit verschillende subfactoren die vaak niet genoeg unieke variantie verklaren om een afzonderlijke score te rechtvaardigen. Een andere observatie is dat veel items die samen een subtest vormen vaak herhalingen zijn van dezelfde basisvraag.

Het is erg gemakkelijk om subtests te construeren die een smal begrip meten. Door eenzelfde vraag in een iets andere bewoording te herhalen, ontstaan clusters van items die onderling hoog correleren en die daardoor een aparte factor (of schaal) vormen met een hoge betrouwbaarheid. Het begrip dat door deze vragen wordt gemeten, is vaak zo smal dat het weinig nut heeft dit construct apart te meten.

Testconstructeurs hebben de neiging om veel vragen in een iets andere bewoording te herhalen. De perfectionismeschaal zoals bijvoorbeeld beschreven in Slaney et al. (2001) bevat de volgende items: – Ik heb het gevoel dat ik naar perfectionisme moet streven; – Ik streef ernaar om zo perfect mogelijk te zijn; – Ik vraag niets anders dan perfectionisme van mezelf.

Waarschijnlijk komt dit omdat testconstructeurs graag schalen willen maken met een hoge betrouwbaarheid. We horen vaak van testconstructeurs: ‘Hoeveel items moet ik schrijven zodat de betrouwbaarheid hoog genoeg is?’ Wij antwoorden dan: ‘Hoeveel items kan je schrijven zodat het construct redelijk wordt gedekt, zonder in herhaling te vallen?’

Herhaling van vragen leidt vaak tot irritatie bij respondenten. Vaak zien we testconstructeurs worstelen met welke bewoordingen ze nog kunnen gebruiken om een voldoende lange (lees: betrouwbare) test te construeren. Een oplossing is om niet in afzonderlijke subconstructen, maar in een breder construct te denken. Het is goed om te accepteren dat elke score een zekere mate van multidimensionaliteit heeft. Dat wil echter niet zeggen dat testscores niet bruikbaar zouden zijn. Zoals hierboven betoogd gaat het om de vraag: zijn de scores eendimensioneel genoeg om het construct te meten?

Wat te doen?

Hoewel we beseffen dat het vanuit een klinisch perspectief aanlokkelijk kan zijn om bijvoorbeeld cognitieve items van affectieve items te onderscheiden, kan een klinisch psycholoog zichzelf wel de vraag stellen in hoeverre totaalscores en subtestscores verschillende zaken meten. Bij de constructie van tests en het construeren van scoringsformulieren zouden we het liefst zien dat, voordat er een ‘blokje’ wordt geconstrueerd voor een subtestscore de vraag wordt beantwoord: ‘voegt de subtestscore iets toe aan de totaalscore?’ Met andere woorden: wij zouden de bewijslast graag omdraaien. Testconstructeurs zouden eerst kunnen aantonen dat subtestscores iets toevoegen aan de totaalscore, waarbij rekening is gehouden met de variantie die wordt verklaard door de algemene factor.

Tot slot

Met dit betoog willen wij natuurlijk niet zeggen dat het gebruik van subtestscores in sommige gevallen niet te verdedigen valt. Wanneer het bifactor-model wordt gebruikt, kan het heel goed zijn dat de scores op bepaalde subtests wel degelijk de moeite waard zijn om te rapporteren, omdat er genoeg unieke variantie overblijft naast de algemene factor. Meijer et al. (2008) vonden bijvoorbeeld dat bij een vragenlijst die het zelfbeeld van kinderen meet het zeker de moeite waard was om verschillende subtestscores te rapporteren. Het kan uitmaken of een kind een positief zelfbeeld heeft voor sport of voor uiterlijk. Maar ook bij deze vragenlijst bleken veel vragen herhalingen te zijn van elkaar. In dit geval is het eerlijker om het aantal vragen te verminderen.

Wat wij wel wilden illustreren, is dat het rapporteren van én totaalscores én subtestscores niet gratuite is. Een psycholoog in de praktijk moet zich realiseren dat het gebruik van subtestscores en subschaaltjes kan leiden tot het conceptueel opknippen van begrippen die beter als een geheel kunnen worden gezien, dat verschillende namen worden gegeven aan begrippen die eigenlijk hetzelfde meten en dat het streven naar homogene schaaltjes en het rapporteren van subtestscores kan leiden tot methodologische artefacten¹.

Programmatuur: Testconstructeurs die willen onderzoeken in hoeverre een verzameling items opgevat kan worden als één algemene factor, kunnen het IRTPRO-programma gebruiken. Dit commerciële programma kent ook een gratis te downloaden ‘studenten’versie. Verder bestaan er Rpackages waarmee het bifactor-model kan worden geschat.

Over de auteurs

Prof. dr. Rob Meijer is als hoogleraar verbonden aan de Afdeling Psychometrische en Statistische Technieken, Faculteit Gedrags- en Maatschappijwetenschappen van de Rijksuniversiteit Groningen. Susan Niessen, Msc., en Anja Boevé, Msc, zijn als promovendi aan diezelfde afdeling verbonden. Voor correspondentie aangaande dit artikel: r.r.meijer@rug.nl.

Literatuur

Beck, A.T. , Steer, R.A. & Brown, G.K. (1996). Manual for the Beck Depression Inventory-II. San Antonio, TX: Psychological Corporation
Beck, A.T., Steer R. A., Brown, G.K., & van der Does, A.J.W (2002). BDI-II-NL Handleiding. Lisse, Psychological Corporation.
Brouwer, D., Meijer, R.R., Zevalkink, J. (2013). On the Factor Structure of the BDI-II: G is the Key. Psychological Assessment, 25, 136-145.
Lucke J.F. (2005). The alpha and the omega of congeneric test theory: An extension of reliability and internal consistency to heterogeneous tests. Applied Psychological Measurement, 29, 65-81.
Meijer, R.R., Egberink, J.H.L., Emons, W.H.M. & Sijtsma, K. (2008). Detection and validation of unscalable item score patterns using item response theory: An illustration with Harter’s self-perception profile for children. Journal of Personality Assessment, 90, 227-238.
Reise, S.P. (2013). The rediscovery of the bifactor measurement models. Multivariate Behavioral Research, 47, 667-696.
Reise, S.P., Bonifay, W.E. & Havilund, M.G. (2013). Scoring and modeling psychological measures in the presence of multidimensionality. Journal of Personality Assessment, 95, 129-140.
Sinharay, S. Puhan, G. & Haberman, S.J. (2011). An NCME instructional module on subscores. Educational Measurement: Issues and Practice, 30, 29-40.
Slaney, R B., Rice, K.G., Mobley, M., Trippi, J, & Ashbey J.S. (2001). The almost perfect scale-revised. Measurement and Evaluation in Counseling and Development, 34, 130-145
Smits, I.A.M., Timmerman, M.E. & Meijer, R.R (in press). The Symptom Checklist-90-Revised: is the use of the subscales justified? European Journal of Psychological Assessment.