Betrouwbaarheid en validiteit van ‘het’ IQ bij forensische patiënten

In een recent artikel wezen Britta van Toorn en Coby Bon op de grote verschillen die zij vonden tussen de intelligentietestscores bij cliënten die in forensische setting waren onderzocht. Zij concludeerden dat het IQ niet betrouwbaar te meten is met de gangbare intelligentietests. In onderstaande repliek bespreekt Jacqueline Mulder de methodologische en statistische punten waarmee men rekening moet houden bij het uitvoeren van een dergelijk vergelijkend onderzoek.

In het artikel getiteld ‘De onbetrouwbaarheid van de iq-meting, consequenties voor de praktijk’ in het aprilnummer van De Psycholoog (2011) brengen Britta van Toorn en Cobi Bon onder de aandacht dat er bij een ‘forensische’ cliënt grote verschillen in iq-scores kunnen voorkomen als zij getest worden met verschillende intelligentietests. Een cliënt kan bijvoorbeeld op de wais-iii een Totaal iq van 95 punten behalen en op een van de andere tests (kait of git-2) een iq van 83 of 107. Zij uiten hun zorg dat de grote scoreverschillen tussen de tests ertoe kunnen leiden dat cliënten in forensische instellingen ten onrechte een psychotherapeutische of tbs-behandeling mislopen of worden veroordeeld door de rechter. De auteurs zijn van mening dat er een grote kans is op het doen van een foutieve uitspraak over de intelligentie van een cliënt. Zij komen tot de conclusie dat één van de tests (de kait) minder geschikt is voor cliënten met lagere intelligentieniveaus (deze cliënten zijn oververtegenwoordigd in de ‘forensische populatie’). Zij bevelen de wais-iii aan voor intelligentieonderzoek bij cliënten met een lagere intelligentie. Impliciet adviseren zij om altijd te beginnen met het afnemen van een verkorte git-2, en afhankelijk van de score (als deze lager uitvalt dan 85 punten), een tweede, uitgebreidere test af te nemen (de wais-iii). Een jaar eerder, in hetzelfde tijdschrift, is daarentegen betoogd dat de wais-iii juist geen geschikte test is voor personen met een lichte verstandelijke handicap (Thijs, Hoogervorst, Pesch & Ponsioen, 2010).
Ik deel met de auteurs van beide artikelen hun ongerustheid over de verstrekkende gevolgen van een onjuist oordeel van een psycholoog over een cliënt. Uitspraken over cliënten dienen te berusten op zorgvuldig en deskundig uitgevoerd onderzoek. Op de kwaliteit van het onderzoek dat Bon en Van Toorn (2011) zelf hebben verricht en de uitspraken die zij doen over de bruikbaarheid van de onderzochte tests, valt echter het nodige aan te merken.

‘Het’ IQ
Ten eerste, tussen twee betrouwbare intelligentietests die op twee verschillende meetmomenten zijn afgenomen bij een persoon, kunnen grote scoreverschillen voorkomen. Tellegen (2006) wijst erop dat in normale steekproeven aanzienlijke verschillen voorkomen tussen de Totaal iq-scores die behaald zijn op de wais-iii, kait en git-2. De auteurs citeren de publicaties van Peter Tellegen (2004; 2006) waarin hij uitlegt waarom er alleen al op statistische gronden geen hoge overeenstemming te verwachten is tussen twee scores van verschillende intelligentietests. Hij illustreert dit in het artikel ‘De waan van “het” iq’ aan de hand van onderzoek met de rakit en wisc-r. Hij concludeert dat ‘het iq’ niet met één van deze tests gemeten wordt: ‘een iq is een getalletje dat het resultaat is van de uitkomst van die bepaalde test op dat bepaalde moment’. In een uitgebreid artikel komt Bruce Frumkin ook in 2006 tot dezelfde conclusie: ‘Intelligence is not a single construct and an iq score has many meanings.’ Waarom zou dit in een forensische populatie anders zijn? Daar is geen reden voor.

Betrouwbaar of valide?
Ten tweede, uit de titel van het artikel dat hét IQ niet betrouwbaar te meten is met de gangbare intelligentietest, kan worden afgeleid dat de auteurs menen dat zij onderzoek hebben verricht naar de betrouwbaarheid van de intelligentie(tests). Het lijkt erop dat de auteurs uitgaan van voornoemde misvatting dat ‘het iq’ bestaat en meetbaar is. Intelligentie is een theoretisch begrip en is als zodanig niet direct meetbaar (De Zeeuw, Dekker & Resing, 2004; Drenth & Sijtsma, 2006; Van den Brink & Mellenbergh, 1998;). Er bestaat (helaas) geen onafhankelijke gouden standaard waarmee intelligentie kan worden gemeten en waaraan wij de psychologische tests kunnen ijken. De uitgevoerde analyse in het artikel heeft dan ook geen betrekking op betrouwbaarheid maar op validiteit (generaliseerbaarheid) van de tests. In het artikel wordt geen enkele betrouwbaarheidscoëfficiënt gepresenteerd. In het onderzoek zijn alleen gemiddelde iq-scores berekend, namelijk voor twee groepen cliënten die twee van de drie tests op een bepaald tijdstip hebben uitgevoerd en de gemiddelde verschilscores tussen twee combinaties van tests worden gepresenteerd.

Heterogene groep
Ten derde, is het opvallend dat de auteurs grotendeels voorbijgaan aan het feit dat een ‘forensische populatie’ zeer heterogeen van samenstelling is (Egger & Wingbermühle, 2006; Frumkin, 2006). Het betreft een groep cliënten waarvan bekend is dat:

het percentage drugs- en alcoholgebruikers veel hoger is dan in de normale populatie (beide zijn van invloed op de intellectuele capaciteiten en psychomotorische vaardigheden van de cliënt),
het veelal personen betreft met een afgebroken schoolopleiding,
een hoog percentage personen tweetalig is en een minder goede Nederlandse taalbeheersing heeft,
een groot aantal personen een of andere psychiatrische aandoening heeft (in de studie in het artikel zijn alleen personen met een dsm as-i-stoornis uitgesloten).

Al deze factoren zijn van invloed op de testprestaties bij de wais-iii, kait en git-2, en dat kan bij iedere subtest van iedere testbatterij anders uitvallen. Toevallige verschillen in de samenstelling van de steekproef 1 en 2 hebben hierdoor een onbekende invloed op de testprestaties. Frumkin (2006) heeft al eerder uitgebreid uiteengezet wat de valkuilen zijn bij het bepalen van intelligentietestscores bij een cliënt die verdacht wordt van een misdrijf en met welke factoren men dient rekening te houden bij het interpreteren van iqscores bij deze categorie cliënten. Hij wijst er expliciet op dat men medische gegevens (vanaf de geboorte), de ontwikkelingsmijlpalen, schoolcarrière, culturele achtergrond, moedertaal, en middelengebruik altijd bij de interpretatie van de resultaten dient te betrekken. Hij wijst ook op de gevaren van het overnemen van testscores die in het verleden door een andere onderzoeker zijn gerapporteerd.

Onderpresteren
Ten vierde, een ander methodologisch punt: de auteurs gaan ervan uit dat een lage score op een intelligentietest het gevolg is van een lage intelligentie. In een forensische populatie, waar de onderzochte verdachte is van een misdrijf, en oplegging van een pj of strafrechtelijke maatregel dreigt, kan er voor de onderzochte een hele goede reden zijn om zich dommer voor te doen dan hij is. Met andere woorden, de onderzoeker moet altijd bedacht zijn op onderpresteren (Egger & Wingbermühle, 2006; Frumkin, 2006). Er is in deze studie geen controle uitgevoerd op onderpresteren (stimuleren, aggraveren of malingeren). Hoe kunnen wij weten of de lage scores te wijten zijn aan een gebrek aan intelligentie? Er is uitgebreide (internationale) neuropsychologische literatuur beschikbaar over symptoomvaliditeitstests die in de forensische en letselschade praktijk gebruikt worden (zie Frumkin, 2006; Sweet, 1999).

Bruikbaarheid van intelligentietests
De vraag of een intelligentietest wel geschikt is voor het doen van uitspraken over de mate van geschiktheid voor het ondergaan van een psychotherapeutische of tbs-behandeling, laat ik buiten beschouwing. Zoals bekend, zijn intelligentietests niet voor dit doel ontwikkeld, en men moet een test alleen gebruiken voor het doel waarvoor hij ontwikkeld is (Drenth & Sijtsma, 2006). Het slagen van een psychotherapeutische behandeling is – net als schoolprestaties – niet alleen afhankelijk van intelligentie, maar van diverse andere factoren.
Wetenschappelijk onderzoek naar de bruikbaarheid van intelligentietests bij specifieke klinische doelgroepen is mijns inziens zeer nuttig. Dit vereist zorgvuldig opgezet en goed gestandaardiseerd onderzoek, waarbij onbedoelde verschillen tussen groepen cliënten geëlimineerd (of ten minste gecontroleerd) zijn en de afnamevolgorde van de verschillende tests gebalanceerd is, zodat er op basis van de resultaten gefundeerde uitspraken gedaan kunnen worden.

Over de auteur
Mw dr. J.L. Mulder is auteur van de Nederlandse versie van de kait, diverse (neuro)psychologische tests, een handboek over neuropsychologische diagnostiek en is tevens werkzaam als neuropsycholoog in het HagaZiekenhuis te Den Haag.
E-mailadres: j.mulder@hagaziekenhuis.nl.

Met dank aan
Anke Bouma, Riet Dekker, Peter Tellegen en Koen Van Braeckel dank ik voor hun constructieve commentaar op een eerdere versie van dit artikel.

Literatuur

Brink, W.P. van den & Mellenbergh, G.J. (1998). Testleer en testconstructie. Amsterdam: Boom.
Drenth, P.J.D. & Sijtsma, K. (2006). Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen (4de, herziene druk). Houten: Bohn Stafl eu Van Loghum.
Egger, J. & Wingbermühle, E. (2006). Forensische neuropsychologie. In M. Hendriks, R. Kessels, M. Gorissen & B. Schmand (red.), Neuropsychologische diagnostiek. De klinische praktijk. Amsterdam: Boom.
Frumkin, I.B. (2006). Challenging expert testimony on intelligence and mental retardation. The Journal of Psychiatry and Law, 34, 51-71.
Mulder, J.L., Dekker, R. & Dekker, P.H. (2004). Kaufman – Intelligentietest voor Adolescenten en Volwassenen. KAIT. Leiden: PITS Testuitgeverij.
Resing, W. & Drenth, P. (2007) Intelligentie. Weten en meten (2e druk). Amsterdam: Uitgeverij Nieuwezijds.
Sweets, J.J. (Ed.) (1999). Forensic neuropsychology. Fundamentals and practice. Lisse: Swets & Zeitlinger BV.
Tellegen, P. (2004). De waan van ‘het’ IQ. Interne publicatie Persoonlijkheids- en Differentiële Psychologie, Rijksuniversiteit Groningen. Zie www.testresearch.nl.
Tellegen, P. (2006). Individual adult intelligence tests. Comparison of the WAS-III, GIT-2, and KAIT. Lezing. Zie http://www.pits-online.nl/nl/ sympresentaties.html.
Thijs, F., Hoogervorst, J., Pesch, W. & Ponsioen, A. (2010). Vissen in troebel water. Het gebruik van de WAIS-III-NL bij (jong) volwassenen met lagere IQ’s. De Psycholoog, 45 (3), 38-45.
Toorn, B. van & Bon, C. (2011). De onbetrouwbaarheid van de IQ-meting. Consequenties voor de praktijk. De Psycholoog, 46 (4), 44-49.
Zeeuw, J. de, Dekker, R. & Resing, W.C.M. (2004). Algemene Psychodiagnostiek I. Testmethode. Leiden: PITS.