Samenvatting

A. Evers, P. Hurks, R. Meijer & S. Niessen

This paper describes the results of a survey on the opinions on tests and testing practices of Dutch professional psychologists in 2000, 2009, and 2020. The survey is an initiative of the European Federation of Psychologists’ Associations (EFPA) and is administered Europe-wide. For each year, scores on five scales were computed, being Incorrect test use, Regulations on testing, Testing by the Internet (for this scale only data is available from 2009 on), Appreciation of tests, and Knowledge in relation to tests and test use. The scores of four out of the five scales showed to be rather stable since 2009. Only the opinion with respect to Testing by the Internet was slightly more positive in 2020. The implications of the results are discussed.


1700 Weergaven
0 Downloads
Lees verder
Dit artikel beschrijft hoe Nederlandse psychologen een vragenlijst over opvattingen over tests en testgebruik op drie meetmomenten (2000, 2009, 2020) hebben ingevuld. De vragenlijst is een initiatief van de European Federation of Psychologists’ Associations ( ­EFPA) en wordt in vele Europese landen afgenomen. De opvattingen van Nederlandse psychologen blijken stabiel, alleen de acceptatie van testen via internet is enigszins toegenomen. Op basis van de resultaten doen we suggesties voor beleid en verder onderzoek van tests en testgebruik.

Inleiding

Psychologen worden opgeleid om (zo goed als mogelijk) antwoorden te geven op vragen van verwijzers en/of van hun cliënten – of in het geval van kinderen de ouders van. Voorbeelden van dergelijke vragen zijn: waarom heeft mijn kind moeite om mee te komen op school? Waarom voel ik mij vaak zo ongelukkig? Of: is de cliënt geschikt voor een baan als manager? Onderzoek heeft aangetoond dat het onrealistisch is als psycholoog te streven naar foutloze of perfecte antwoorden op dergelijke vragen (Bröder, 2002).

Helaas zijn foutieve of suboptimale antwoorden op deze vragen van cliënten of verwijzers niet zonder risico’s. Deze kunnen namelijk grote gevolgen hebben voor de cliënt of zijn/haar omgeving, doordat mogelijk een minder optimale behandelaanpak wordt ingezet, of een persoon kiest voor een minder goed passende baan of opleiding. Fouten in beoordelingen kunnen worden veroorzaakt door verschillende factoren, zoals een overmatig vertrouwen in de eigen expertise, biases (waaronder confirmation bias en hindsight bias) in het klinisch oordeel, een gebrek aan relevante informatie over de persoon waarover een uitspraak wordt gedaan, et cetera (Lilienfeld & Lynn, 2014).

In een poging de kans op fouten te minimaliseren kunnen psychologen ertoe besluiten psychologische tests in te zetten bij de toetsing van door de psycholoog opgestelde hypotheses. Volgens Drenth en Sijtsma (2006, p. 67) is de psychologische test ‘een systematische classificatie- of meetprocedure, waarbij het mogelijk is een uitspraak te doen over één of meer empirisch-theoretisch gefundeerde eigenschappen van de onderzochte, of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking van reacties van hem/haar, in vergelijking tot die van anderen, op een aantal, zorgvuldig gekozen stimuli’.

Er zijn diverse soorten psychologische tests, waaronder vragenlijsten, interviews, spel, observatie-instrumenten, praktijkopdrachten en prestatietests. De inzet van psychologische tests is echter al decennia controversieel. Zo richtte net na de Tweede Wereldoorlog de kritiek in Nederland zich op de ‘subjectieve (en dus willekeurige) interpretatie van testgedrag’ (Evers, Evers & Zaal, 2001). In de jaren zeventig van de vorige eeuw werden in Nederland sociale en ethische argumenten gebruikt om te pleiten tegen het gebruik van tests, zoals het potentieel gevaar dat met de afname van tests bepaalde groepen in een samenleving (onbedoeld) gediscrimineerd worden of dat de privacy van een individu bedreigd wordt (Drenth, 1975). En recent werd in de Nederlandse politiek discussie gevoerd over het testen van kleuters (dat wil zeggen leerlingen uit groep 1 en 2) op scholen met een leerlingvolgsysteem. Vanaf 1 augustus 2022 is het bij wet geregeld dat kleuters niet meer getoetst mogen worden op school. Wel mogen leerkrachten observatie-instrumenten inzetten bij deze doelgroep om de ontwikkeling van een kind in kaart te brengen, maar alleen onder bepaalde voorwaarden1. Dit zijn slechts enkele voorbeelden van discussies over tests en testgebruik in Nederland.

‘Waarom voel ik mij vaak zo ongelukkig?’

De afgelopen decennia hebben deze discussies vaak geleid tot nieuwe initiatieven. Ter illustratie geven we hier drie voorbeelden. Allereerst kwam er door de discussie over de waarde van ‘subjectieve (en dus willekeurige) interpretatie van testgedrag’ meer oog voor de psychometrische kwaliteiten van tests. In 1959 is de Commissie Testaangelegenheden Nederland (COTAN) opgericht, als commissie van het Nederlands Instituut van Psychologen (NIP). De COTAN beoordeelt onder andere al sinds 1969 de psychometrische kwaliteiten van Nederlandstalige tests. De COTAN heeft hiertoe een beoordelingskader opgesteld, dat inzicht geeft in waar de meetpretentie, standaardisatie, betrouwbaarheid, validiteit en normen van tests aan moeten voldoen (Evers, Lucassen, Meijer & Sijtsma, 2009).

Daarnaast zorgden bovengenoemde discussies ervoor dat beroepsethische code(s) voor psychologen ontwikkeld en aangescherpt zijn. Zo bracht het NIP in samenwerking met de COTAN de Algemene Standaard Testgebruik (AST) uit, die ‘richtlijnen en informatie bevat om te komen tot een verantwoorde testkeuze en het juist gebruik van psychodiagnostische instrumenten in het kader van de psychodiagnostiek en/of psychologische interventies’ (NIP, 2018). De AST werd de afgelopen decennia een aantal keren inhoudelijk herzien.

Ten derde werden de afgelopen decennia in Nederland Kamervragen gesteld over tests en testgebruik en werden daaropvolgend diverse commissies ingesteld om onder andere te onderzoeken wat de consequenties van testgebruik voor specifieke doelgroepen zijn. Zo onderzocht de Testscreeningscommissie (Hofstee e.a., 1990) wat de mogelijk negatieve gevolgen van het gebruik van tests bij personen met een migratieachtergrond zijn. Dit rapport bleek een stimulans voor het onderzoek naar item- en testbias. In 2014 werd in de Wet op het primair onderwijs (WPO) vastgesteld dat scholen in het primair onderwijs bij leerlingen in groep 8 uitsluitend eindtoetsen mogen afnemen met een voldoende psychometrische en onderwijskundige kwaliteit. De kwaliteit van deze eindtoetsen is de afgelopen jaren beoordeeld door de Expertgroep Primair Onderwijs en de COTAN, als onafhankelijke toets- c.q. testexperts.

Discussies over tests en testgebruik leiden klaarblijkelijk dus tot meer inzicht in hoe tests gebruikt worden, waar mogelijke ‘problemen’ optreden, en waar testgebruikers behoefte aan hebben. Psychologen zijn goede informanten, omdat zij veelal degenen zijn die de tests gebruiken bij hun werk. Daarnaast is het belangrijk dat er draagvlak heerst onder testgebruikers, en dus ook onder psychologen, bij nieuwe initiatieven of nieuwe maatregelingen inzake tests en testgebruik. Daarom heeft de European Federation of Psychologists’ Associations (EFPA) ervoor gekozen om, vanaf 2000, ieder decennium vragenlijsten over tests en testgebruik uit te zetten onder psychologen in Europa. In deze vragenlijsten wordt psychologen de afgelopen decennia ook expliciet gevraagd naar hun mening over de afname van tests met behulp van papier-en-potlood versus via een computer (computer based tests – CBT), omdat juist de afname van tests via de computer de afgelopen decennia een grote vlucht heeft genomen. De COTAN/NIP organiseert de deelname aan deze onderzoeken van psychologen uit Nederland.

De afgelopen jaren zijn er diverse artikelen gepubliceerd over Europese data verzameld met deze vragenlijsten, in 2000 en 2009. Zo vonden Evers en collega’s (2012) dat de houding van psychologen ten opzichte van tests en het gebruik van tests in Europa (veelal) positiever was in 2009 dan in 2000. Verder waren psychologen meer tevreden over de hoeveelheid beschikbare informatie over de psychometrische kwaliteit van tests in 2009 dan in 2000. Ook voelden psychologen zich beter uitgerust (qua scholing) om tests te gebruiken in 2009 dan in 2000. De psychologen vermeldden daarbij dat zij hun kennis over tests en testgebruik met name hadden vergaard door het volgen van trainingen na hun masteropleidingen.

Evers en collega’s (2017) vonden daarnaast een relatie tussen de specialisatie van de psycholoog en de antwoorden op de 2009-vragenlijst, meer specifiek de antwoorden op items die bezorgdheid over onjuist testgebruik en de acceptatie van via het internet afgenomen tests meten. Op deze items toonden in 2009 arbeids- en organisatie (a&o) psychologen een grotere bezorgdheid over het onjuist gebruik van tests én een grotere waardering voor internettests dan schoolpsychologen en klinisch psychologen. Een mogelijke verklaring voor de eerste associatie is, volgens Evers en collega’s, dat indertijd binnen het a&o-vakgebied relatief meer niet-psychologen tests gebruikten. Een verklaring voor de tweede associatie kan zijn dat internet-tests in 2009 al vaker gebruikt werden in de a&o-psychologie dan in de schoolpsychologie en klinische psychologie, wat kan leiden tot grotere acceptatie.

In 2020-2021 is opnieuw een vragenlijst afgenomen door de EFPA in diverse Europese landen. De dataverzameling in Nederland is inmiddels afgerond door de COTAN. Dit artikel beschrijft hoe Nederlandse psychologen, met diverse achtergronden (qua discipline, werkervaring etc.), deze vragenlijst hebben ingevuld. Hierbij wordt nagegaan of de meningen van Nederlandse psychologen over tests en testgebruik zijn veranderd over de laatste twintig jaar door de data van de drie meetmomenten te vergelijken.

Samengevat is de centrale onderzoeksvraag of psychologen een positieve (of juist negatieve) attitude hebben ten aanzien van diverse aspecten van testgebruik (inclusief de aangeboden opleiding op bachelor- en master-niveau op dit terrein). Een hiervan afgeleide vraag is of deze attitude door de jaren heen (dat wil zeggen van 2000 tot en met 2020) is veranderd.

Methode

De vragenlijst

De in 2020 afgenomen vragenlijst bestaat uit een deel dat voor alle deelnemende landen gelijk is (uiteraard in verschillende talen) en uit een aantal vragen dat specifiek voor Nederland is toegevoegd (deze worden niet besproken in dit artikel). De complete vragenlijst kan men vinden op ResearchGate2. Het gemeenschappelijke deel gaat onder andere over de kwaliteit van tests (via de computer afgenomen versus papier-en-potlood), standaarden om een dergelijke kwaliteit te bepalen en de benodigde kwalificatie(s) van testgebruikers. Deze vragenlijst is exact gelijk aan de versie die in de enquête van 2009 is gebruikt (zie Evers et al., 2012).

De 2009-versie was gebaseerd op, maar niet gelijk aan de versie die bij de enquête van 2000 is gebruikt (zie Muñiz et al, 2002). De resultaten van de huidige enquête kunnen dus, wat betreft het gemeenschappelijke deel, goed worden vergeleken met die uit 2009 en gedeeltelijk met die uit 2000. Alle vragen moeten worden beantwoord op een vijfpuntsschaal met als ankerpunten geheel mee oneens (1) tot geheel mee eens (5) of zelden of nooit (1) tot (vrijwel) altijd (5). Deze laatste schaal betreft alleen de items die gaan over onjuist testgebruik.

Procedure

Alle NIP-leden hebben in maart 2020 een e-mail ontvangen met daarin het verzoek om deelname en de link naar de Qualtrics-vragenlijst. In het verzoek om deelname werd het belang van de enquête benadrukt, waarbij werd gerefereerd aan de vorige enquêtes en aan het feit dat de enquête in meerdere Europese landen wordt afgenomen. Twee weken later werd een reminder gestuurd.

De afnamewijze in 2020 is daarmee gelijk aan die in 2009, toen eveneens alle NIP-leden via een e-mail om medewerking werd verzocht en de afname digitaal plaatsvond. In 2000 werd de enquête nog in papieren vorm afgenomen. De vragenlijst werd toen aan alle NIP-leden meegestuurd met De Psycholoog, inclusief een gefrankeerde antwoordenvelop.

Respondenten

In tabel 1 staan de achtergrondgegevens van de onderzoeksgroepen in de drie verschillende afnamejaren. Wat opvalt, is dat de responspercentages steeds lager worden in de loop van de jaren. Voor wat betreft het verschil in responspercentage tussen 2009 en 2020 kan een verschillende afnamewijze in ieder geval geen verklaring zijn, want deze was in beide jaren gelijk. Mogelijk speelt onder andere een zekere mate van (recente) enquêtemoeheid een rol. Het lage responspercentage van 8.2% betekent wel dat de resultaten niet zonder meer naar alle NIP-leden kunnen worden gegeneraliseerd.

Tabel 1: Steekproefgegevens 2000-2009-2020

De verdeling wat betreft sekse voor de jaren 2009 en 2020 is vergelijkbaar, maar afwijkend van die in 2000. Het aandeel vanuit de diverse specialisaties blijft over de jaren heen redelijk gelijk. De gemiddelde leeftijd van de respondenten wordt over de drie afnamejaren heen steeds hoger (bij alle nip-leden neemt de gemiddelde leeftijd tussen 2009 en 2020 overigens ook toe van 46.7 naar 47.3 jaar). Toetsing van de verschillen tussen de drie jaren leverde voor sekse en leeftijd significante verschillen op (p < .01). Voor zover deze variabelen samenhangen met de antwoorden op de enquête betekent dit dat hiermee bij de interpretatie van de resultaten van de totale groep over de jaren heen rekening moet worden gehouden.

Om te kunnen bepalen of de gegevens van deze enquête kunnen worden gegeneraliseerd naar alle NIP-leden is de steekproef op de variabelen geslacht, specialisatie en leeftijd vergeleken met een bestand met achtergrondinformatie van alle NIP-leden (zie tabel 2). Toetsing wees uit dat de gemiddelde leeftijd van de steekproef gelijk is aan die van de populatie van alle nip-leden. Daarentegen kan de steekproef op de variabelen sekse en specialisatie niet als representatief voor de populatie van alle nip-leden worden beschouwd (p in beide gevallen < .01).

Tabel 2: Representativiteit steekproef 2020

In de steekproef is het percentage mannen iets hoger dan in het NIP-bestand. Op de variabele specialisatie komen grotere afwijkingen voor, er lijkt sprake van een oververtegenwoordiging van psychologen met een klinische specialisatie en ondervertegenwoordiging van psychologen met specialisatie onderwijs. Er is opzettelijk voor het woord ‘lijkt’ gekozen, omdat de vraag naar specialisatierichting in de EFPA-enquête (die uitgaat van drie grove categorieën Klinisch, Onderwijs en a&o en een categorie Overig) afwijkt van de meer specifieke sectie-indeling van het nip. Omdat derhalve van individuele respondenten niet bekend is tot welke sectie ze behoren, moesten op steekproefniveau specialisatierichting en nip-sectie-lidmaatschap worden gematched. Bij de sectie-indeling van het nip is alleen gekeken naar de sectie van eerste keuze. Alle leden van de secties Arbeid & Organisatie en Sociale en Economische Psychologie (sep) werden geacht tot de specialisatie a&o te behoren. Alle leden van de sectie Jeugd werden geacht tot de specialisatie Onderwijs te behoren. Tot de specialisatie Klinisch werden gerekend leden van de secties GGZ, Lichaamsgericht werkende psychologen, Zorg voor mensen met een verstandelijke beperking, Ouderenpsychologie, Seksualiteit & diversiteit, Verslavingspsychologie, Forensische psychologie, Neuropsychologie, Psychologen algemene ziekenhuizen en Revalidatie. Bij de specialisatie ‘anders’ werden ingedeeld leden van de secties Startende psychologen, Mediation en Onbekend.

Zo lijkt de oververtegenwoordiging van klinisch psychologen en ondervertegenwoordiging van onderwijspsychologen in de steekproef een gevolg van deze verschillende systemen. Mogelijk speelt ook een rol dat men bij de aanvang van het lidmaatschap van het nip aangeeft tot welke sectie men behoort en dat men lang niet altijd de moeite neemt dit later te wijzigen wanneer de inhoud van het werkgebied is veranderd. Ook is een gedeeltelijke verklaring dat een aantal respondenten de categorie ‘overig’ heeft aangevinkt wanneer men op meerdere terreinen werkzaam was.

Figuur 1A-C: Gemiddelde Itemscores en standaardmeetfouten in 2000-2009-2020

Verschillen tussen jaren en tussen groepen worden weergegeven met behulp van gestandaardiseerde effectgroottes (Cohen’s d) en 95% betrouwbaarheidsintervallen (BHI) rondom de effectgroottes. Omdat we geen vooraf opgestelde hypothesen toetsen, vermelden we geen p-waarden.

Resultaten

De resultaten worden per thema besproken. Deze thema’s zijn bepaald met behulp van factoranalyse, uitgevoerd op de huidige Nederlandse data en gegevens verzameld met eerdere vragenlijsten in Nederland en in de rest van Europa (Evers et al., 2001; Evers et al., 2012; Evers et al., 2017). De resultaten waren sterk vergelijkbaar en worden daarom in dit stuk niet uitgebreid besproken. Deze resultaten zijn te vinden op ResearchGate (zie noot 2).

In figuur 1 staan de gemiddelden van de antwoorden voor de totale onderzoeksgroep in 2000, 2009 en 2020 per thema. Figuur 2 laat de schaalscores per jaar zien en figuur 3 geeft de schaalscores uit 2020 weer, opgesplitst naar specialisatie.

Onjuist Testgebruik

Kijkend naar de itemscores in figuur 1 lijken de Nederlandse psychologen weinig onjuist testgebruik te zien in hun omgeving, de gemiddeldes in alle jaren liggen ruim beneden het schaal-midden. Testafname door ongekwalificeerd personeel wordt het minst

Figuur 1D-F: Gemiddelde Itemscores en standaardmeetfouten in 2000-2009-2020

gerapporteerd en het niet toetsen van de eigen interpretatie bij collega’s en het niet bijhouden van ontwikkelingen op het gebied van toetsen worden het vaakst gezien. Ten opzichte van 2009 lijken de eventuele zorgen over onjuist testgebruik amper veranderd (d = .03, 95% BHI [-.11, -06]), terwijl er tussen 2000 en 2009 nog sprake was van een kleine toename in zorgen over onjuist testgebruik (d = .27, 95% BHI [.21, .33]).

In figuur 3 is verder te zien dat in 2020 psychologen uit het vakgebied a&o het meeste onjuist testgebruik rapporteren en psychologen uit het onderwijs het minste, maar zelfs de verschillen tussen deze twee meest verschillende groepen waren redelijk klein (d = .41, 95% BHI [.13, .69]). Verder dient hierbij te worden opgemerkt dat onderwijspsychologen in 2020 waren ondervertegenwoordigd in de steekproef. Omdat deze groep de laagste scores rapporteert, zou evenredige vertegenwoordiging van onderwijspsychologen tot een iets lager gemiddelde in de totale groep hebben kunnen leiden.

Regels omtrent testgebruik

Over het algemeen lijken psychologen gematigd positief te zijn over enige regels en richtlijnen voor testgebruik. De meeste bijval kregen de stellingen dat testgebruik voorbehouden moet zijn aan psychologen en dat richtlijnen over testen en testgebruik, bijvoorbeeld die van de EFPA of APA, verplicht gesteld moeten worden. In figuur 2 is te zien dat de attitudes rondom regels en richtlijnen bijna identiek waren aan de attitudes zoals vermeld in 2009 (d = -.04, 95% bhi [-.12, .05]). In figuur 3 zien we verder erg kleine verschillen tussen deelnemers uit verschillende disciplines. Onder- respectievelijk oververtegenwoordiging van deze disciplines in de steekproef zal dan ook geen invloed hebben gehad op de resultaten.

Testen via het internet

In vergelijking met 2009 lijken psychologen iets positiever over testen via internet (d = .25, 95% bhi [.17, .33]), vooral wat betreft mogelijke voordelen bij juist gebruik (d = .23, 95% bhi [.14, .31]) en de voordelen ten opzichte van papier- en potloodafname (d = .16, 95% BHI [.07, .24]). De privacy-risico’s lijken juist wat lager ingeschat te worden (d = -.27, 95% BHI [-.35, -.18]). De verschillen zijn echter klein. Verder valt op dat psychologen uit het a&o-domein beduidend positiever waren over internettesten dan collega’s uit andere disciplines (d = .64, 95% bhi [.47, .82]). Het effect op de scores in 2020 in de totale groep van de oververtegenwoordiging van klinisch psychologen en de ondervertegenwoordiging van onderwijspsychologen is naar verwachting minimaal, omdat deze effecten tegen elkaar wegvallen.

Waardering van tests

Figuur 2: Gemiddelde schaalscores standaardmeetfouten in 2000-2009-2020

Over het nut en de kwaliteitsverbetering van tests waren de respondenten over het algemeen positief. Ten opzichte van 2009 lijkt dat nauwelijks veranderd (d < .01, 95% bhi [-.08, .08]). Wat verder opvalt, is dat er tussen 2000 en 2009 een behoorlijke toename was in gerapporteerd regelmatig testgebruik (d = .76, 95% bhi [.70, .83]), maar dat die toename erg klein was tussen 2009 en 2020 (d = .10, 95% bhi [.02, .18]). Figuur 3 laat zien dat verschillen tussen disciplines wat betreft waardering van tests verwaarloosbaar lijken te zijn. Onder- respectievelijk oververtegenwoordiging van deze disciplines in de steekproef zal dan ook geen invloed hebben gehad op de resultaten.

Kennis over tests en testgebruik

Wat betreft kennis over tests en testgebruik zoals opgedaan tijdens de studie waren de respondenten niet erg positief. Op schaalniveau lijken de verschillen met de reacties uit 2009 verwaarloosbaar (d = .07, 95% bhi [-.02, .15]). Wat opvalt, is dat percepties over of bachelor-(ba-)opleidingen voldoende kennis over tests en testgebruik bieden zijn afgenomen tussen 2000 en 2009 (d = -.52, 95% bhi [-.58, -.45]) en sindsdien weinig veranderd zijn (d = .14, 95% bhi [.06, .22]).

Percepties met betrekking tot de vraag of master- (ma -)opleidingen voldoende kennis bieden over tests en testgebruik waren juist iets toegenomen tussen 2000 en 2009 d = .22, 95% BHI [.16, .28]), maar ook die kleine toename lijkt tussen 2009 en 2020 niet noemenswaardig doorgezet te zijn (d = .06, 95% bhi [-.02, .14]). Ook was in 2009 wat minder kennis over tests en testgebruik afkomstig uit de opleiding, dan in 2000 (d = -.30, 95% bhi [-.37, -.24]). Een dergelijk verschil wordt tussen 2009 en 2020 niet gevonden (d = -.04, 95% bhi [-.12, .05]).

Figuur 3: Gemiddelde schaalscores en standaardmeetfouten in 2020, per subgroep

Ook wat betreft kennis over tests en testgebruik opgedaan in de studie lijken de verschillen tussen respondenten uit verschillende disciplines verwaarloosbaar klein (figuur 3). Onder- respectievelijk oververtegenwoordiging van deze disciplines in de steekproef zal dan ook geen invloed hebben gehad op de resultaten.

Overige vragen

Op de vraag of er in Nederland voldoende informatie beschikbaar is over de kwaliteit van tests wordt niet positief of negatief gereageerd (figuur 1e). Tussen 2000 en 2009 was daarin wel een kleine verbetering te zien (d = .36, 95% bhi [.30, .42]), maar die lijkt tussen 2009 en 2020 niet noemenswaardig doorgezet te hebben (d = .10, 95% bhi [.02, .18]). Wel worden sinds 2009 papier-en-potlood tests iets vaker vervangen door computertests (d = .17, 95% bhi [.11, .24]). Over het laten afnemen (maar niet interpreteren) van psychologische tests door niet-psychologen waren de respondenten gematigd positief. Daar lijkt tussen 2000 en 2009 (d = .15, 95% bhi [.09, .22]) en tussen 2009 en 2020 (d = -.19, 95% bhi [-.28, -.11]), slechts weinig in veranderd te zijn.

Top tien meest gebruikte tests

De respondenten is ook gevraagd om de drie tests te noemen die zij het meeste gebruiken. Dat leverde de top tien op zoals weergegeven in tabel 3. Wat opvalt, is dat er aan de populariteit van tests weinig lijkt te veranderen. Aan de ene kant zou dit kunnen wijzen op behoudendheid. Aan de andere kant zijn enkele tests in de top-tien de laatste jaren drastisch vernieuwd (onder meer WISC, NPV(-J), MMPI, NEO; verklaring afkortingen staan onder tabel 4).

Tabel 3: Top 10 van tests naar percentage gebruikers

Dit kan ook wijzen op de keuze voor bewezen kwaliteit. Bovendien zijn negen tests uit de top tien ter beoordeling aangeboden aan de COTAN (de uitzondering is de TMT/D-KEFS), wat zeker niet het geval is voor alle tests die worden gebruikt. De kwaliteit van deze tests is ook hoog, met uitzondering van de BSI en de MMPI; bij deze twee tests worden drie van de zeven criteria met ‘onvoldoende’ beoordeeld (het betreft bij beide tests de normen, begripsvaliditeit en criteriumvaliditeit). Wat ook opvalt, is dat de gebruikspercentages van tests uit de top tien lager liggen dan in voorgaande jaren. Testgebruikers lijken daarom wel degelijk gebruik te maken van een grotere variatie aan tests. Een opvallende nieuwkomer in de lijst is de Brief Symptoms Inventory (BSI), die pas sinds 2011 in het Nederlands beschikbaar is.

Discussie

Opvallend is dat er in 2020 relatief weinig veranderd lijkt te zijn ten opzichte van 2009. Helaas kan deze conclusie niet worden vergeleken met die ten aanzien van de resultaten in andere Europese landen, omdat nog niet alle resultaten van de meest recente enquête in andere landen zijn verzameld en verwerkt. Hierover zal te zijner tijd een Engelstalig artikel verschijnen. Wel kan worden gezegd dat de verschillen in attitudes die bestonden tussen de zes Europese landen die hebben deelgenomen aan de enquêtes in 2000 en 2009 stabiel bleken (Evers et al., 2012). Dat wil zeggen dat voor zover veranderingen plaatsvonden deze in de verschillende landen parallel liepen. Als deze trend doorgetrokken kan worden, mag men ook in andere Europese landen geen grote veranderingen in testattitude verwachten in 2020-2021 ten opzichte van 2009.

Psychologen hebben nog steeds in het algemeen de indruk dat er weinig onjuist testgebruik plaatsvindt. Ze vinden het gebruik van tests belangrijk en ze vinden het belangrijk dat er richtlijnen voor het gebruik van tests zijn. De vraag blijft dan wel hoe specifiek deze regels moeten zijn. Op het ogenblik is een groep binnen de cotan aan het inventariseren hoe psychologen aankijken tegen meer specifieke instructies voor testgebruik, zoals hoe informatie te combineren van psychologische tests met andere informatie. Resultaten van dit onderzoek kunnen helpen het testgebruik verder te professionaliseren (zie Niessen, Meijer & Neumann, 2019; Niessen, Meijer, & Hurks, 2021).

Een wellicht onverwacht resultaat was dat de waardering van testen via internet slechts lichtjes is toegenomen gedurende de laatste tien jaar. Met de verdere ontwikkeling van het internet, het intensievere gebruik van het internet en het beschikbaar komen van steeds meer tests die via de computer worden afgenomen, hadden we een sterkere toename in waardering van testen via internet verwacht. Wellicht dat hier een rol speelt dat onze steekproef vooral uit wat oudere respondenten bestaat die mogelijk conservatiever denken over internet-based en computer-based testen. Het kan ook zo zijn dat er nog steeds reële beperkingen kleven aan het gebruik van internet-based tests, zoals het gebrek aan persoonlijk contact of fraude in het geval van bijvoorbeeld personeelsselectie. De vragenlijst is afgenomen aan het begin van de covid-19-pandemie. Het is mogelijk dat later in de pandemie een herwaardering van de waarde van internet of digitale testen heeft plaatsgevonden, vermoedelijk omdat de diagnostiek en behandelingen (deels) gedwongen online hebben moeten plaatsvinden door restricties opgelegd door de overheid. Daarnaast hebben diverse organisaties, zoals de American Psychological Association (APA) en de InterOrganizational Practice Committee (IOPC), de afgelopen anderhalf jaar diverse internationale richtlijnen uitgebracht die professionals moeten helpen in het kader van online testen in het bijzonder en telepsychologie in het algemeen.3 De APA definieert de term ‘telepsychologie’ als ‘Het verlenen van psychologische diensten met behulp van telecommunicatietechnologieën. Telecommunicatie betreft de voorbereiding, verzending of verwante verwerking van informatie met elektrische, elektromagnetische, elektromechanische, elektro-optische of elektronische middelen (Committee on National Security Systems, 2010). Telecommunicatietechnologieën omvatten, maar zijn niet beperkt tot, telefoon, mobiele apparaten, interactieve videoconferenties, e-mail, chat, tekst en internet (bijvoorbeeld zelfhulpwebsites, blogs en sociale media)’. Een vervolgvragenlijst moet laten zien of deze verwachte herwaardering inderdaad heeft plaatsgevonden en/of deze zich doorzet later in en/of na de pandemie.

Een andere ontwikkeling op testgebied die de attitudes van psychologen kan beïnvloeden is de opkomst van gamified assessment. Hier worden tests aangeboden in een spel-format en worden kenmerken van games gebruikt, zoals het verdienen van punten na een prestatie of het doorgaan naar een hoger niveau. Deze tests hebben een hoge indruksvaliditeit en lijken populair bij kandidaten, maar zijn vaak nog niet sterk psychometrisch onderbouwd. Interessant is te onderzoeken hoe psychologen in de toekomst deze tests waarderen en inzetten.

Een belangrijke andere bevinding is dat de onderzochten nog steeds een lacune signaleren in de opgedane kennis over tests en testgebruik bij zowel bachelor- als masteropleidingen. Dit is zorgwekkend. Testkwaliteit en testgebruik zijn essentieel in vele, zo niet alle, specialisaties van praktiserende psychologen. Op basis van tests worden (zeer) belangrijke beslissingen genomen. In 2018 heeft de Kamer Psychologie, bestaande uit vertegenwoordigers van alle psychologieopleidingen in Nederland, afgesproken welke componenten de opleidingen in elk geval moeten omvatten. Het is goed te zien dat bijvoorbeeld psychodiagnostiek zowel voor de bachelor- als masterfase genoemd wordt als relevant voor de beroepspraktijk. Psychologen dienen daarmee tijdens hun opleiding een goede basis te krijgen van testtheorie, beschikbare tests en testgebruik. Voorbeelden van relevante onderwerpen zijn: de psychometrische kwaliteiten van tests, hoe tests geselecteerd en ingezet worden en hoe testresultaten meewegen in een oordeel.

Psychologen hebben nog steeds de indruk dat er weinig onjuist testgebruik plaatsvindt

De vraag is waarom de respondenten desalniettemin op dit specifieke punt in 2020 nog altijd laag scoren. Is het bijvoorbeeld zo dat er in de opleidingen te weinig aandacht aan deze onderwerpen wordt besteed? Of dat de timing van aanbieding in de opleidingen niet goed is (bijvoorbeeld dat dit te vroeg aan bod komt)? Of dat de bespreking van de inhoud dusdanig is dat cursisten niet of onvoldoende leren om de stof te vertalen naar en/of toe te passen in het toekomstige werk als psycholoog? Een psycholoog kan bijvoorbeeld op de universiteit leren dat een test betrouwbaar en valide moet zijn, maar wat dient een psycholoog te doen als deze in zijn of haar praktijk slechts een beperkt aantal tests met twijfelachtige psychometrische eigenschappen voorhanden heeft? Zoals blijkt uit de resultaten van de vraag naar meest gebruikte tests heeft de psycholoog nog steeds een voorkeur voor gerenommeerde tests die als relatief goed door de cotan zijn beoordeeld. Eveneens blijkt echter dat de variatie in gebruikte tests is toegenomen. Daaronder bevinden zich veel tests waarvan de kwaliteit ongewis is.

Vervolgonderzoek dient in te gaan op waar volgens psychologen de hiaten zitten in het onderwijs ten aanzien van tests en testgebruik, maar ook ten aanzien van andere onderwerpen binnen de psychodiagnostiek (zoals de eerdergenoemde wijze van weging van testresultaten bij het nemen van beslissingen) en wat hen verder kan brengen. Daarbij is het aan te bevelen om te spreken met psychologen uit diverse disciplines en best practices vanuit deze disciplines te verzamelen: wat kunnen we van elkaar leren en wat kunnen we leren uit de wetenschappelijke literatuur (zie Niessen et al, 2019; 2021)? Deze kennis kan vervolgens gedeeld worden met de (post-)universitaire opleidingen en relevante landelijke commissies, zoals de Commissie Basisaantekening Psychodiagnostiek (BAPD) van het NIP.

Referenties

  1. https://www.rijksoverheid.nl/actueel/nieuws/2018/07/06/geen-toetsen-meer-voor-kleuters
  2. Evers, Hurks, Meijer & Niessen (2021). Aanvullende informatie EFPA enquête Nederland – 2020. Beschikbaar via ResearchGate. DOI: 10.13140/RG.2.2.21359.76968
  3. Zie https://Iopc.online en https://www.apa.org/practice/guidelines/telepsychology

Beeld: eakasarn/shutterstock.com

Literatuurlijst

  1. Bröder, A. (2002). Take the best, Dawes’ rule, and compensatory decision strategies: A regression-based classification method.Quality and Quantity,36(3), 219-238.
  2. Committee on National Security Systems (2010). National Information Assurance Glossary. Washington DC: Author.
  3. Drenth, P.J.D. (1975). La contestation des tests. Revue Internationale de Psychologie Appliquée, 24, 17-36.
  4. Drenth, P.J.D. & Sijtsma, K. (2006). Testtheorie. Inleiding in de theorie van de psychologische test en zijn toepassingen (4e herziene druk). Houten: Bohn Stafleu van Loghum.
  5. Evers, A., McCormick, C. M., Hawley, L. R., Muñiz, J., Balboni, G., Bartram, D., Boben, D., Egeland, J., El-Hassan, K., Fernández-Hermida, J. R., Fine, S., Frans, Ö., Gintiliené, G., Hagemeister, C., Halama, P., Iliescu, D., Jaworowska, A., Jiménez, P., Manthouli, M., Matesic, K., Michaelsen, L., Mogaji, A., Morley-Kirk, J., Rózsa, S.,  Rowlands, L., Schittekatte, M., Canan Sümer, H., Suwartono, T., Urbánek, T., Wechsler, S., Zelenevska, T., Zanev, S., & Zhang, J. (2017). Testing practices and attitudes towards tests and testing: An international survey. International Journal of Testing, 17, 158-190.
  6. Evers, A., Evers, A.K.  & Zaal, J.N. (2001). Opvattingen van Nederlandse psychologen over testgebruik. De Psycholoog, 36, 429-436.
  7. Evers, A., Lucassen, W., Meijer, R. & Sijtsma, K. (2009). COTAN beoordelingssysteem voor de kwaliteit van tests (geheel herziene versie).Amsterdam: NIP.
  8. Evers, A., Muñiz, J., Bartram, D., Boben, D., Egeland, J., Fernández-Hermida, J. R., Frans, Ö., Gintiliené, G., Hagemeister, C., Halama, P., Iliescu, D., Jawarowska, A., Jiménez, P., Manthouli, M., Matesic, K., Schittekatte, M., Sümer, H. C., & Urbanek, T. (2012). Testing Practices in the 21st Century: Developments and European Psychologists’s Opinions. European Psychologist, 17, 300-319.
  9. Evers, A., Zaal, J.N.  &  Evers, A. K. (2002). Ontwikkelingen in testgebruik over een periode van 33 jaar. De Psycholoog, 37, 54-61.
  10. Hofstee, W.K.B., Campbell, W.H., Eppink, A., Evers, A., Joe, R.C., Koppel, J.M.H. van & Zweers, H. (1990). Toepasbaarheid van tests bij allochtonen. LBR-reeks, nr. 11. Utrecht: LBR.
  11. Lilienfeld, S.O. & Lynn, S.J. (2014). Errors/biases in clinical decision making.The encyclopedia of clinical psychology, 1-9.
  12. Muñiz, J., Bartram, D., Evers, A., Boben, D., Matesic, K., Glabeke, K., Fernández-Hermida, J. R., & Zaal, J. N. (2001). Testing practices in European countries. European Journal of Psychological Assessment, 17, 201-211.
  13. Niessen, A.S.M., Meijer, R.R., & Neumann, M. (2019). Mis(ver)standen in de selectiepraktijk: Een goed verhaal maakt nog geen goede beslissing. De Psycholoog, 54, 46-55.
  14. Niessen, A.S.M., Meijer, R.R., & Hurks, P. (2021). Beslissen met intelligentietests: Testscores combineren met andere informatie. In Resing, W. C. M. (Ed.), Handboek intelligentietheorie en testgebruik (pp. 63-82). Amsterdam: Pearson Benelux.