Lees verder
Susan Niessen c.s. bespreken twee misverstanden over beslissen en beoordelen binnen de selectiepsychologie: (1) de expertise van de psycholoog is het beste ‘instrument’ om tot beslissingen te komen, en (2) meer informatie is beter. Ook lichten ze toe waarom praktiserende psychologen zo zelden de bevindingen en aanbevelingen uit de wetenschappelijke literatuur toepassen en doen ze aanbevelingen voor verbetering. ‘We dienen de methoden te gebruiken die tot de beste voorspellingen leiden.’
Susan Niessen, Rob Meijer, Marvin Neumann

‘No one ever made a decision because of a number. They need a story.
The understanding of numbers is so weak, that they don’t communicate anything. Everyone feels that those probabilities are not real- that they are just something on somebody’s mind’

Daniel Kahneman in Michael Lewis’ The Undoing Project (2016, p. 250)


Als selectiepsychologen nemen we beslissingen die belangrijke gevolgen kunnen hebben, zoals het aanbieden van een baan of het toelaten tot een opleiding. Om deze beslissingen te ondersteunen, gebruiken we informatie uit psychologische tests, interviews, opdrachten en vragenlijsten. Het voornaamste doel van het gebruik van deze instrumenten is het vergroten van de kans op het nemen van juiste beslissingen. Dit soort beslissingen hebben belangrijke gevolgen voor kandidaten, organisaties en de maatschappij en dienen dus genomen te worden op basis van valide instrumenten en procedures.

Er is daarom – terecht – veel aandacht voor de kwaliteit (betrouwbaarheid en validiteit) van individuele instrumenten zoals tests en vragenlijsten. Maar de manier waarop beslissingen tot stand komen is daarnaast minstens zo belangrijk. Uit de literatuur weten we op basis van welke informatie beslissingen het beste genomen kunnen worden en hoe informatie het best te combineren is. Deze kennis wordt echter zelden door psychologen toegepast (Highhouse, 2008). In dit artikel bespreken we twee veelvoorkomende misververstanden over beslissen en beoordelen binnen de selectiepsychologie, namelijk (1) de expertise van de psycholoog is het beste ‘instrument’ om tot beslissingen te komen, en (2) meer informatie is beter.

Het voornaamste doel van het gebruik van psychologische tests, interviews, opdrachten en vragenlijsten is het vergroten van de kans op het maken van juiste beslissingen en voorspellingen

Ook bespreken we waarom praktiserende psychologen zo zelden de bevindingen en aanbevelingen uit de wetenschappelijke literatuur toepassen. In dit artikel schetsen we een beeld van de huidige stand van zaken en doen we aanbevelingen voor verbetering. We doen dit op basis van literatuur uit de selectiepsychologie, maar verschillende opmerkingen zijn ook toepasbaar op andere terreinen van de psychologie.1

Hoe nemen psychologen selectiebeslissingen?

Om beslissingen te nemen gebruiken selectiepsychologen vaak verschillende instrumenten. Informatie die wordt verkregen door middel van deze instrumenten wordt dan meestal op holistische wijze gecombineerd om tot een oordeel te komen. Dat wil zeggen, de psycholoog combineert de beschikbare informatie ‘in het hoofd’ op basis van expertise of intuïtie, zonder expliciete beslisregel of vooraf vastgestelde weging (Kuncel & Highhouse, 2011; Silzer & Jeanneret, 2011). Deze vorm van assessment wordt ook wel aangeduid als ‘individuele assessment’ (Highhouse, 2002; Morris, Daisley, Wheeler & Boyer, 2015). Bij een individueel assessment kan de keuze van instrumenten op het individu zijn afgestemd (Morris et al., 2015) en verschilt de weging van de instrumenten in ieder geval per individu (Yu, 2018). Hoe goed functioneert het individuele assessment, dat wil zeggen hoe goed zijn deze holistische beslissingen en voorspellingen?

Opmerkelijk is dat er niet zo veel onderzoek gedaan is naar de effectiviteit van zulke individuele assessmentprocedures. In een recente metaanalyse kwamen Morris et al. (2015) tot een gemiddelde validiteit van ongeveer r =.302. Deze validiteit is aanzienlijk lager dan de validiteit die resulteert uit een optimale combinatie van gegevens op basis van de instrumenten die veel gebruikt worden in individuele assessments (r =.63). Belangrijk is echter dat de predictieve validiteit sterk varieerde tussen studies en dat na 1970 slechts twee studies over dit onderwerp zijn gepubliceerd. In een recent proefschrift vond Yu (2018) dat de gemiddelde validiteit van beoordelingen op basis van individuele assessments gelijk was aan r =.16, terwijl de validiteit van dezelfde informatie gecombineerd volgens optimale weging gelijk was aan r =.31.

De validiteit van individuele assessments is dus suboptimaal en lager dan de validiteit die verkregen zou kunnen worden op basis van de beschikbare informatie. Toch wordt deze vorm van assessment erg veel gebruikt in de praktijk. Daaraan liggen twee veelvoorkomende misverstanden ten grondslag.

Misverstand 1:

De expertise van de psycholoog is het beste ‘instrument’ om tot beslissingen te komen

In de selectiepraktijk wordt informatie verzameld en gecombineerd om te beslissen of een kandidaat wel of niet wordt aangenomen, of wel of niet naar een volgende ronde gaat. De vraag is hoe we dat het beste kunnen doen. Sinds het inmiddels klassieke werk van Meehl (1954) weten we dat we vaak tot betere voorspellingen komen wanneer we informatie combineren via regels die we tevoren hebben opgesteld (statistische predictie) dan wanneer we informatie combineren ‘in ons hoofd’ (klinische predictie), zoals wordt gedaan bij individuele assessments. Voorspellingen die gemaakt worden op basis van beslisregels zijn volgens de meest recente metaanalyse op dit gebied gemiddeld 50% accurater dan klinische voorspellingen (Kuncel, Klieger, Connelly & Ones, 2013). Dat komt vooral omdat mensen, en dat geldt ook voor psychologen, niet goed in staat zijn om informatie voor elke persoon consistent te wegen. We geven dus verschillende gewichten aan dezelfde informatie (testscores, interviews), voor verschillende personen (Dawes, 1979; Karelaia & Hogarth, 2008; Yu, 2018).

Mensen zijn niet goed in staat om informatie voor elke persoon consistent te wegen

Een mogelijkheid om consistentie te realiseren is door aan elke score op een instrument een gewicht toe te kennen, bijvoorbeeld verkregen door middel van een regressiemodel op eerder verzamelde data. In de praktijk is dat vaak lastig door een geringe steekproefomvang of doordat eerdere data niet beschikbaar zijn. Gelukkig is een optimale weging niet noodzakelijk; wanneer alle variabelen hetzelfde gewicht krijgen, of zelfs wanneer willekeurige gewichten worden toegekend, leidt het gebruik van een simpele regel vaak tot betere resultaten dan wanneer we resultaten holistisch combineren (Dawes, 1979; Yu, 2018). Dus de boodschap hier is: gebruik een regel zodat je gedwongen wordt om informatie consistent te combineren.

Misverstand 2:

Meer informatie is beter

In veel richtlijnen voor goed testgebruik wordt gesteld dat we nooit een beslissing moeten nemen op basis van één instrument of test, maar dat verschillende bronnen van informatie moeten worden gecombineerd om tot een oordeel te komen. Vaak wordt dan ook impliciet verondersteld dat meer informatie beter is. Uit onderzoek blijkt dat ook beoordelaars meer vertrouwen in hun voorspellingen en beslissingen hebben wanneer deze gebaseerd zijn op meer informatie (Dana, Dawes, & Peterson, 2013; Kausel, Culbertson, & Madrid, 2016). Hoewel het idee om een beslissing te nemen op basis van meerdere instrumenten plausibel is (betrouwbaarder dan het gebruik van één instrument, betere en volledigere weerspiegeling van de te voorspellen prestaties), is waakzaamheid hier wel geboden. Meer informatie is niet altijd beter en zelfs de opvatting ‘baat het niet dan schaadt het niet’ gaat vaak niet op. Meer informatie kan, in meer gevallen dan vaak lijkt te worden aangenomen, schadelijk zijn voor de kwaliteit van beslissingen.

Verdunnend effect

Dana et al. (2013) en Kausel et al (2016) laten zien hoe meer informatie tot minder goede beslissingen kan leiden, namelijk doordat informatie met een geringe validiteit valide informatie ‘verdund.’

Zo vroegen Dana et al. (2013) deelnemers om het gemiddelde schoolcijfer van studenten te voorspellen op basis van alleen eerder behaalde studieprestaties of op basis van studieprestaties en een ongestructureerd interview – nog altijd zeer populair in selectie. Bovendien werd de helft van de geïnterviewden geïnstrueerd om willekeurige antwoorden te geven. De resultaten lieten zien dat de voorspellingen minder accuraat waren wanneer de deelnemers een interview mochten afnemen (r = .31), dan wanneer zij alleen over eerdere studieresultaten beschikten (r =.65). Bovendien had het type interview (willekeurig of niet) geen effect op de validiteit of de mate waarin de beoordelaars de interviews als waardevol beschouwden. Het gevolg van het afnemen van een ongestructureerd interview was dus dat de waardevolle informatie (eerdere studieprestaties) gedeeltelijk ‘verdund’ werd, waardoor ook de voorspellingen minder werden. Kausel et al. (2016) vonden vergelijkbare resultaten, waarbij voorspellingen minder accuraat werden wanneer beoordelingen uit een interview werden toegevoegd bovenop cognitieve testscores en consciëntieusheidsscores, maar dat beoordelaars in dat geval, ten onrechte, meer vertrouwen in hun voorspelingen hadden.

Er zijn twee zeer interessante lessen te leren uit deze studies. Ten eerste kunnen mensen in deze context heel slecht betekenisvolle van betekenisloze informatie onderscheiden. Ze gaan vaak af op of iets goed ‘voelt’ en geven aan dit gevoel dan een belangrijke waarde in een voorspelling. Ten tweede zorgt dit goede gevoel, of anders geformuleerd, dit verhaal dat mensen zichzelf vertellen, voor een minder goede voorspelling. Kortom, wanneer informatie een relatief lage predictieve validiteit maar een hoge face validiteit heeft, is meer informatie wel degelijk schadelijk.

Mensen gaan vaak af op of iets goed ‘voelt’ en geven aan dit gevoel dan een belangrijke waarde in een voorspelling

Weging

Uit bovenstaande kunnen we opmaken dat we bij de vaak gegeven richtlijn dat beslissingen niet gemaakt moeten worden op basis van één testscore of observatie niet vergeten moet worden dat de aanvullende informatie ook betrouwbaar en valide moet zijn en dat ze incrementele (toegevoegde) validiteit moet hebben om tot betere voorspellingen en beslissingen te leiden. Zelfs wanneer uit onderzoek is gebleken dat informatie incrementele validiteit heeft ten aanzien van andere informatie, betekent dit nog niet dat het gezamenlijk gebruik van deze informatie tot betere voorspellingen en beslissingen leidt. Zoals hierboven besproken is het consistent toepassen van wegingsfactoren zeer belangrijk, maar de grootte van de wegingsfactoren doet er ook toe. In sommige gevallen kan informatie die bij een optimale weging incrementele validiteit heeft, een negatieve invloed op de validiteit hebben bij een suboptimale weging.

Incrementele validiteit wordt in de regel onderzocht op basis van multipele regressiemodellen. Hier wordt nagegaan of de toevoeging van informatie tot een toename in de verklaarde variantie leidt bovenop bestaande informatie, gegeven een optimale weging van de variabelen (bijv. Schmidt & Hunter, 1998). Wanneer die weging echter niet optimaal is, kan de predictieve validiteit in sommige gevallen juist lager worden door toevoeging van aanvullende informatie die wel incrementele validiteit heeft als een optimale weging wordt toegepast (Cascio & Aguinis, 2004). Sackett, Dahlke, Shewach en Kuncel (2017) laten bijvoorbeeld zien dat combinaties van voorspellers met gelijke gewichten vaak tot minder goede voorspellingen leiden dan wanneer alleen de beste voorspeller wordt gebruikt in het geval dat (1) de tweede voorspeller een aanzienlijk lagere predictieve validiteit heeft dan de eerste voorspeller en (2) de twee voorspellers onderling samenhangen met r >.30. Gelijke weging kan dus goede voorspellingen opleveren wanneer beide voorspellers valide en onafhankelijk zijn, en optimale weging leidt in veel gevallen tot betere voorspellingen dan wanneer er meer dan één valide voorspeller wordt gebruikt. Dit is echter niet zonder meer het geval en kan aanvullende informatie wel degelijk schaden. Een middenweg die bewandelt zou kunnen worden als optimale gewichten niet bekend zijn, is het wegen van voorspellers aan de hand van de predictieve validiteit (Dana & Dawes, 2004).

Getrapte selectie

Wanneer we informatie van verschillende instrumenten met elkaar combineren worden ook vaak grensscores gebruikt voor verschillende instrumenten, bijvoorbeeld wanneer kandidaten minstens een bepaalde intelligentiescore dienen te halen om verder te gaan in de selectieprocedure. Sackett et al. (2017) laten zien dat ook voor dit soort getrapte procedures geldt dat een tweede ‘trede’ weinig toevoegt bovenop de meest valide voorspeller, wanneer de tweede voorspeller een predictieve validiteit heeft van r<.3. Clauser en Wainer (2016) adviseren bijvoorbeeld om een grensscore te gebruiken op basis van een samengestelde score van de verschillend tests. De belangrijkste boodschap in hun artikel is echter dat de manier waarop informatie moet worden gecombineerd afhankelijk is van de keuzes voor het minimaliseren van vals positieve of vals negatieve beslissingen.

De kloof tussen wetenschap en praktijk

Het nemen van goede selectiebeslissingen op basis van verschillende informatiebronnen is dus lang niet eenvoudig. Enerzijds komt dit door de menselijke aard. Mensen overschatten hun eigen vermogen om tot goede voorspellingen te komen en hebben een beter gevoel bij een goed gesprek dan bij de informatie dat een test r =.4 correleert met toekomstig gedrag, waardoor ze te veel vertrouwen op informatie die er niet toe doet. De wetenschap is er met onderzoek naar de hierboven besproken zaken dus in zekere mate wel in geslaagd om antwoorden te vinden op hoe selectiebeslissingen het beste gemaakt kunnen worden. Maar dat heeft er niet toe geleid dat die inzichten ook in de praktijk worden toegepast (Cascio & Aguinis, 2008; Drenth, 2008). Er zijn verschillende manieren om deze kloof te dichten, waarvan we er drie bespreken.

Kennis en communicatie

Aanbevelingen over het combineren van informatie moeten worden opgenomen in handleidingen en professionele standaarden voor assessment

De bevindingen die hierboven zijn besproken dienen veel explicieter te worden opgenomen in richt lijnen voor psychologisch testgebruik. In veel handleidingen voor goed testgebruik (bijvoorbeeld de Amerikaanse Standards for Educational and Psychological Testing; aera, apa & ncme, 2014, pp. 71, 145 en 155) wordt vermeld dat een enkele testscore geen goede basis is voor het nemen van beslissingen en dat aanvullende relevante informatie altijd in ogenschouw moet worden genomen. Het is opmerkelijk dat hier niet bij wordt vermeld aan welke criteria die aanvullende informatie dan moet voldoen en hoe verschillende bronnen van informatie moeten worden gecombineerd. In de ‘Standards’ worden de klinische en de statistische manier van gegevenscombinatie wel beschreven, maar er wordt niet benoemd dat het statistisch combineren van informatie beter is dan de klinische manier. Ook wordt foutief geïmpliceerd dat het meewegen van informatie niet afkomstig van tests alleen bij klinische predictie mogelijk is (aera, apa & ncme, 2014, p. 167). In de Guidelines for Education and Training in Industrial Organizational Psychology (siop, 2016) wordt het afnemen van ‘individual assessments’ nota bene als ‘core content’ benoemd, dus wordt een klinische vorm van oordeelsvorming aanbevolen. Ook in de Algemene Standaard Testgebruik van het nip (2017) staat niets over hoe het beste informatie kan worden gecombineerd. Onze indruk is dat het statistisch combineren van gegevens nog steeds een controversieel onderwerp is en dat veel psychologen deze methode eigenlijk liever niet willen toepassen. Dit betekent echter dat in veel gevallen minder goede beslissingen worden genomen dan mogelijk is. Wij zijn het eens met Dawes (1979, 2005) dat dit onethisch is en zijn van mening dat richtlijnen voor psychologisch testen hier een belangrijk onderwerp laten liggen.

Wetenschappers moeten zich meer inspannen om de praktijk te helpen hun algemene bevindingen te vertalen naar specifieke situaties en goed testgebruik

Wetenschappers zouden hun effectmaten aan kunnen passen aan het publiek en vaker alternatieven kunnen gebruiken die intuïtiever te interpreteren zijn, zoals maten waaruit blijkt welk percentage van aangenomen kandidaten succesvol zou zijn als een bepaald instrument gebruikt wordt. Uit onderzoek bleek bijvoorbeeld dat binomial effect size displays, utiliteitsschattingen en grafische hulpmiddelen gemakkelijker te interpreteren waren (Bridgeman et al., 2009; Brooks, Dalal, & Nolan, 2014; Kuncel, 2008; Zhang et al., 2018). Een praktisch bruikbaar voorbeeld is een website (McLellan, 1996) waarop eenvoudig zelf uitgerekend kan worden welk percentage van aangenomen kandidaten succesvol zou zijn of wat het gemiddelde prestatieniveau zou zijn als een procedure met een bepaalde validiteit gebruikt wordt in een bepaalde situatie.

Er is meer validiteit

Wetenschappers zouden meer aandacht moeten besteden aan andere zaken dan validiteit die er in de praktijk toe doen. Daarvoor is een nauwere samenwerking tussen wetenschap en praktijk nodig.

In wetenschappelijke assessmentliteratuur wordt veruit de meeste aandacht aan betrouwbaarheid en validiteit besteed. Voor de praktijk zijn daarnaast echter ook andere zaken van belang. König et al. (2010) vonden dat percepties van sollicitanten, de kosten van assessmentprocedures en instrumenten en de populariteit van instrumenten en procedures vaak bepalen welke instrumenten en procedures worden gekozen. Aan deze zaken wordt in de wetenschappelijke literatuur te weinig aandacht besteed. Ook het belang van de autonomie van psychologen in de praktijk moet niet worden onderschat. Nolan en Highhouse (2014) vonden bijvoorbeeld dat beoordelaars minder autonomie ervoeren als zij gestandaardiseerde en statistische procedures moesten gebruiken en dat de mate van autonomie samenhangt met de intenties om procedures te gebruiken. Wanneer beoordelaars invloed kunnen uitoefenen op de inhoud of het resultaat van de procedures, bijvoorbeeld door zelf wegingsfactoren te bepalen (meer autonomie), stegen de intenties om statistische procedures te gebruiken (Dietvorst et al., 2018; Nolan & Highhouse, 2014). Deze bevindingen kunnen het gebruik van valide procedures van gegevenscombinatie in de praktijk bevorderen.

Gebrek aan feedback

Het is ook voor de praktijk belangrijk om systematisch data te verzamelen, zodat het mogelijk is om bestaande procedures te evalueren. Dit zou de acceptatie van ‘evidence based’ procedures kunnen vergroten.

Beoordelaars zijn vaak zelfverzekerder over de juistheid van hun beslissingen dan gerechtvaardigd is (Kausel et al., 2016). Zelfs de resultaten van een veelvoud aan wetenschappelijk onderzoek overtuigt beoordelaars niet van de onjuistheid van het vertrouwen in hun eigen beoordelingsvaardigheden. Mensen zijn niet geneigd om te denken dat algemene bevindingen ook op de specifieke situatie waarin zij zich bevinden van toepassing zijn (Dawes, Faust, & Meehl, 1989; Kahneman, 2011, pp.174, 212). Er is dus behoefte aan feedback over het eigen beoordelingsvermogen in de eigen specifieke context.

Selecteurs en praktijkpsychologen krijgen zelden systematische feedback over de juistheid van hun beslissingen. Bij gebrek aan feedback zijn we ten onrechte geneigd om ons zelfvertrouwen te gebruiken als richtlijn voor de juistheid van onze beslissingen. Dat zelfvertrouwen komt voort uit de bekendheid die we met taken hebben en het gemak waarmee we onze taken uitvoeren. Zaken die ons vertrouwen in informatie vergroten (veel, coherente, complexe en narratieve informatie verlagen echter juist de validiteit (Kahneman & Tversky, 1973)). Bovendien zijn we geneigd om meer aandacht te schenken aan informatie die onze beoordeling bevestigt en beoordelen we onze voorspellingen achteraf te vaak als juist; de bekende confirmation bias en hindsight bias (Kahneman & Tversky, 1973; Slaughter & Kausel, 2014), die de illusie dat onze beslissingen valide zijn versterken.

Van systematische feedback worden psychologen echter waarschijnlijk geen betere ‘klinische’ beoordelaars. In relatief onvoorspelbare contexten zoals bij selectie, waarbij feedback vaak lang op zich laat wachten, is het praktisch onmogelijk om expertise in beoordelen en voorspellen te verwerven (Kahneman & Klein, 2009). Gestructureerde en statistische procedures zijn dus hoe dan ook noodzakelijk om valide beslissingen te nemen. Systematische feedback kan wellicht bijdragen aan de acceptatie van die boodschap. Dit is echter waarschijnlijk niet voldoende. Dietvorst et al. (2015) vonden dat beoordelaars ‘strenger’ zijn ten opzichte van fouten gemaakt door beslisregels dan fouten gemaakt door menselijke beoordelaars; beoordelaars waren zelfs minder geneigd om een imperfecte beslisregel te gebruiken dan informatie van een nog imperfectere menselijke beoordelaar. Op welke manier het beste feedback kan worden gegeven is een onderwerp waar meer onderzoek naar gedaan moet worden.

De kloof dichten

Veel selectiebeslissingen kunnen beter. Er is door selecteurs te weinig aandacht voor de kennis uit de wetenschappelijke literatuur, maar ook wetenschappers lijken niet geneigd om bevindingen uit te dragen en zijn soms erg mild over bestaande praktijken. Omdat het hier gaat om belangrijke beslissingen voor het individu (‘Kan ik wel of niet een opleiding tot rechter volgen?’, ‘Kan ik me specialiseren in de psychiatrie?’) als voor de maatschappij (‘Selecteren we een bekwame piloot?’) dienen we de methoden te gebruiken die tot de beste voorspellingen leiden, waarbij ook aangegeven kan worden hoe (on) zeker we zijn over onze uitspraken. Een bijkomend voordeel is dat gestructureerde en statistische procedures transparant zijn. Holistische procedures zijn dit vaak niet. Bovendien ligt het gevaar op de loer dat beslissingen worden genomen op basis van indrukken en meningen die niet relevant zijn voor later te voorspellen gedrag.

Mensen worden niet graag ‘buitenspel gezet’ door statistische procedures

Ten slotte benadrukken we dat het voorspellen van menselijk gedrag lastig is. Dat dit niet lukt op een klinische en holistische manier ligt daarom ook niet aan een gebrek aan expertise van psychologen. Wel beschikken we gelukkig over de kennis om selectiebeslissingen op een wetenschappelijke manier te nemen. In onze ogen dragen we dat als professionals te weinig uit, zijn we te snel tevreden met suboptimale beslissingen en zijn we te coulant ten opzichte van allerlei pseudowetenschappelijke uitspraken (zie ook Drenth, 2008).

In de context van diagnose in de klinische psychologie benadrukte Dawes (2005) al eens dat we een ethische grens overschrijden wanneer we geen gebruik maken van de methoden die tot de beste voorspellingen zullen leiden. Hij stelde dat: ‘Providing service that assumes that clinicians “can do better” simply based on self-confidence or plausibility in the absence of evidence that they can actually do so is simply unethical.’

In de context van dit betoog: men vervange ‘clinicians’ door ‘selectiepsychologen’.

 

Illustratie: Chiara Arkesteijn

1. Zie bijvoorbeeld Ægisdóttir et al. (2006) voor een metaanalyse over de effectiviteit van verschillend manieren van informatiecombinatie en Dawes (1994) voor een interessant boek over (het gebrek aan) evidencebased beoordelen en beslissen in de klinische psychologie.

2. We gaan niet verder in op de soms gehoorde opvatting dat een correlatie van, zeg, r=.4 te verwaarlozen zou zijn omdat het ‘maar’ 16% van de variantie zou verklaren. Voor commentaar op deze opvatting zie Dawes (1979) en Bridgeman, Burton en Cline (2009).

Reageren? Wilt u reageren op dit artikel? Dat kan via LinkedIn (http://alturl.com/wz95u), Twitter (@RedactieDP) of onderaan dit artikel.