1117 Weergaven
8 Downloads
Lees verder
Klaas Sijtsma gaat in op het meten in de psychologie, het gebruik van statistiek, en de ontwikkeling van de psychologie. Volgens hem is theorievorming een vereiste om stappen te maken. Sijtsma wijst op parallellen in de exacte wetenschappen, die vaak een ontwikkeling hebben doorgemaakt vergelijkbaar met de psychologie, en waar theorievorming tot robuuste resultaten heeft geleid. ‘De afwezigheid van een theorie is de achilleshiel van psychologisch meten.’

Psychologisch wetenschappelijk onderzoek wordt sterk gedreven door technologische innovaties en minder door theorievorming. Technologie-gedreven onderzoek is vooral exploratief en levert vele gedetailleerde resultaten die vaak niet repliceerbaar zijn. Theorie-gedreven onderzoek daarentegen is vaker confirmatief en streeft naar het begrijpen van psychologische fenomenen op een hoger, abstract niveau dat de directe observatie ontstijgt. Voorbeelden van technologische innovaties zijn complexe statistische modellen, waarnemingen van hersenactiviteit via fmri-scanners, en grote databestanden verzameld via het internet en wearables. Deze technologische innovaties bevorderen exploratie, maar zouden ten dienste moeten staan van theorieontwikkeling, -toetsing, en -verbetering door middel van confirmatief onderzoek, waarbij exploratie leidt tot nieuwe hypothesen die vervolgens getoetst worden in confirmatief onderzoek.

Technologie-gedreven onderzoek is problematisch voor het meten van psychologische attributen, het gebruik van statistiek, en de ontwikkeling van de psychologische theorieën. Het gebruik van complexe psychometrische modellen en grote databestanden stimuleert data-gedreven constructie van tests met een dubieuze validiteit. Technologische ontwikkelingen hebben geleid tot veel exploratief onderzoek op vele terreinen, met een grote kans op resultaten die niet repliceerbaar zijn. Data-gedreven exploratie remt de ontwikkeling van theoretische doorbraken in de psychologie. Ook het grootscheepse hersenonderzoek leidt niet tot grote theoretische stappen in de ontwikkeling van de psychologie.

In dit artikel behandel ik het meten in de psychologie, het gebruik van statistiek, en de ontwikkeling van de psychologie. Ik zal betogen dat theorievorming nodig is om stappen te maken en wijzen op parallellen in de exacte wetenschappen, die vaak een ontwikkeling hebben doorgemaakt vergelijkbaar met de psychologie, en waar theorievorming tot robuuste resultaten heeft geleid.

Over meten

De ontwikkeling van de scheikunde en de psychologie vertonen interessante overeenkomsten. Een vergelijking van scheikundig en psychologisch meten laat dit zien. In de scheikunde kent men kwantitatieve analyse, het bepalen van de concentratie van een chemisch element in een mengsel. De persoon voegt druppels, halve druppels en kwartdruppels aan de vloeistof in een kolffles toe, totdat er een kleuromslag plaatsvindt die aangeeft dat er verzadiging is opgetreden. Uit de verzamelde data berekent zij de concentratie van het element.

De ontwikkeling van de scheikunde en de psychologie vertonen interessante overeenkomsten

Daarnaast kent de scheikunde kwalitatieve analyse, waarbij op een mengsel van diverse elementen in een vaste volgorde een serie proeven wordt gedaan. Om bijvoorbeeld de aanwezigheid van koper in het mengsel vast te stellen, wordt op een bepaald punt in de analyse een draad in het residu dat op de bodem van een kolffles is neergeslagen gedoopt en vervolgens in een vlam gehouden. Als de vlam groen kleurt, is dat een aanwijzing voor koper. Kwalitatieve analyse is gericht op het opsporen van een chemisch element in een mengsel, dus het aantonen van een type. Het meten van psychologische eigenschappen kan ook worden ingedeeld in kwantitatief en kwalitatief meten, het meten van hoeveelheden en het meten van typen.

Chemische analyses worden met de grootst mogelijke zorgvuldigheid gedaan. Onzuivere of vervuilde mengsels kunnen gemakkelijk een onjuiste concentratie suggereren. Om een element te kunnen vinden moet een serie experimenten in een vaste volgorde worden gedaan en kan elke afwijking of slordigheid ertoe leiden dat de koperatomen zich binden met andere elementen waarmee zij moleculen vormen en dan onvindbaar zijn; de vlam kleurt niet groen. In de scheikunde en ook in de psychologie is standaardisatie van de meetprocedure essentieel; zonder standaardisatie zijn resultaten vertekend (de concentratie klopt niet) of betekenisloos (koper wordt ten onrechte niet gevonden).

Psychologische eigenschappen

Het meten van psychologische eigenschappen gaat op het oog heel anders. Psychologen meten intelligentie en deelaspecten zoals ruimtelijk inzicht, transitief redeneren en woordenschat, en persoonlijkheidstrekken zoals dominantie, extraversie, en neuroticisme. Hiervoor presenteren zij lijsten met problemen aan proefpersonen die zij dienen op te lossen en lijsten met vragen of stellingen waarop zij dienen te reageren. De data bestaan uit respectievelijk aantallen goed en aantallen kredietpunten. Dit ziet er heel anders uit dan de chemische metingen en de bijbehorende berekeningen. Psychologische tests – de meetinstrumenten voor psychologische eigenschappen – worden gebruikt om leerlingen te selecteren voor vervolgonderwijs, sollicitanten voor banen, en patiënten voor therapie, maar ook om rekenniveau, werkprestaties, en therapievoortgang vast te stellen (Niessen & Meijer, 2017).

Figuur 1 laat een taak zien voor het meten van ruimtelijk inzicht. Een test voor ruimtelijk inzicht bestaat uit een serie van zulke taken, en elke taak is een klein meetinstrument. De persoon die wordt gemeten reageert op elke taak. Die reactie is goed of fout, en de reacties op alle taken in de test tezamen bepalen de meetwaarde voor ruimtelijk inzicht.

Figuur 1: Voorbeeld van een taak voor het meten van ruimtelijk inzicht

Om twee redenen bestaat een test uit diverse taken. Ten eerste zijn de taken niet volledig inwisselbaar. Elke taak heeft eigenaardigheden die andere taken niet hebben, en samen representeren ze ruimtelijk inzicht beter dan een enkele taak. Hoe dit precies zit, wordt duidelijk uit de theorie over ruimtelijk inzicht en staat bekend als het probleem van de constructvaliditeit (Cronbach & Meehl, 1955; Markus & Borsboom, 2013). Constructvaliditeit is moeilijk vast te stellen, wordt vaak genegeerd, maar is uiterst belangrijk.

Ten tweede zijn reacties op individuele taken onbetrouwbaar in de zin dat je er niet van op aan kunt dat een persoon dezelfde reactie geeft wanneer je haar dezelfde taak opnieuw zou voorleggen onder precies dezelfde omstandigheden als de eerste keer, ervan uitgaande dat ze zich niets van de eerste keer zou herinneren. We gaan ervan uit dat variatie in reacties toevallig is. Dit is de problematiek van de betrouwbaarheid (Emons, Sijtsma, & Meijer, 2007; Lord & Novick, 1968). Een groter aantal taken reduceert de invloed van toeval in hoge mate en leidt tot een betrouwbare meting.

Psychometrie

De psychometrie houdt zich bezig met de wiskundige en statistische vereisten voor data die met een test zijn verzameld, om te kunnen concluderen dat we meetwaarden hebben die op een schaal liggen. Om een goede schaal te maken, is het belangrijk over een theorie van het te meten attribuut te beschikken waarop de verzameling van de data met behulp van een test berust. Om aan data te komen, worden de reacties op de taken die bijvoorbeeld goed of fout zijn, vervangen door scores 1 voor een goede reactie en 0 voor een foute reactie.

In Figuur 1 waren twee antwoorden correct, en zouden we ook scores 0 voor beide antwoorden fout kunnen geven, 1 voor een goed antwoord, en 2 voor beide antwoorden goed. Dit is het begin van kwantificering. Een computerprogramma kan berekeningen op de getallen uitvoeren in overeenstemming met een wiskundig of statistisch meetmodel. Tabel 1 is gevuld met nullen en enen. Elke rij representeert de scores van een persoon en elke kolom de scores op een taak.

Tabel 1: Binaire itemscores, 0 (incorrecte reactie) en 1 (correcte reactie)

Wat is een meetmodel? Dit is een wiskundig model dat wordt gedefinieerd door vooronderstellingen over de wijze waarop mensen reageren op de taken in een test, en dat in wiskundige zin een schaal definieert. Het is echter geen geformaliseerde theorie gebaseerd op een inhoudelijke theorie over bijvoorbeeld ruimtelijk inzicht. Dat zou op zich wel kunnen, maar dan moeten we wel eerst beschikken over zulke inhoudelijk theorieën en dat is meestal niet het geval.

Uit een meetmodel kun je bijvoorbeeld afleiden dat testscores zoals het aantal goed op een wiskundige dimensie liggen en die dimensie kan dan dienen als schaal voor ruimtelijk inzicht, zoals een schaal op een thermometer voor temperatuur. Er is echter wel een belangrijk verschil. Op bijvoorbeeld de Celsiusschaal is het verschil tussen 20 graden en 15 graden gelijk aan het verschil tussen 15 en 10 graden en 17 en 12 graden. Dit volgt uit de theorie over temperatuur, die ten grondslag ligt aan de constructie van de thermometer. De psychologie beschikt nog niet over zulke theorieën. De staat van de kennis is minder ver dan in de natuurkunde (en de scheikunde, waar men natuurlijk ook temperatuur meet).

Wat kun je dan wel met meetwaarden op tests? We kijken naar twee vooronderstellingen van meetmodellen. De eerste vooronderstelling betreft de complexiteit van de meting, ofwel het aantal attributen dat de meting beïnvloedt. Dit is de vooronderstelling van de dimensionaliteit van de meting. Figuur 2 toont een taak waarmee transitief redeneren wordt gemeten, waarbij ook taalvaardigheid een rol speelt. Als gevolg daarvan is de bijbehorende tabel met nullen en enen waarschijnlijk tweedimensioneel. Daarbij representeert de tweede dimensie taalvaardigheid, wat ongewenst is als je alleen transitief redeneren wilt meten. Deze meerdimensionaliteit, die wiskundig kan worden weergegeven in een meetmodel, is typisch voor psychologische metingen. Het meten van een attribuut is dus problematisch en de verwarring met andere attributen is vrijwel onvermijdelijk.

Figuur 2i: Voorbeelden van taken voor transitief redeneren voor lengte (boven) en leeftijd (onder). Links ziet men twee premissen en rechts wordt een conclusie gevraagd. Figuur gemaakt door samantha bouwmeester.

De tweede vooronderstelling betreft de relatie van de reacties op bijvoorbeeld een taak voor transitief redeneren met elk van de dimensies. Deze relatie wordt gerepresenteerd door de itemresponsfunctie, die meestal monotoon wordt voorgesteld. Figuur 3 laat zien dat monotonie aangeeft dat een hogere schaalwaarde correspondeert met een grotere kans op een correct antwoord. Afhankelijk van de kenmerken van de taken kunnen itemresponsfuncties variëren, maar daar ga ik hier verder niet op in (zie Sijtsma & Van der Ark, 2020, voor vele varianten, ook voor de nadere verklaring van Figuur 3).

Figuur 3i: Links: twee normaal-ogief itemresponsfuncties. Voor de ononderbroken functie gelden parameters en ; voor de gestreepte functies gelden  and . Rechts: itemresponsfunctie volgens twee-dimensioneel 3-parameter logistisch model met , , , and , afgedrukt in 3d perspectief.

Deze en andere vooronderstellingen definiëren samen een model. Uit zo’n model kun je wiskundig afleiden dat personen op een of meer schalen kunnen worden geordend op basis van hun totaal aantal goede reacties. Ik schrijf geordend om te benadrukken dat de numerieke afstanden tussen zulke totaalscores niet kunnen worden vergeleken zoals bij de temperatuurschaal. Je kunt dus wel zeggen dat Jan beter is in transitief redeneren dan Marijke en Maarten en dat Marijke beter is dan Maarten. Daar zijn wel wat subtiliteiten in aan te brengen, maar dat is het dan.

Modellen

Soms is psychologisch meten classificeren (bijv. Junker & Sijtsma, 2001; Magidson & Vermunt, 2004), vergelijkbaar met de kwalitatieve analyse in de scheikunde. Een voorbeeld betreft de indeling van geteste personen naar de oplossingsstrategie die zij gebruiken om taken voor proportioneel redeneren op te lossen (Jansen & Van der Maas, 1997). We komen dus minder ver dan bij het natuurkundig meten, maar het zou tot troost moeten strekken te weten dat een paar honderd jaar geleden de meting van temperatuur nog leek op de meting van psychologische attributen (Sherry, 2011). Er is dus hoop voor psychologisch meten.

Hoe weet je nu dat een meetmodel bruikbaar is voor de meting van een psychologisch attribuut? De crux is dat je uit het model kunt afleiden hoe de data eruit moeten zien om een schaal te hebben. Alleen als die afgeleide data en de echte data die met de test zijn verzameld overeenkomen, heb je een schaal. Dit passingsonderzoek (Engels: goodness-of-fit research) is de sleutel voor het maken van een schaal. Helaas is een typische uitkomst dat het model niet bij de data past. Dan heb je dus geen schaal. Deze handicap van onderzoek met mensen leidde de statisticus George Box tot zijn veelgeciteerde uitspraak dat alle modellen fout zijn (Figuur 4). Gelukkig voegde hij eraan toe dat sommige modellen nuttig zijn.

Figuur 4: George Box’ beroemde uitspraak over de inconsistentie van model en data geïllustreerd voor drie psychometrische modellen, die – zoals alle modellen – op zijn best de datastructuur benaderen, maar toch nuttig kunnen zijn voor de toepassing die men op het oog heeft. 

Waarom zitten modellen er zo vaak naast? Dat komt doordat ze vereenvoudigingen van de werkelijkheid geven. Hun ambitie is de opvallende kenmerken van een verschijnsel te beschrijven en de details te negeren, maar daardoor zal het model de werkelijkheid slechts benaderen. Van de andere kant bezien moeten modellen wel falen, want anders zouden ze samenvallen met de data en niets op een hoger abstractieniveau verklaren. Cruciaal is dat de onderzoeker beschikt over een goed onderbouwde theorie van het attribuut dat de basis vormt voor de constructie van de test, want anders zullen ook de opvallende kenmerken van bijvoorbeeld transitief redeneren worden gemist en past het model ook niet meer bij benadering maar gewoon helemaal niet.

De afwezigheid van een goed onderbouwde theorie is er een belangrijke oorzaak van dat modellen vaak sterk afwijken van de data. Als je bijvoorbeeld intelligentie wilt meten, moet je beschikken over een goed onderbouwde intelligentietheorie die door empirisch onderzoek wordt gesteund. Die theorie maakt duidelijk welk gedrag typisch is voor ruimtelijk inzicht of transitief redeneren, zodat je weet welk gedrag je moet beoordelen om iets over die attributen te kunnen zeggen. De taken in de test moeten dit gedrag oproepen en liefst niets anders. De afwezigheid van een theorie is de achilleshiel van psychologisch meten. Zonder theorie moet je vertrouwen op ervaring, gewoonte, traditie en goed geluk. Die situatie staat vooruitgang in de weg.

Standaardiseren

Meten gebaseerd op theorie over hetgeen je meet kent ook in de exacte wetenschappen een lange geschiedenis. De meeste meetprocedures werden in de twintigste eeuw ontwikkeld. Natuurwetenschappelijk meten legt een zeer grote nadruk op unobtrusive measurement, het elimineren van alle storingen die een meting kunnen vertekenen (validiteit) of verzwakken (betrouwbaarheid). In het scheikundig lab wordt heel veel aandacht besteed aan het schoonmaken van de materialen waarmee men werkt.

De psychologie kwam voor een deel voort uit de negentiende-eeuwse natuurkunde en kopieerde de goede gewoonte om metingen te standaardiseren. Dataverzameling via het internet reduceert de controle van storingen in het meetproces. Aanvullende foutenbronnen zijn data-gedreven schaalconstructie waarmee het belang van een theoretische basis wordt verzwakt of ontkend, en financiële argumenten die het gebruik van ultrakorte tests met slechts een paar taken legitimeren, wat uiteraard ten koste gaat van validiteit en betrouwbaarheid. Je hoort maar weinig over deze kwesties; een alarmerende zaak.

Meten is problematisch (Borsboom, 2005; Briggs, 2022; Lord & Novick, 1968; Michell, 1999) en de constructie van een valide en betrouwbare schaal een klein wonder, als het lukt. De psychologie moet zich veel meer richten op de ontwikkeling van goede attribuuttheorieën die de constructie van goede tests mogelijk maken. Het werk van Brenda Jansen (Jansen & Van der Maas, 1997) over proportioneel redeneren en Samantha Bouwmeester (Bouwmeester, Vermunt, & Sijtsma, 2007) over transitief redeneren kan leidraad zijn. De nadruk op theorie als basis versterkt validiteit en bevordert standaardisatie en betrouwbaarheid.

De psychometrie houdt zich vooral bezig met het ontwikkelen van meetmodellen, maar zou de psychologie moeten helpen om betere inhoudelijke theorieën te ontwikkelen voor de attributen die men wil meten. Te veel worden meetmodellen ontwikkeld die weinig binding hebben met onderliggende attribuuttheorieën, ook omdat die theorieën er vaak niet zijn. Zonder valide en betrouwbare meting kan er geen zinvol onderzoek plaatsvinden.

Over Statistiek

Statistiek is de wetenschap van de onzekerheid. Statistische methoden schatten de mate van onzekerheid die een steekproef biedt over de populatie waarnaar men resultaten wil generaliseren. Statistiek werkt het beste als de steekproef een representatie is van de populatie en er alleen toevallig van afwijkt. Diverse methoden zijn ontwikkeld om de samenstelling van de steekproef af te stemmen op de vraagstelling van het onderzoek, en statistische toetsen en modelschattingsmethoden zijn hier vaak op aangepast. De kernvraag is steeds: Wat zou ik vinden als ik een nieuwe steekproef zou trekken?

Intuïtie

Toeval is de basis voor steekproeftrekking. Mensen zijn notoir slecht in het begrijpen van toeval. Dat komt doordat we geneigd zijn overal structuur te zien, of die structuur nu voortkomt uit een toevallig of een systematisch proces. Zo kennen we betekenis toe aan de resultaten van een data-analyse, en ook als de resultaten onverwacht zijn, onwaarschijnlijk, ongestructureerd, of alleen maar ruis representeren kunnen we geen weerstand bieden aan de neiging er toch iets in te zien. Linschoten (1964) waarschuwde hier al voor, en vele psychologisch onderzoekers (Meehl, 1954; 1994; Tversky & Kahneman, 1974; zie ook Kahneman, 2011) hebben aandacht gevraagd voor de vele cognitieve vertekeningen waar ook onderzoekers inclusief statistici last van hebben. Statistici zoals David Hand (2014) hebben uitgelegd waarom wij weinig van kansen begrijpen. Ter illustratie ontleen ik een voorbeeld aan Kahneman (2011, p. 115).

Op een mooie woensdag worden in hetzelfde
ziekenhuis zes baby’s, geen tweelingen, geboren.
Laat J voor jongen staan en M voor meisje,
welke chronologische serie van geboortes
beschouwt u dan als toevallig en welke
suggereert een systematiek?

JJJMMM
MMMMMM
JMJJMJ

Het intuïtieve antwoord is: de eerste twee suggereren systematieken en de derde is toevallig. Het juiste antwoord is: ze zijn alle drie even waarschijnlijk. Het aantal verschillende patronen is 26 = 64, en als we aannemen dat jongens en meisjes dezelfde kans hebben en er geen directe genetische banden zijn tussen verschillende ouderparen, dan heeft ieder patroon dus kans 1/64. Deze uitkomst staat in schril contrast met de intuïtie, die altijd op zoek is naar systematiek en geloofwaardige verhalen, maar intuïtie kan heel misleidend zijn. Wetenschap en statistiek in het bijzonder beschermen ons tegen intuïtie.

Correlaties

Het volgende probleem is relevant voor iedereen die statistiek gebruikt. Ik genereerde met een computer en een statistisch model kunstmatige data voor 25 variabelen. Daartussen bestaan 1/2 ◊ 24 ◊ 25 = 300 verschillende correlaties. Ik was met name geïnteresseerd in correlaties ongelijk aan nul die interessant zouden kunnen zijn als je ze in een data-analyse tegenkomt. Voor drie verschillende steekproefgroottes genereerde ik 100 replicaties, omdat een enkele steekproef mij precies de loeren zou draaien waar ik het over wil hebben. De replicaties dienen het doel om uit te vinden wat er gebeurt als ik een nieuwe steekproef trek; dit was immers de centrale vraag in de statistiek? Tabel 2, eerste regel, laat voor steekproefgrootte 50 zien dat elke steekproef tenminste een negatieve correlatie bevatte tussen –.29 en  –.60 en een positieve correlatie tussen  .30 en .64. Correlaties van deze grootte trekken meteen de aandacht van vrijwel elke onderzoeker.

Tabel 2: Steekproefgrootte, resultaten gemiddeld over 100 aselecte steekproeven. Bereik van kleinste en grootste steekproefcorrelaties, minimum, maximum en gemiddeld aantal significante resultaten. Kritische waarden voor toetsing nulhypothese*

Een paar zaken zouden moeten opvallen. Ten eerste zijn de correlaties kleiner voor grotere steekproeven. Dit zou ons iets moeten zeggen, maar wat? Ten tweede kunnen we in de op een na laatste kolom zien dat over 100 replicaties, gemiddeld 15 correlaties significant waren op 5% niveau. Dat is 5% van 300, en dit lijkt op een resultaat dat je verwacht als je toetst onder de nulhypothese van correlaties gelijk aan nul.

De correlaties die ik vond, zouden dus wel eens het resultaat van toeval kunnen zijn. Dat klopt: ik genereerde de data door met een zuivere munt te gooien met score 1 voor kop en 0 voor munt. In de populatie hebben we dan 300 correlaties gelijk aan nul, en steekproeven wijken hier toevallig van af. Als je de echte situatie niet kent, kom je er niet gemakkelijk op.

Overigens bestaan er statistische methoden waarmee je situaties als deze kunt herkennen en je ertegen beschermen. Maar het derde punt is dat je in onderzoek met echte data meestal maar een steekproef hebt en niet de 99 replicaties die samen een systematiek vormen, die hier echt is. In die ene steekproef kun je zomaar meer dan 15 significante correlaties vinden, die meer suggereren dan er werkelijk is. En dan is het ook nog eens zo dat ook andere populatiemodellen die steekproefresultaten kunnen hebben gegenereerd. Maar dat weet je dus niet: het toeval zit in de weg. Het logische probleem is hier dat het model de data impliceert, maar de data niet het model. Je kunt op basis van die ene steekproef wel het meest waarschijnlijke model schatten, maar dat onderwerp sla ik over.

Slow science

Welke les kunnen we trekken? Volgens mij dat het niet eenvoudig is om zonder theorie over het te onderzoeken fenomeen het populatiemodel te schatten dat de data genereerde. Steekproeven zijn vaak klein en steekproeffouten zijn moeilijk in toom te houden tenzij de steekproef heel groot was.

Ik maak me zorgen over het grote aantal artikelen dat ik voor tijdschriften beoordeel waarin de populatie waarnaar gegeneraliseerd zou moeten niet of nauwelijks wordt gedefinieerd en waarin men steekproeven gebruikt waar men toevallig de hand op wist te leggen, zogenaamde convenience samples. Het doen van echt onderzoek met echte data verzameld bij echte mensen is moeilijk en boekenkennis over onderzoek in ideale situaties is niet altijd bruikbaar. Helaas helpt het niet dat je dit weet. Wat nodig is, is dat meer tijd en middelen worden gestoken in het ontwikkelen van theorieën ter verklaring van de fenomenen die men onderzoekt, zodat die theorieën kunnen worden getoetst en verbeterd. Het is te hopen dat wat men tegenwoordig slow science noemt hieraan bijdraagt.

In dit verband noem ik ook de questionable research practices, die staan voor structurele manieren van werken die onjuiste onderzoeksresultaten produceren. Vaak is geen opzet in het spel, maar worden de fouten veroorzaakt door de verleidingen van toeval en onvoldoende kennis van statistiek. Als je dit combineert met de neiging om veelal exploratief te werken, heb je een giftig mengsel dat invalide resultaten oplevert.

Het probleem is vaak dat onderzoekers zich niet vooraf willen binden aan een bepaalde hypothese, die hun moge-   lijkheden tot het vinden van ‘iets’ aanzienlijk inperkt maar wel veel meer duidelijkheid en richting biedt. Dit is wat confirmatief onderzoek sterk maakt: je voorspelt op basis van kennis het weer van de volgende week in plaats van dat je het weer van gisteren beschrijft en er verklaringen bij zoekt. Waterdicht bewijs vinden is in empirisch onderzoek niet mogelijk, maar als replicaties vaak in dezelfde richting wijzen heb je wel iets in handen.

Als je eerst naar je data kijkt zonder vooraf een verwachting te hebben geformuleerd, lijkt een correlatie van .64  spectaculair en doet ons natuurlijk talent om verhalen te vertellen de rest. En ook al verwachtte je deze correlatie niet, als die er eenmaal is dan is die moeilijk te negeren. Dit geldt voor ons allemaal, wetenschappelijk onderzoekers niet uitgezonderd. Het begrijpen van toeval en kansen is moeilijk en tegenintuïtief, en omdat statistiek erop gebaseerd is, is het moeilijk voor vrijwel iedereen goed met statistiek om te gaan. Ioannides (2005) had beslist een punt toen hij waarschuwde dat onjuiste conclusies op basis van statistiek eerder regel dan uitzondering waren.

Nadruk op theorieconstructie, -toetsing, en -verbetering is een uitstekende manier om jezelf tegen questionable research practices te wapenen. Het publiceren van data en alle andere informatie die nodig is om een onderzoek te repliceren helpt daar ook tegen. Wat beslist vaker zou moeten, is dat onderzoekers samenwerken met methodologen en statistici, omdat deze meer ervaring hebben om kenmerken van cognitieve misleiding door toeval te herkennen (Sijtsma, in preparation).           

Over psychologie

De psychologie kent niet een onomstreden startpunt, maar werd in de negentiende eeuw sterk geïnspireerd door de exacte wetenschappen. Vele psychologen waren fysici en introduceerden een strikte, formele manier van denken in het onderzoek naar psychologische fenomenen (Murphy & Kovach, 1972). Dit was niet altijd succesvol, maar er bestond wel een sterke overtuiging dat theorie de hoeksteen van een succesvolle wetenschappelijke discipline was. Het lijkt erop dat dit tegenwoordig minder het geval is. Hoe komt dat? Ik noem drie ontwikkelingen van de afgelopen decennia in chronologische volgorde.

Ten eerste ontwikkelde de computer zich na de Tweede Wereldoorlog in een enorm tempo (Dyson, 2012; Gleick, 2011). Maar het duurde nog tot de late jaren tachtig dat we de beschikking kregen over de personal computer en later de laptop, beide al snel met een ongelofelijke rekenkracht. Deze opkomst inspireerde ook de komst van nieuwe statistische methoden die niet eerder waren ontwikkeld omdat de benodigde berekeningen die met de hand moesten worden gedaan vanwege de omvang onuitvoerbaar waren. De nieuwe en complexe methoden laten de gelijktijdige analyse toe van grote aantallen variabelen in enorme steekproeven. De vraag moet echter gesteld worden of dergelijke grote analyses, waarbij alle verbanden tussen de variabelen gelijktijdig worden beschouwd, niet te veel afleidt van het vaststellen van causale relaties tussen enkele sleutelvariabelen, die nodig zijn om de grotere modellen te kunnen begrijpen.

Ten tweede werden in de jaren negentig fmri-scanners betaalbaar, zodat psychologen neurologische activiteit als gevolg van psychologische stimuli konden bestuderen. Ik moet toegeven dat dit niet mijn expertise is, maar weet er net genoeg van om de vraag te stellen of dit type onderzoek doorbraken in de psychologie heeft bewerkstelligd waardoor onze kennis van de structuur van het cognitieve systeem en cognitieve en andere psychologische processen ingrijpend zijn verbeterd. De psychologie heeft enorme investeringen gedaan in dit type onderzoek en de vraag naar de opbrengst ervan lijkt me redelijk.

Ten derde heeft de beschikbaarheid van het internet en de beschikbaarheid van wearables het verzamelen van enorme databestanden onder niet gestandaardiseerde condities mogelijk gemaakt. Vele onderzoekers omarmen deze wijze van dataverzameling en lijken er veel van te verwachten. Ik stel drie kritische vragen. Allereerst geldt dat steekproeven met meer dan een paar duizend observaties weinig meerwaarde hebben. De meeste modellen zijn dan nauwkeurig te schatten. Waarom zou je dus zulke enorme steekproeven willen? Daarnaast geldt dat met het toenemen van het aantal variabelen het aantal relaties tussen die variabelen exponentieel toeneemt. Het is dan onmogelijk geen interessante verbanden te vinden, maar wat stellen zij voor als je ze vooraf niet verwachtte? Bij het gooien met een munt, waar het slechts om 25 flauwekulvariabelen ging, ontstonden er al mooie correlaties. Ten derde geldt ook hier dat zonder een leidende theorie je veroordeeld bent tot exploratie, wat een enorme berg toevallige vondsten zal opleveren met minimale kans op replicatie, een verschijnsel dat Ioannidis (2005) al verklaarde. Waarom zou een enorm databestand iets interessants bevatten?

De computer, de fmri-scanner en het internet zijn technologische wonderen, maar ze zijn ook ineffectief als ze zonder plan worden ingezet. Natuurlijk zijn er in de psychologie diverse mooie resultaten behaald met behulp van een of meer van deze technologische hulpmiddelen. Maar als je van een afstand kijkt, dan lijkt het alsof ze als regel worden ingezet ongeacht de noodzaak hiertoe. Helaas heb ik in de aflopen decennia te vaak de cynische grap gehoord dat je het bij nwo wel kon vergeten met je aanvraag als je geen hersenen scande. Mijn punt is niet dat we zouden moeten afzien van complexe statistische modellen, hersenscans, en dataverzameling via het internet; dat zou onverstandig zijn (Domingos, 2015; Myin-Germeys & Kuppens, 2022; Pearl & Mackenzie, 2018). Maar het zou goed zijn deze technische innovaties te gebruiken voor theorieconstructie, -toetsing, en -verbetering. Exploratie is uiterst nuttig voor het genereren van nieuwe ideeën, die vervolgens in confirmatief onderzoek nader onderzocht kunnen worden.

De psychologie zou zich weer nadrukkelijker kunnen richten op theorieconstructie, en in elk geval de bestaande ontwikkelingen op dit terrein door moeten zetten. Vooruitgang vergt veel tijd en ongeduld levert te vaak resultaten op die zelden overleven. Psychologie is net als de scheikunde tot bloei gekomen in de negentiende eeuw. Maar diverse ideeën uit de exacte wetenschappen zijn al veel ouder. Bijvoorbeeld, het idee dat alles in het universum uit atomen bestaat gaat al terug op de klassieke Griekse denker en vroege wetenschapper, Democritus (Rovelli, 2017). En hoewel zijn ideeën in de goede richting gingen, duurde het nog vijfentwintighonderd jaar voor ze tot volle wasdom kwamen. Wetenschap is een hordenloop waarin ideeën steeds weer plaats moeten maken voor andere ideeën, soms beter en soms slechter, maar in de loop van de tijd beter.

Mijn kritische noten houden niet in dat ik vind dat de psychologie niets bereikt heeft op theoretisch terrein, integendeel! Ik noem enkele hoogtepunten die mij zeer aanspreken:

  • Ten eerste is er de classificatie van intelligentie en persoonlijkheid in samenstellende onderdelen. Voorbeelden zijn de intelligentiemodellen van Thurstone en Guilford en de Big Five persoonlijkheidstrekken. Classificatie bevordert een beter begrip van het fenomeen dat men bestudeert, en een mooi voorbeeld buiten de psychologie is de classificatie van het planten- en dierenrijk in de achttiende eeuw door Carolus Linneaus.
  • Ten tweede het cruciale inzicht dat Paul Meehl in de jaren vijftig had dat experts, net als ‘gewone’ mensen, ook slechte informatieverwerkers zijn. Het is zelfs zo erg dat een uiterst eenvoudig additief model dat op een computer draait gedrag van mensen beter voorspelt dan een expert die alle relevante informatie voor een juiste beslissing tot haar beschikking heeft.
  • Ten derde het werk van Amos Tversky en Daniel Kahneman. Daaruit blijkt dat onze oordelen en beslissingen onderworpen zijn aan cognitieve vertekening, terwijl zij ook nog eens te lijden hebben onder het onterechte vertrouwen dat mensen, ook experts, hebben in intuïtie die op heuristieken gebaseerd is terwijl men grote moeite heeft rationeel te redeneren.
  • Ten vierde is de psychonomie traditioneel sterk gericht op sensorische perceptie die gerelateerd is aan cognitieve processen, waarbij theorie-gedreven experimenteel onderzoek voorop staat. Daar zijn belangrijke resultaten uit voortgekomen, zoals op de gebieden van gedragsgenetica en ergonomie, en ook taalontwikkeling en -verwerking.

Er is natuurlijk veel meer, en alle bijdragen hebben een voorkeur voor theorieontwikkeling gebaseerd op grondig empirisch onderzoek. De rode draad van het betoog was de cruciale rol van inhoudelijke theorievorming als basis voor valide en betrouwbare metingen, het tegengaan van questionable research practices die het rapporteren van toevallige resultaten bevorderen, en het temperen van de schijnbaar onbeperkte verwachting die psychologen en anderen hebben van technologische innovaties als kennis-genererende mechanismen. Alles begint met de continue aandacht voor de cruciale rol van valide en betrouwbare metingen, gevolgd door theorie-gedreven onderzoek waarbij technologische innovaties worden ingezet voor zover het onderzoek erom vraagt.

Dit artikel is een bewerking van de afscheidsrede vanwege het bereiken van de pensioengerechtigde leeftijd, die de auteur op 20 mei 2022 gaf. Hij dankt Jaap Denissen, Wilco Emons, Rob Meijer en Hester Sijtsma voor suggesties ter verbetering van de tekst. Voor correspondentie over dit artikel: K.Sijtsma@tilburguniversity.edu.

Beeld: metamorworks / Shutterstock.com

Literatuurlijst

  1. Binet, A., & Simon, Th. A. (1905). Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. L’Année Psychologique, 11, 191-244.
  2. Borsboom, D. (2005). Measuring the mind. Conceptual issues in contemporary psychometrics. Cambridge UK: Cambridge University Press.
  3. Bouwmeester, S., Vermunt, J.K., & Sijtsma, K. (2007). Development and individual differences in transitive reasoning: A fuzzy trace theory approach. Developmental Review, 27, 41-74.
  4. Briggs, D.C. (2022). Historical and conceptual foundations of measurement in the human sciences. New York: Routledge.
  5. Cronbach, L.J., & Meehl, P.E. (1955). Construct validity in psychological tests. Psychological Bulletin, 52, 281–302.
  6. Dawes, R.M. (1994). House of cards. Psychology and psychotherapy built on myth. New York: The Free Press.
  7. Domingos, P. (2015). The master algorithm. How the quest for the ultimate learning machine will remake our world. London, UK: Penguin Books.
  8. Drenth, P.J.D. (1975). Inleiding in de testtheorie. Deventer: Van Loghum Slaterus.
  9. Dyson, G. (2012). Turing’s cathedral. The origins of the digital universe. London: Penguin Group.
  10. Emons, W.H.M., Sijtsma, K., & Meijer, R.R. (2007). On the consistency of individual classification using short scales. Psychological Methods, 12, 105-120.
  11. Gleick, J. (2011). The information. A history. A theory. A flood. New York: Vintage Books.
  12. Hand, D. (2014). The improbability principle. Why coincidences, miracles and rare events happen every day. London, UK: Penguin Books.
  13. Ioannidis, J.P.A. (2005). Why most published research findings are false. PLoS Med, 2(8), e124.
  14. Jansen, B.R.J., & Van der Maas, H.L.J. (1997). Statistical test of the rule assessment methodology by latent class analysis. Developmental Review, 17, 321–357.
  15. Junker, B.W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25, 258-272.
  16. Linschoten, J. (1964). Idolen van de psycholoog. Utrecht: Bijleveld.
  17. Lord, F.M., & Novick, M.R. (1968). Statistical theories of mental test scores. Reading, MA: Addison-Wesley.
  18. Kahneman, D. (2011). Thinking, fast and slow. London, UK: Penguin Books.
  19. Magidson, J., & Vermunt, J. K., (2004). Latent class models. In D. Kaplan (Ed.), The Sage Handbook of Quantitative Methodology for the Social Sciences (pp. 175-198). Thousand Oaks, CA: Sage.
  20. Markus. K.A., & Borsboom, D. (2013). Frontiers of test validity theory: measurement, causation, and meaning. New York, NY: Routledge.
  21. Meehl, P.E. (1954). Clinical versus statistical prediction: A theoretical analysis and a review of the evidence. Minneapolis, MN: University of Minnesota Press.
  22. Michell, J. (1999). Measurement in psychology: A critical history of a methodological concept. Cambridge, UK: Cambridge University Press.
  23. Murphy, G., & Kovach, J. K. (1972). Historical introduction to modern psychology. London: Routledge & Kegan Paul Limited.
  24. Myin-Germeys, I., & Kuppens, P. (2022). The open handbook of experience sampling methodology. The center for Research on Experience sampling and Ambulatory methods Leuven (REAL), Belgium. Downloaded from https://www.kuleuven.be/samenwerking/real/real-book/index.htm
  25. Niessen, A S.M., & Meijer, R.R. (2017). On the use of broadened admission criteria in higher education. Perspectives on Psychological Science, 12, 436-448. https://doi.org/10.1177/1745691616683050
  26. Pearl, J., & Mackenzie, D. (2018). The book of why. The new science of cause and effect. Penguin Books UK.
  27. Rovelli, C. (2017). Reality if not what it seems. The journey to quantum gravity. Pinguin Random House UK.
  28. Sherry, D. (2011). Thermoscopes, thermometers, and the foundations of measurement. Studies in History and Philosophy of Science, 42, 509–524.
  29. Sijtsma, K. Never waste a good crisis. Lessons learned from data fraud and questionable research practices (in preparation for Chapman & Hall/CRC).
  30. Sijtsma, K., & Van der Ark, L.A. (2021). Measurement models for psychological attributes. Boca Raton, FL: Chapman & Hall/CRC.
  31. Spearman, C. (1904a). Proof and measurement of association between two things. American Journal of
  32. Psychology, 15, 72–101.
  33. Spearman, C. (1904b). ‘General intelligence,’ objectively determined and measured. American Journal of
  34. Psychology, 15, 201-293.
  35. Spearman, C. (1910). Correlation calculated from faulty data. British Journal of Psychology, 3, 271-295.
  36. Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185, 1124–1131.