Lees verder
Het verhullen van onwelgevallige resultaten heeft ingrijpende en bijzonder onwenselijke gevolgen. In de rechtspraak kan dat leiden tot celstraffen voor onschuldigen, in de geneeskunde zorgt publication bias ervoor dat artsen een vertekend beeld krijgen van de effectiviteit van een medicijn. Voor de psychologie betekent die publication bias dat de bestaande wetenschappelijk literatuur geen basis biedt om te bepalen of een bevinding nu koren is of kaf, stelt Eric-Jan Wagenmakers. ‘Het methodologisch fundament onder de psychologische wetenschap dient te worden gestut, en misschien moet op termijn het hele pand grondig worden gerenoveerd.’ Harald Merckelbach en Rolf Zwaan reageren.
prof. dr. Eric-Jan Wagenmakers

Het behoeft nauwelijks betoog, zo zou men althans denken, dat het bewust of onbewust weglaten van onwelgevallige informatie de waarheidsvinding niet ten goede komt. In zijn Novum Organum nam Francis Bacon (1620/2016, p.58) al een pakkende anekdote over van Cicero: ‘Toen men iemand een in een tempel hangende lijst liet zien van mensen die een gelofte hadden gedaan omdat ze aan een schipbreuk waren ontsnapt, dwong men hem de vraag te beantwoorden of hij nu ook de kracht der goden erkende. Zijn reactie was volkomen terecht: Maar waar zijn degenen genoteerd die na hun gelofte zijn verdronken?’

Wanneer onwelgevallige resultaten naar believen aan het openbare oog onttrokken kunnen worden, dan is de wetenschappelijke literatuur niet langer een betrouwbare bron van kennis

Deze zogenoemde survivorship bias (overlevingsvooroordeel) is moeilijk te herkennen en te trotseren. Dat het bevechten van deze bias niettemin van essentieel belang is, blijkt uit de verwoestende invloed die zij uitoefent op de rechtspraak en de geneeskunde. Helaas wordt binnen de wetenschap in het algemeen en de psychologie in het bijzonder nog te weinig erkend dat deze bias alleen met draconische maatregelen te lijf kan worden gegaan.

De rechtspraak

Wanneer de officier van justitie zijn requisitoir houdt, mag verwacht worden dat dit een representatief en onbevooroordeeld beeld schetst – zowel de belastende als de ontlastende feiten dienen in hun totaliteit te worden gepresenteerd. Helaas is dit nietaltijd het geval, en dat valt soms niet eens te wijten aan de vooringenomenheid van de officier. Zo zullen de rechercheurs in de beginfase van een onderzoek naarstig op zoek gaan naar bewijs dat hun eerste indruk omtrent de schuld van de verdachte ondersteunt; informatie die inconsistent is met die eerste indruk kan gemakkelijk terzijde worden geschoven als irrelevant of mogelijk verwarrend (Derksen, 2016).

In veel landen is het Openbaar Ministerie wettelijk verplicht om belangrijk bewijs met de verdediging te delen, en met name ook het ontlastend bewijs. In de zaak ‘Edwards tegen het Verenigd Koninkrijk’ oordeelde het Europees Hof voor de Rechten van de Mens als volgt: ‘…het recht op een eerlijk proces (…) vereist dat de openbare aanklager de verdediging deelgenoot maakt van al het ontlastend en belastend bewijsmateriaal” (EHRM 1992, nr. 13071/87; mijn vertaling, zoals ook voor alle andere oorspronkelijk Engelstalige werken die later in dit stuk aangehaald worden).

In de beroemde zaak Brady vs. Maryland1 kwam het Hooggerechtshof van de Verenigde Staten al tot een vergelijkbaar oordeel: ‘Het door de staat onthouden van bewijs dat van invloed is op schuldbepaling of strafmaatschendt het grondwettelijk recht van de verdachte op een eerlijk proces’ (Brady, 373 U.S., 83, 1963). Ondanks deze wettelijke verankering wordt het praktisch effect van de Brady vs. Maryland-beslissing in de VS vaak in twijfel getrokken, te meer daar zij in de loop der jaren steeds meer is uitgehold. Na een schokkend overzicht van de wijze waarop openbare aanklagers hun ethische verplichtingen jegens een verdachte steeds meer kunnen verwaarlozen – en dat ook doen – concludeert Gershman (2006, p. 727): ‘De ontwikkeling van Brady vs. Maryland vertoont een sterke discrepantie tussen de grootse verwachtingen van Brady, dat het conflictmodel zou worden veranderd van een ‘sportwedstrijd’ tot een daadwerkelijke zoektocht naar de waarheid, en de harde werkelijkheid dat strafrechtzaken blijven functioneren als ‘proces door hinderlaag’.’ En in een interview uit 2013 met de Huffington Post verklaarde Steven Benjamin, voorzitter van de National Association of Criminal Defense Lawyers: ‘Het werkt gewoon niet. Brady-schendingen zijn een systematisch, alledaags probleem in de rechtbank. Ik durf te beweren dat ze het merendeel van de strafzaken beïnvloeden (…).’

De Brady-jurisprudentie is op zichzelf lovenswaardig, maar de achilleshiel is dat de verdediging vaak niet weet welke ontlastende informatie haar mogelijkerwijs wordt onthouden. De aanklager heeft immers de volledige controle over het dossier, en kan eenzijdig besluiten dat bepaalde ontlastende informatie niet relevant genoeg is om opgenomen te worden.

De geneeskunde

Bij de ontwikkeling van nieuwe medicijnen zijn grote belangen gemoeid, met name de financiële belangen van de farmaceutische industrie en de fysieke belangen van de patiënten. Er gelden dan ook strenge regels voor experimenten waarin nieuwe medicijnen worden getest op hun effectiviteit en eventuele bijwerkingen. Zo is het in de geneeskunde gebruikelijk om de experimenten te preregistreren – van tevoren wordt bijvoorbeeld vastgelegd wat de primaire uitkomstmaat is, zodat onderzoekers de resultaten niet achteraf kunnen flatteren.

Het ligt voor de hand dat de strenge normen voor medisch onderzoek ook van toepassing zouden zijn op de rapportage van onwelgevallige uitkomsten. Dit is echter niet het geval. Medici hoeven tegenvallende resultaten niet te publiceren, en dit leidt onverbiddelijk tot publicatiebias: survivorship bias voor wetenschappelijke artikelen. Wanneer onwelgevallige resultaten – vergelijkbaar met de ontlastende feiten in een rechtszaak – naar believen aan het openbare oog onttrokken kunnen worden, dan is de wetenschappelijke literatuur niet langer een betrouwbare bron van kennis.

In zijn boek Bad Pharma benoemt Ben Goldacre (2012, p. xiii) het probleem: ‘(…) onflatteuze klinische onderzoeksdata kunnen eenvoudigweg worden onthouden aan artsen en patiënten. Het is bedrijven toegestaan om zeven experimenten te verrichten, maar alleen de twee positieve te publiceren, en deze gang van zaken is gemeengoed.’

Om de praktische gevolgen van medische Brady-schendingen te onderstrepen bespreekt Goldacre zijn persoonlijke ervaring met het voorschrijven van het antidepressivum reboxetine. De gepubliceerde gegevens over reboxetine waren gunstig, met ‘goed-opgezette, eerlijke testen, met overweldigend positieve resultaten (…) Miljoenen doses worden ieder jaar voorgeschreven, wereldwijd. Reboxetine was duidelijk een veilige en effectieve behandeling’ (Goldacre, 2012, pp. 5-6). Op basis hiervan schrijft Goldacre reboxetine voor aan een van zijn patiënten. Zijn vertrouwen in de literatuur blijkt echter misplaatst. Een latere studie slaagde erin alle onderzoeksdata boven tafel te krijgen, en kwam tot ontluisterende conclusies: ‘Er waren zeven experimenten uitgevoerd waarin reboxetine werd vergeleken met placebo. Eén ervan, gebaseerd op 254 patiënten, had een strak, positief resultaat, en die was gepubliceerd in een wetenschappelijk tijdschrift, toegankelijk voor artsen en onderzoekers. Maar zes andere experimenten waren uitgevoerd, gebaseerd op bijna tien keer zoveel patiënten. Alle zes lieten zien dat reboxetine het niet beter deed dan een suikerpil. Geen van deze zes experimenten was gepubliceerd.’ (Goldacre, 2012, p. 6)

Al met al is het duidelijk dat het verhullen van onwelgevallige resultaten ingrijpende en bijzonder onwenselijke gevolgen heeft. In de rechtspraak leiden Bradyschendingen tot celstra en voor onschuldigen. In de geneeskunde zorgt publication bias ervoor dat artsen een vertekend beeld krijgen van de effectiviteit van een medicijn. En voor de psychologie betekent publication bias dat de bestaande wetenschappelijke literatuur geen basis biedt om te bepalen of een bevinding nu koren is of kaf. ”

Een radicale oplossing voor de psychologie

In 1878 opperde de filosoof C.S. Peirce drie regels voor het testen van hypotheses. Zijn derde regel is relevant voor de huidige discussie, en klinkt inmiddels welhaast triviaal: ‘Zowel de mislukkingen als de successen van de voorspellingen moeten getrouw worden genoteerd. De hele onderneming moet eerlijk en onbevooroordeeld zijn.’ Zodra de mislukkingen verhuld worden zal dit onvermijdelijk leiden tot survivorship bias. De enige oplossing is derhalve om af te dwingen dat de mislukkingenmet net zoveel energie en enthousiasme worden gedeeld als de successen.

Wat de psychologische wetenschap nodig heeft, is zijn eigen Brady-regel. Een dergelijke regel zou onderzoekers ertoe verplichten om alle onderzoeksbevindingen, zowel de welgevallige als de onwelgevallige, publiekelijk te rapporteren. Chalmers (1990, p. 1407) geeft aan dat de verantwoordelijkheid hiervoor mede ligt bij de subsidieverstrekkers, de ethische commissies, en de tijdschrift-editors: ‘Het is verrassend dat zoveel subsidieverstrekkers bij het toekennen van fondsen aan onderzoekers niet de voorwaarde stellen dat een volledig rapport wordt opgesteld en gepubliceerd (…) Ethische commissies spelen ook een belangrijke rol. Ze doen slechts de helft van hun taak wanneer ze klinische onderzoeksprojecten goedkeuren maar daarna verzuimen om te beoordelen of het werk uitgevoerd is zoals overeengekomen en vervolgens naar behoren is gerapporteerd. (…) Ten slotte dragen de editors van wetenschappelijke tijdschriften ook een verantwoordelijkheid. Zij moeten bij zichzelf iedere neiging uitbannen om aangeboden rapporten te dichotomiseren in die met ‘positieve’ en die met ‘negatieve’ resultaten. Studies zouden moeten worden geaccepteerd of afgewezen op basis van hoe goed ze zijn geconceptualiseerd en hoe competent ze zijn uitgevoerd, niet op basis van de richting of grootte van geobserveerde verschillen tussen groepen.’

Een van de meest veelbelovende ontwikkelingen op dit gebied is de explosieve verspreiding van de Registered Reports, een nieuwe publicatievorm waarin eerst het wetenschappelijk voorstel wordt beoordeeld en verfijnd, en pas daarna de data worden verzameld; de publicatiebeslissing hangt expliciet niet af van de uitkomst, dat wil zeggen de mate waarin de data welgevallig zijn. Vooral dankzij de inspanningen van Chris Chambers – hoogleraar Cognitieve Neurowetenschappen aan Cardiff University en auteur van het recente boek De 7 doodzonden van de psychologie: Pleidooi voor een cultuuromslag in de wetenschappelijke praktijk – worden Registered Reports nu aangeboden als optie in meer dan 180 tijdschriften, waaronder het prestigieuze Nature Human Behaviour. Naar mijn mening is de Registered Report momenteel de enige methode die hoop biedt om wetenschappelijke Brady-schendingen uit te bannen, dus ook in de psychologie.

Dit idee kan verder worden uitgebreid. Chalmers (1990) gaf al aan dat ook subsidievertrekkers en ethische commissies een verantwoordelijkheid hebben om publicatiebias te bestrijden. Een voor de hand liggende suggestie is de volgende: subsidieverstrekkers en ethische commissies zouden eenvoudigweg kunnen eisen dat het beoogde werk (of althans het confirmatieve, empirische gedeelte ervan) wordt uitgevoerd als Registered Report. Deze ‘Chalmers- Chambers’-maatregel zou er in de toekomst toe kunnen leiden dat, na eeuwenlang geteisterd te zijn door wetenschappelijke Brady-schendingen, de nieuwe wetenschappelijkpsychologische literatuur eindelijk gevrijwaard is van publicatiebias. Net zoals met de Registered Reports zou de psychologie hier een voortrekkersrol kunnen vervullen.2

De sceptische lezer vraagt zich wellicht af waarom het een goed idee zou zijn om een wetenschappelijke Brady-regel in te voeren nu de Brady-regel in de rechtspraak zelf al niet naar behoren functioneert. Welnu, in de rechtspraak kan de openbare aanklager besluiten om de Brady-regel aan zijn laars te lappen en ontlastend bewijs toch niet in het dossier op te nemen – voor de openbare aanklager is de ‘pakkans’ bijzonder klein. In een Registered Report, daarentegen, zijn er onmiddellijke negatieve gevolgen voor de wetenschapper die besluit de wereld toch geen deelgenoot te maken van onwelgevallige resultaten. Allereerst voldoet deze wetenschapper niet aan de verplichtingen zoals eerder aangegaan met subsidieverstrekker en ethische commissie; daarnaast wordt in een aparte Registered Report-publicatie expliciet melding gemaakt van het feit dat de betreffende onderzoeker weigerde de resultaten te publiceren. De ‘pakkans’ voor een dergelijke onderzoeker is dus vrijwel één. Ten slotte maakt een wetenschappelijke Brady-regel helder dat het verhullen (dat wil zeggen, niet publiceren) van onwelgevallige resultatenneerkomt op wetenschappelijk wangedrag.

Ethische commissies doen slechts de helft van hun taak wanneer ze klinische onderzoeksprojecten goedkeuren maar daarna verzuimen om te beoordelen of het werk uitgevoerd is zoals overeengekomen en vervolgens naar behoren is gerapporteerd

Besluit

Ik eindig met een verhaal dat als bovenschrift werd geciteerd door Walster en Cleary (1970), een van de eerste auteurs die hebben gepleit voor het Registered Report: ‘Er is een gevangenis in de woestijn met een oude gevangene, die zich verzoend heeft met zijn lot, en een jonge gevangene, die net is aangekomen. De jonge gevangene heeft het over niets anders dan ontsnappen, en na een paar maanden gaat hij er vandoor. Na een week wordt hij teruggebracht door de bewakers. Hij is half dood, gek van honger en dorst. Hij vertelt de oude gevangene over zijn verschrikkingen. De eindeloze zandheuvels, geen oasen, geen enkel teken van leven. De oude gevangene luistert een tijdje en zegt dan, “Yep. Dat klopt. Ik heb zelf geprobeerd te ontsnappen, twintig jaar geleden.” De jonge gevangene zegt, “Wat? Waarom heb je niets gezegd, al die maanden dat ik mijn ontsnapping aan het voorbereiden was? Waarom heb je me niet verteld dat het onmogelijk was?” En de oude gevangene haalt zijn schouders op, en zegt, “Wie publiceert er nou negatieve resultaten?” (Hudson, 1968, p. 168).

Het is vervelend om geattendeerd te worden op problemen die je liever negeert, zoals asbest in het dak (‘schrijnend gebrek aan statistische power’), vochtplekken in de badkamer (‘blinde vlek voor proefpersonen die niet studeren aan een westerse universiteit’), en rottende raamkozijnen (‘alles-ofniets denken middels de p-waarde’). Maar sommige gebreken zijn dermate ernstig dat onmiddellijke actie is geboden. Het methodologisch fundament onder de psychologische wetenschap dient te worden gestut, en misschien moet op termijn het hele pand grondig worden gerenoveerd. Het is prijzenswaardig dat wetenschappelijk psychologen openlijk erkennen dat teveel bevindingen niet repliceerbaar zijn. Het is bemoedigend dat deze psychologen preregistratie omarmen om zodoende een duidelijk onderscheid te kunnen maken tussen exploratief en confi rmatief onderzoek, maar het is verontrustend dat aan de preventie van wetenschappelijke Brady-schendingen vooralsnog alleen lippendienst wordt bewezen. Subsidieverstrekkers, ethische commissies en tijdschrift-editors: hier ligt uw taak.


Waarom niemand ooit iets meer van Ivan Pavlov vernam

(Maar Wagenmakers wel gelijk heeft)

Een herfstige namiddag in Sinter Petersburg 1896. Gewoontegetrouw zit Ivan Pavlov aan zijn schrijftafel en neemt de post door. Zijn aandacht wordt getrokken door een bruine enveloppe met een stempel waarin hij maar al te goed het logo herkent van het Speciaal Commissariaat Voor Ethiek. Het is hem bang te moede als hij de enveloppe opent, de brief ter hand neemt en begint te lezen. Zeker, de aanhef is beleefd: Waarde professor Pavlov. En de eerste regel is ronduit sympathiek: Uw gedrevenheid en drang naar kennis zijn ons bekend alsook de lange uren die u al experimenterend in uw laboratorium doorbrengt. Maar daarna komt een boodschap, die niets aan duidelijkheid te wensen overlaat: Een van uw assistenten heeft melding gemaakt van de hond Jakov, die geen geconditioneerde speekselreactie vertoont op het geluid van een metronoom ofschoon dat geluid herhaaldelijk door uzelve werd gepaard met de presentatie van vlees. Vanwege dit met uw theorie schijnbaar onverenigbaar resultaat bevelen we u af te zien van publicaties terzake uw klassieke conditioneringstheorie. Pavlov strijkt door zijn baard terwijl hij bedachtzaam aan zijn sigaar trekt. Togda net, mompelt hij uiteindelijk, wat Russisch is voor ‘dan niet’. En zo komt het dat niemand ooit meer iets heeft vernomen van deze man en zijn curieuze opvatting dat beloning een elementaire gedragsantecedent is.

Moeten wij – wetenschappers – er nota van nemen als onderzoeksbevindingen onze favoriete theorieën tegenspreken? Ja, zeker. Heel nuttig dat Eric-Jan Wagenmakers nog eens haarfijn uitlegt waarom dat belangrijk is. Moeten we aandacht voor tegenvallende resultaten afdwingen door de opsporing ervan te delegeren aan, bijvoorbeeld, ethische commissies die opereren als waren zij openbare aanklagers? Liever niet. Het strafrecht is geen geschikt model voor de wetenschap. Strafrecht gaat over nare dingen; wetenschap is leuk en spannend. In het strafrecht moet binnen redelijke termijn een beslissing over schuld of onschuld worden genomen; in de wetenschap mogen oordelen worden opgeschort. In het strafrecht geldt de eis van prudentie, in de wetenschap mogen premature hypotheses enthousiast van de daken worden geschreeuwd. In het strafrecht spreekt de rechter een unaniem gedragen oordeel uit; in de wetenschap mogen wetenschappers met elkaar kibbelen – graag zelfs.

Het gevaar van speciaal daartoe aangestelde scherprechters die jacht maken op tegenstrijdige resultaten, onwelgevallige uitkomsten en non-replicaties is dat krachtige theorieën een voortijdige en onverdiende dood sterven. Het probleem dat hier speelt, zo legt Daniel Schacter (2001) in zijn boek over de vergeten geheugenonderzoeker Richard Semon (1859-1918) uit, is dat in de beginfase nonsensicale en innovatieve ideeën soms moeilijk van elkaar zijn te onderscheiden. Zolang we een liberaal criterium hanteren voor wat als wetenschappelijke bijdrage geldt, zal er een stortvloed aan ideeën zijn, rijp en groen door elkaar. Maar als commissies, tijdschriftredacteuren en subsidieverstrekkers dat criterium conservatief gaan afstellen met, zoals Wagenmakers voorstelt, de Brady-doctrine in de hand (‘U moet een vervolg geven aan onwelgevallige resultaten’), dan dreigt het gevaar dat niet alleen de fantasten, maar ook de Pavlovs naar deuitgang van de wetenschap worden gedirigeerd.

Het zou deel van de academische cultuur moeten zijn om mislukkingen te prijzen

Dat laatste is ongewenst. Laat wetenschappers dus vooral zelf hun tegenspraak organiseren. Maar dan moeten ze dat wel – en hier heeft Wagenmakers een belangrijk punt – ook doen. Het zou deel van de academische cultuur moeten zijn om mislukkingen te prijzen. Welke hypothese of theorette heeft u gesloopt? Dat behoort op CV’s te prijken, prominent gespreksonderwerp tijdens sollicitaties te zijn en citaties te verdienen (Lilienfeld, 2017). Van die cultuur zijn we nog ver verwijderd, wat er ook uit blijkt dat replicatie-mislukkingen vanaf hun publicatie soms minder worden geciteerd dan het oorspronkelijke artikel dat ze tegenspreken (bijv. Verschuere et al., 2018). Dan staan de beloningsparameters in de academie verkeerd afgesteld. Waar is Pavlov als je ‘m nodig hebt?

Harald Merckelbach is hoogleraar Rechtspsychologie en verbonden aan de faculteit Psychologie en Neurowetenschappen van Universiteit Maastricht.


Tel preregistratie mee in de beoordeling

If it’s not published, it’s not research, zei mijn goede oude decaan, Don Foss, van Florida State University in de Verenigde Staten altijd. Zijn opmerking betrof een groep van medewerkers die de mond vol hadden over het onderzoek waarmee ze bezig waren in hun lab, maar dit onderzoek niet opschreven, laat staan opstuurden naar een tijdschrift.

Het betoog van Eric-Jan Wagenmakers geeft aanleiding tot een variatie op die uitspraak: If it wasn’t preregistered, it is not research. Het belang van preregistratie hoef ik hier niet te beargumenteren, want dit heeft Wagenmakers zelf al met aansprekende voorbeelden gedaan. Wagenmakers merkt op dat veel onderzoekers zelf al zijn begonnen met preregistratie, maar dat het voor subsidieverstrekkers, universiteiten en (veel) tijdschrijften nog geen vereiste is. Dit is inderdaad een vreemde discrepantie. Die self-policing zou ingebed moeten zijn in een groter geheel.

Het punt van mijn Amerikaanse decaan was dat sommige onderzoekers de mond vol hadden over het onderzoek waar ze mee bezig zeiden te zijn, terwijl dit onderzoek veelal niet werd opgeschreven en dus nooit in de literatuur verscheen. Ze moesten bij promotiebeslissingen beoordeeld worden op wat er in de literatuur verscheen en niet op waar ze allemaal mee bezig zeiden te zijn. Op zich had de decaan wel een punt natuurlijk, maar in de psychologie is de laatste jaren steeds duidelijker het besef gerezen dat het verschijnen in de literatuur op zich niet het criterium zou moeten zijn, zolang negatieve bevindingen en nulresultaten uit die literatuur worden gehouden. Zoals Wagenmakers terecht aangeeft, is preregistratie de beste remedie tegen publicatiebias.

Preregisratie zou dan ook mee kunnen wegen in de jaarlijkse beoordelingen van onderzoekers. Daarbij tellen (empirische) publicaties alleen mee als ze gepreregistreerd zijn onder het motto: If it wasn’t preregistered, it is not research. Dit klinkt misschien extreem, en ik zou ook zeker niet willen beweren dat we dit plan stante pede moeten invoeren. Maar ik merk wel in mijn eigen onderwijs dat ik het moeilijk vind om studies te behandelen die niet gepreregistreerd zijn. Hoe moeten we dan onderzoek zien in het huidige licht? Ik verwacht dat meer en meer collega’s zich die vraag zullen gaan stellen in de nabije toekomst.

Rolf Zwaan is hoogleraar Biologische en Cognitieve Psychologie aan de Erasmus Universiteit Rotterdam. Hij is lid van de redactieraad van De Psycholoog.


 

Beeld: UnSplash

1. Op 27 juni 1958 waren John Leo Brady en zijn handlanger Donald Boblit betrokken bij een moord. Beide mannen werden in aparte processen veroordeeld tot de doodstraf. Boblit had schriftelijk bekend de feitelijke moord gepleegd te hebben, maar deze bekentenis werd tijdens het proces van Brady door justitie achtergehouden.

2. Mede op basis van ideeën van Munafò (2017) en Chambers (2017) zijn er inmiddels samenwerkingen ontstaan tussen subsidieverstrekkers en tijdschriften, maar alleen voor onderzoekers die zich eerst vrijwillig hebben vastgelegd op een Registered Report.