Handig overzicht voor leken

In De Publicatiefabriek beschrijft Ruud Abma in detail hoe Diederik Stapel tot zijn fraude kwam en het effect van deze fraude op de sociale wetenschappen. Het boek bevat veel directe herhalingen uit Ontspoorde wetenschap van wetenschapsjournalist Frank van Kolfschoten, Ontsporing van Stapel zelf en het rapport van de commissie-Levelt. Abma analyseert de invloed van het diepgewortelde gebruik van productie-indicatoren op de wetenschappelijke kwaliteit. Hij slaagt er prima in om te beschrijven hoe, in het kielzog van schijnbaar objectieve criteria, slodderwetenschap kan ontstaan. Mogelijke methodologische verbeteringen van de sociale psychologie worden genoemd. Hoewel er zeker al initiatieven zijn gestart, worden de resultaten en effecten daarvan niet kritisch geanalyseerd.

Abma legt heel duidelijk uit hoe beleidsmakers gebruik maken van objectieve, niet-inhoudelijke bibliometrische indicatoren om individuele wetenschappers, groepen of zelfs hele instituten aan te sturen. Dit zijn in essentie statistische bewerkingen van aantallen publicaties en citaties. Vakinhoudelijke kwaliteitscriteria kunnen de beleidsmakers nauwelijks meewegen in de evaluaties. Wetenschappers worden gestimuleerd om veel te publiceren in tijdschriften met een hoog gemiddeld aantal citaties per bijdrage. Hiervoor moeten ze natuurlijk wel weer aan de criteria van de tijdschriften voldoen. Aansprekende artikelen die veel gelezen en geciteerd zullen worden, bevatten een combinatie van duidelijke, positieve resultaten met nieuwe effecten en aansprekende verbanden. De even belangrijke negatieve resultaten zijn veel moeilijker te publiceren, zo blijkt. Volgens Abma sporen wetenschappelijke tijdschriften wetenschappers soms zelfs aan om nuanceringen en minder overtuigende data te verwijderen uit het manuscript. Er is een dynamiek ontstaan waarin de schijnobjectiviteit van indices het primaire proces van de wetenschap verstoort.
Ten slotte gaat Abma in op de reacties op de sociale wetenschappen in het algemeen en de sociale psychologie in het bijzonder. De uitspraak van de commissie-Levelt, die stelde dat in de sociale psychologie een cultuur van slodderwetenschap zou zijn ontstaan, maakte veel los. Oude coryfeeën reageren met ingezonden brieven en uiten hun frustratie over het rapport. Een aantal jonge sociaal-psychologen heeft de handschoen opgepakt, en probeert het vak methodologisch te verbeteren. Maar wat betekent dat? Levelt, die enkel een strikt Popperiaanse experimentele opzet accepteert, wordt gecontrasteerd met Stapel, die experimenten exploratief uitvoert maar als confirmatief beschrijft. De verschillende posities van methodologen en enkele sociaal-psychologen over de rol van het experiment, de replicatie daarvan, het strikt vooraf formuleren van de hypothese en dubieuze praktijken als p-hacking worden beschreven. Suggesties over centrale dataopslag of het toestaan van een maximum aantal publicaties worden genoemd.
Wat me erg opvalt in deze discussie, is de notie dat effecten bestaan of niet. Replicatie-onderzoek is dan primair bedoeld om de robuustheid van een waarneming te valideren. Dat lijkt me echt onjuist. Als in experimenten soms sterke effecten worden gezien en soms niet, dat zegt dat juist iets heel wezenlijks over het systeem dat onderzocht wordt. Replicatie-onderzoek zou juist inzicht kunnen geven in de grilligheid van het systeem, en wellicht zelfs tot een uitspraak kunnen leiden over de condities waaronder wel en waaronder geen duidelijke effecten ontstaan.
Een educatief voorbeeld hiervoor is te zien in het bij dit artikel gevoegde YouTube-filmpje van een chaotische slinger met vier magneten. De bewegingsvergelijkingen zijn precies bekend en met een computer op te lossen. Daarnaast is het systeem experimenteel volledig uit te pluizen. In dit voorbeeld wordt het verband tussen de start- en eindpunten van de slinger bepaald. De uitkomst (in hoge resolutie te zien op 3 minuten en 37 seconden) toont duidelijk hoe zich, afhankelijk van het startpunt, een sterk effect aftekent of er juist helemaal geen effect te onderscheiden is. Hoewel uit de bewegingsvergelijking de eindpositie van de slinger berekend kan worden, is de voorspellende waarde van de berekening nihil. Minuscule variaties in de begincondities zijn genoeg om de voorspelling te laten falen. De theorie is dus strikt genomen niet falsificeerbaar en het experiment niet exact repliceerbaar. Methoden en technieken die optimaal geschikt zijn voor de bestudering van de ene klasse van systemen zijn niet overal probleemloos inzetbaar. Maar replicatiestudies kunnen juist wel prachtig de experimentele grilligheden blootleggen.
De publicatiefabriek geeft een goed overzicht van de affaire-Stapel en de ontwikkelingen die daarop volgden. Zeker voor diegenen die niet goed bekend zijn met deze affaire en de boeken van Van Kolfschoten en Stapel en het rapport van de commissie-Levelt niet hebben gelezen, biedt het een goed, kort en bondig overzicht. Persoonlijk vind ik dat het boek te veel blijft hangen in een herschikking van oud materiaal, en was ik meer geïnteresseerd geweest in een kritische discussie over de mogelijke verbeteringen in dit veld en de wetenschap in het algemeen. Abma’s analyse over de aansturing van wetenschap in Nederland is generiek. Dit boek is daarom zeker ook relevant voor wetenschappers uit andere disciplines.

Marco de Baar is fysicus en werkzaam als groepsleider bij FOM Differ en deeltijd hoogleraar aan de Technische Universiteit Eindhoven. Hij blogt over wetenschap, wetenschapsfraude en mogelijke systeemverbeteringen om fraude te voorkomen. E-mail: M.R.d.Baar@tue.nl.