Rond de voormalige rector van de Vrije Universiteit Amsterdam, Lex Bouter, houdt een groep onderzoekers zich bezig met integriteitsonderzoek, dat is onderzoek naar gewetensvol onderzoeksgedrag. Een recente uitkomst is het heldere en leesbare proefschrift van Tamarinde Haven (2021).1
Haven maakt duidelijk dat 1) FFP, dat is ‘falsification, fabrication and plagiarism’, weliswaar doodzonden zijn in onderzoek, maar mogelijk niet de belangrijkste, en 2) het beschouwen van fraudeurs als rotte appel aangevuld dient te worden met onderzoek naar de mand appels als geheel. De centrale aanname van Haven is dat QRP’s (questionable research practices) veel meer schade berokkenen dan FFP’s. Trouwens, Haven wijst daar terecht op: plagiaat veroorzaakt voor de wetenschap weinig tot geen schade. Het herhalen van andermans uitspraken en resultaten zonder bronvermelding is weliswaar verwerpelijk, maar de wetenschap als zodanig wordt er niet of weinig door geschaad. Zij verwijst naar een schatting van falsificatie en fabricatie op 2% en QRP’s op 34% van alle schade. Dat impliceert dat het voorkomen van bedenkelijke onderzoekspraktijken effectiever is dan het bestrijden van de rotte appels, die falsificatie en fabricatie van gegevens veroorzaken. Questionable research practices zijn volgens Haven verbonden met de kwaliteit van het onderzoeksklimaat. Dat klimaat is als het ware de mand, waarin de appels zich bevinden.
Ontbrekende theoretische inbedding
Haven beschrijft haar onderzoeksvraag als volgt: ‘Wat beschouwen onderzoekers uit vier Amsterdamse academische Instituten (de twee Amsterdamse universiteiten en de twee Amsterdamse Academisch Medische Centra) als de meest opvallende aspecten van het onderzoeksklimaat van hun instituut, die onderzoeksintegriteit bevorderen of remmen; en wat beschouwen zij als de belangrijkste barrières voor verantwoordelijk onderzoeksgedrag en wat als veelbelovende interventies om onderzoekswangedrag (FFP) en twijfelachtige onderzoekspraktijken (QRP’s) te voorkomen’ (vertaling W.K.).
Haven merkt terecht op dat haar onderzoeksvraag nogal een mondvol is. Bezwaarlijker is evenwel dat haar onderzoeksvragen niet theoretisch ingebed zijn. Het gaat hier niet om uit theorie afgeleide hypothesen, of zelfs maar om een poging onderzoeksgegevens te genereren, die bijdragen aan theorievorming. Haar onderzoek beperkt zich kennelijk tot het inventariseren van meningen van Amsterdamse onderzoekers. Verder meldt zij op zoek te zijn naar verschillen tussen drie academische groepen (promovendi, postdocs en UD’s, en UHD’s en hoogleraren) en verschillen tussen disciplines (biomedische wetenschappen, natuurwetenschap, sociale en gedragswetenschappen, en de geesteswetenschappen). Ook hierbij ontbreken theoretische aanleidingen: waarom zijn deze verschillen van belang?
Haven wijdt weliswaar haar hele tweede hoofdstuk aan theorieën over onderzoeksmisdragingen, maar dat hoofdstuk staat betrekkelijk los van haar onderzoeksvragen. Het woord ‘theorieën’ is hier ook wat te ernstig: het gaat om niet veel meer dan ideetjes. Haven deelt die ideeën als volgt in: a) aannamen en wenselijkheden van de zich misdragende onderzoekers, b) uitnodigende kenmerken van de onderzoekscontext en c) onbewuste vooroordelen en invloeden. Verder maakt ze onderscheid in individuele, institutionele en systemische factoren. Op inidividueel niveau zijn er dan vier theoretische ideeën: ‘rational choice’, ‘bad apple’, ‘strain’ en ‘prospect’ theorie. Het gaat hierbij dus achtereenvolgens over het rationeel afwegen van voors en tegens, een nagenoeg criminele attitude, een uitweg zoeken uit stress en spanning, en het willen voorkomen van toekomstige teleurstellingen. Op institutioneel niveau is er het idee van de Organizational Justicetheorie en op het niveau van het systeem van de wetenschap is er de New Public Management.
Haven illustreert de mogelijkheden (en onmogelijkheden) van deze ideeën aan de hand van de bekende casus Diederik Stapel. Deed sociaal psycholoog Stapel aan een kostenbatenanalyse (rational choice)? Had hij een slecht karakter (bad apple)? Was hij gestresseerd (general strain theory)? En/of wilde hij risico’s vermijden zoals onzekerheid over zijn baan en andere onzekerheden (prospect theory)? Havens analyses maken duidelijk dat we zelfs in zo’n goed gedocumenteerd geval als dat van Stapel onvoldoende informatie hebben om te kunnen beslissen tussen de theorieën.
Hoe zit het dan met de organisatie waarbinnen misdragingen als die van Stapel plaatsvinden? Het hoofdidee is hier dat organisaties waarbinnen geen eerlijke (faire) strategieën heersen uitlokkers zijn van misdragingen (dat is de strekking van de Organizational Justicetheorie). Ook de New Public Management (de opvatting dat alles bestuurbaar is met behulp van protocollen, accountability, enzovoort) zou nare gevolgen kunnen hebben, zoals een overmaat aan tellingen en kwaliteitsindicatoren die verleiden tot misdragingen. Helaas zijn ook deze effecten in het gevalStapel niet goed vast te stellen. Tot overmaat concludeert Haven dat de verschillende theoretische benaderingen elkaar niet beconcurreren, maar heel goed samengaan (met uitzondering van de rational choice en de prospectbenaderingen: immers rationele calculatie en door angst gedreven vermijding van risico’s staan elkaar in de weg).
Haven heeft de verschillende benaderingen helder geïnventariseerd en toegelicht. Helaas wordt vooral duidelijk dat er weinig of geen scherpe theorie beschikbaar is voor het onderzoek naar wetenschappelijke misdragingen. Wat opvallend ontbreekt: de uit de besproken theorieën af te leiden en te toetsen voorspellingen, respectievelijk de verheldering van de falsifieerbaarheid van de theoretische benaderingen. Misschien zou het betreende veld meer gediend zijn met de uitwerking van dit soort essentiële theoretische vragen dan met onderzoek naar meningen van betrokkenen.
Laten we bezien wat Haven over die meningen kon vaststellen.
Meten van organisatorische onderzoeksintegriteit
Allereerst ontwikkelt Haven voor haar onderzoek een verbeterde versie van een vragenlijst voor het meten van de organisatorische onderzoeksintegriteit in academische onderzoeksomgevingen. (Het gaat om vragen naar bijvoorbeeld de eeerlijkheid van ethische toetsingscommissies; het bestaan van leergangen voor jonge onderzoekers, waarin ze leren integer onderzoeker te worden; de vraag hoe redelijk verwachtingen van afdelingen zijn met betrekking tot publiceren en verwerven van subsidies, enzovoort). Grondig en mooi psychometrisch werk en nuttig voor de toekomst van dit soort onderzoek. Het is overigens niet helemaal duidelijk waarom Haven in haar onderzoek met prioriteit kiest voor de rol van de organisatie; uit haar bespreking van de theorieën volgt zo’n prioriteit niet.
Met de toepassing van haar instrument vindt Haven verschillen in de perceptie van het klimaat tussen groepen en tussen disciplines. Het komt erop neer dat jongeren (promovendi, postdocs en UDs) meer onrechtvaardigheden ervaren dan meer seniore onderzoekers (UHD’s en hoogleraren). Ook vinden de jongeren de supervisie van de ouderen minder geslaagd dan die ouderen zich lijken te realiseren. Beoefenaars van de natuurwetenschappen hebben over het geheel de meest positieve perceptie van onderzoeksintegriteit. In de sociale wetenschappen en de geesteswetenschappen wordt minder eerlijkheid met betrekking tot publiceren en het verwerven van subsidies ervaren dan in de natuurwetenschappen en de biomedische wetenschappen.
Hierbij valt aan te tekenen dat er een steekproef van 7548 onderzoekers per mail is aangeschreven en dat er uiteindelijk 1073, dus 14%, daadwerkelijk de vragenlijst invulden. Dat doet natuurlijk de wenkbrauwen fronsen over de kwestie van de representativiteit. Haven stelde vast dat de samenstelling (qua academische rang en qua discipline) van de subgroep uiteindelijke deelnemers niet afwijkt van die van alle oorsponkelijk aangeschrevenen. Maar het is heel wel denkbaar dat er allerlei niet waargenomen verschillen bestaan. De belangrijkste mogelijkheid lijkt te zijn dat nonrespondenten weinig of geen existentiële betrokkeneheid bij FFP’s en QRP’s hadden en het gewoon niet de moeite waard vonden om de vragenlijsten in te vullen. Het is moeilijk voor te stellen dat iemand die aan den lijve allerlei oneerlijkheid ervaren heeft niet de moeite neemt aan een onderzoek daarover deel te nemen. Het is niet onwaarschijnlijk dat degenen die wel deelnamen aan het onderzoek in een onderzoeksomgeving werken, waar ze allerlei ellende ervaren hebben, of menen ervaren te hebben.
Publicatiedruk
In een volgende stap richt Haven zich op de ervaren publicatiedruk. Ze ontwerpt daartoe, wederom met psychometrische zorgvuldigheid, een lijst die qua betrouwbaarheid en validiteit goed bruikbaar is. Die bruikbaarheid wordt dan vervolgens gedemonstreerd. Het blijkt dat er bij alle rangen en disciplines een negatieve attitude wordt gevonden ten aanzien van het huidige publicatieklimaat. Postdocs en UD’s ervaren de grootste publicatiestress en promovendi ervaren een gebrek aan steun om die stress aan te kunnen.
Wederom maak ik mij ernstig zorgen over de houdbaarheid van te trekken conclusies, want de 86% nonrespons is ook hier een bron van zorg. Ook Haven besteedt er veel aandacht en nader onderzoek aan. Zo neemt ze de subgroep respondenten, die pas na herhaaldelijk aanmanen als laatsten alsnog meededen, als meest gelijkend op de nonrespondenten. Haar schattingen leiden ertoe dat ze concludeert dat de nonrespons waarschijnlijk niet heeft geleid tot bias.
Nog steeds is dan zeer goed voorstelbaar dat de nonrespodenten gewoon het hele onderwerp niet belangrijk vinden en niet zomaar vergeleken kunnen worden met respondenten, ook niet met hen die laat instapten. Mogelijk voelen ze zich niet aangesproken, omdat ze zich integer gedragen.
Sloppy science
Haven buigt zich ook over de perceptie van misdragingen. Onderzoekers werd gevraagd uit een lijst van 60 misdragingen (zoals ontoereikende supervisie, kiezen van onjuiste methodologie en/of instrumenten, eigen overtuigingen conclusies laten beinvloeden, inadequate weergave van het researchproces) aan te geven welke ze ervaren hebben. Voorts werd in focusgroepen aan deelnemers gevraagd te reflecteren op misdragingen en de ernst ervan.
Wederom was er een enorme nonrespons (85%), er namen 1050 onderzoekers deel; in de focusgroepen participeerden 61 onderzoekers (drie tot acht per groepje). In alle disciplines werd als belangrijkste tekortkoming gebrekkige supervisie genoemd. De focusgroepen bevestigden dat. In de biomedische en sociale wetenschappen was er vooral zorg over sloppy science (onderzoek waarin de gepresenteerde tekortkomingen een rol spelen) en gebrekkige supervisie. In de natuurwetenschappen en in de geesteswetenschappen werd vooral slordige reviewing en diefstal van ideeën door reviewers genoemd. En verder wezen onderzoekers uit deze disciplines op het voorkomen van nepotisme.
In het interessante hoofdstuk zeven worden de eerder gebruikte vragenlijsten gecombineerd. Van de benaderde onderzoekers vulde 17% de lijsten in. Haven gebruikte de gegevens vervolgens om te bepalen hoeveel variantie verklaard werd door resp. individuele, klimaaten publicatiefactoren. Het blijkt dat de drie soorten factoren samen 32% van de variantie verklaren (resteert dus 68% onverklaarde variantie!). Individuele factoren verklaren 7%, klimaatfactoren 22% en publicatiefactoren 16%. Aangezien de klimaatfactoren relatief de belangrijkste rol lijken te spelen concludeert Haven dan ook dat het verbeteren van ‘departmental norms’ het meeste effect zou kunnen hebben.
Ook de focusgroepbevindingen van Haven sluiten hierop aan: de deelnemers menen dat een goed onderzoeksklimaat gekenmerkt is door eerlijke evaluaties, openheid, integriteit, vertrouwen, vrijheid en voldoende tijd om het werk uit te voeren. Zoals Haven ook afsluitend concludeert: deze kenmerken zijn overal terug te vinden in de bestaande gedragscodes.
Besluit
Laat gezegd zijn dat het werk van Haven in een aantal opzichten voorbeeldig is. Het voldoet in alle opzichten aan de huidige roep om open science: ieder die dat wil kan de dissertatie van de VU website downloaden, er is voortdurend gestreefd naar preregistratie en Haven heeft zich in alle denkbare vormen kwetsbaar, controleerbaar opgesteld. Ze geeft zelf dus een goed voorbeeld van integer onderzoeksgedrag.
Mijn hoofdprobleem met dit type onderzoek is dat het zo theoriearm is: het onderzoek beperkt zich feitelijk tot het inventariseren van opinies. Opinies waaraan, gegeven de enorme nonrespons, moeilijk representativiteit kan worden toegeschreven. Opinies die ons niet helpen zicht te krijgen op oorzaken van misdragingen. Opinies die evenmin helpen bij het selecteren uit concurrerende theorieën (die tot nu toe ook nauwelijks of niet voorhanden zijn). In plaats van kennis te moeten nemen van belevingen van onderzoekers zou ik toch wel heel graag willen weten of het optreden van concreet frauduleus of dubieus handelen samenhangt met concrete kenmerken van het onderzoeksklimaat, met persoonlijkheidskenmerken van overtreders, met publicatiedruk, enzovoort.
De belangrijkste bevindingen voegen weinig toe aan wat al zo lang in de media en in wetenschappelijke kringen besproken wordt: er is te veel publicatiedruk, er zijn niet zelden te veel promovendi om ze naar behoren te kunnen begeleiden, gedragscodes zijn ontworpen om misdragingen te voorkomen, integriteitscommissies werken aan sanctionering. Aan al deze zaken wordt al heel lang hard gewerkt, al ver voordat het onderzoek van Haven begon.
Misschien moeten we ten slotte uit de nonrespons in het onderzoek van Haven concluderen dat het allemaal erg lijkt mee te vallen: zo’n 85% van de aangeschreven onderzoekers hebben het in het geheel niet nodig gevonden aan het onderzoek mee te werken. Dat geeft mij merkwaardig genoeg hoop. Hoop die gesteund wordt door mijn dagelijkse omgang met jonge en oudere onderzoekers, wier levensvreugde goeddeels berust op hun integere en noeste wetenschappelijke arbeid.
Prof. dr. Willem Koops is emeritus-universiteitshoogleraar aan de Universiteit Utrecht. E-mail: w.koops@uu.nl.
Blijf onderzoeksklimaat bestuderen
Jonge(re) onderzoekers ervaren meer onrechtvaardigheden dan seniore onderzoekers
Willem Koops zet op twee punten terechte vraagtekens bij mijn proefschrift. Die zijn samen te vatten als 1) een gebrek aan theoretische inbedding en 2) een lage response rate op mijn vragenlijstenonderzoek. Koops heeft met aandacht en zorgvuldigheid mijn proefschrift onder de loep genomen. Hieronder ga ik kort op zijn voornaamste kritiekpunten in.
Laat vooropstaan dat Koops op beide punten tot op zekere hoogte gelijk heeft. Toen ik eind 2016 solliciteerde op deze positie als promovendus, waren mijn vragen over de haalbaarheid van het project zeer verwant aan zijn zorgen. Allereerst veronderstellen vragen over de theoretische inbedding dat er een gedegen theoretisch kader voorhanden is. In het tweede hoofdstuk van mijn proefschrift bespreek ik de verschillende theorieën die in de literatuur circuleren als verklaring voor wetenschappelijk wangedrag. Dat is in zekere zin een poging om een dergelijk theoretisch kader te identificeren. En het liefst ook eentje dat andere alternatieve verklaringen zou uitsluiten, of op z’n minst minder waarschijnlijk zou maken. Uit het naast elkaar zetten van deze theorieën komt naar voren dat het merendeel goed samengaat, wat tot nadeel heeft dat als bevindingen goed passen binnen het theoretisch kader van theorie A, ze dat ook binnen dat van B doen. Ik steun Koops zeker in zijn roep om een gedegen theoretisch kader en denk zelfs dat mijn werk daar een springplank voor kan zijn (enkele goede kandidaattheorieën zijn immers reeds in kaart gebracht).
Uitbannen
Het andere punt dat hier speelt, wat Koops in zekere mate zelf ook benoemt, is dat het doel van mijn promotieproject voornamelijk beschrijven was (en niet toetsen). Natuurlijk is dat weinig bevredigend voor de lezer die wetenschappelijk wangedrag geheel wil verklaren – of liever nog uitbannen. Maar dat was het doel van dit onderzoek niet. Na de Stapelcasus verschenen er diverse opiniestukken in de landelijke dagbladen waarin Stapel vooral werd weggezet als uitzondering die de regel (wetenschappers hebben zuivere intenties) bevestigt.2 Ondertussen werd in de grote vakbladen zoals Nature3 en Science4 al betoogd dat een omwenteling in het academisch klimaat noodzakelijk was. Maar er was een gebrek aan empirische data aangaande dat klimaat. Dit raakt ook aan Koops opmerking dat de bevindingen weinig toevoegen aan ‘wat al zo lang in de media en in wetenschappelijke kringen besproken wordt’.
Gesprekken bij het koffiezet apparaat zijn nuttig en ik hoop dan ook dat ze worden aangescherpt door onderzoek als dat van mij dat de percepties van meerdere onderzoekers samenbrengt. Daarnaast zijn de media er vooral snel bij als het fraudezaken betreft. En ik moet zeggen dat ik nog geen artikel in de populaire media op het spoor ben gekomen dat de rol van het onderzoeksklimaat in Nederlandse academische instellingen zorgvuldig aan de kaak stelt.
Nonresponse
Dan het tweede heikele punt: het feit dat maar een klein percentage van de Amsterdamse onderzoekers daadwerkelijk meedeed aan het onderzoek. Vooropgesteld: elke vragenlijstonderzoeker baalt van een lage response rate, mijn collega’s en ik ook. We hadden ons vooraf verzekerd van de steun van de decanen en rectoren van de betreffende instellingen. Daarnaast hadden we middels het plaatsen van berichten op het intranet, een vooraankondiging van het onderzoek en stukjes in de lokale nieuwsbrieven, ons best gedaan zoveel mogelijk mogelijke deelnemers te bereiken. Daarna houdt het echter op vanuit de kant voor de onderzoeker (gegeven ons budget) en is het enige dat haar nog rest voorzichtig te zijn bij het duiden van de bevindingen, zoals ik naar eer en geweten heb geprobeerd. Natuurlijk, er zijn ideeën over hoe je enigszins grip kunt krijgen op de ernst van de nonresponse, maar je zult nooit precies weten waarom een deel van onze populatie Amsterdamse onderzoekers niet meedeed.
Koops benoemt dit als een mogelijk lichtpuntje: 85% deed niet mee omdat zij het onderzoek niet belangrijk vond, dus – zo lijkt Koops te suggereren – valt het wellicht allemaal wel mee met slordig onderzoek. Een andere lezing is dat 85% niet meedeed omdat zij het onderwerp wel degelijk belangrijk vond, maar te precair en men wellicht bang was zelf geïdentificeerd te worden of iemand anders onbedoeld te verlinken. Ik weet me ook omringd door onderzoekers die met hart en ziel proberen zorgvuldige wetenschap te bedrijven. Maar dat wil niet zeggen dat er geen dieperliggende problemen (denk oneerlijk evaluatiebeleid, normalisatie van overwerk, gebrek aan steun en suboptimale begeleiding van junioronderzoekers) in het klimaat zijn die de integriteit van het onderzoek in gevaar kunnen brengen. Het blijft zinvol om het onderzoeksklimaat onder de loep te nemen, ook buiten Amsterdam.
Dr. Tamarinde Haven is psycholoog en werkt als postdoc aan het QUEST-center van het Berlin Institute of Health at Charité. E-mail: tamarinde.haven@charite.de.
Over beleidsonderzoek en hoe verder
Tamarinde Haven heeft een mooi en grondig proefschrift gemaakt over surveyonderzoek waarin relaties tussen enerzijds aspecten van individuele onderzoekers, organisatieklimaat en wetenschapsbeleid en anderzijds slechte onderzoekspraktijken en integriteit in het onderzoek in kaart worden gebracht.5 Zoals bij veel sociaalwetenschappelijk surveyonderzoek het geval is, lijdt ook dit onderzoek aan een gebrek aan sturing vanuit goed onderbouwde theorie, die er helaas niet is, en een groot percentage nonrespons, wat de representativiteit van de resultaten op losse schroeven zet.
Willem Koops wijst terecht op deze twee tekortkomingen, maar ik ben iets minder pessimistisch dan hij over het nut van dit type onderzoek. De resultaten kunnen volgens mij bijdragen aan het verbeteren van de omstandigheden waarin wetenschappelijk onderzoek plaatsvindt. Als je bijvoorbeeld weet dat beginnende onderzoekers minder vertrouwen hebben in wetenschapsintegriteit, weet je ook dat je deze groep moet helpen door na te gaan waar dat wantrouwen vandaan komt en of er iets aan te doen is. Ook is nader onderzoek bij senioren naar de oorzaken van dit gebrek aan vertrouwen nuttig. Ik zeg dus niet dat de jongeren gelijk hebben en de ouderen de kwaaie pier zijn, wel dat er kennelijk problemen zijn en verschillen in perceptie ervan die nader onderzoek rechtvaardigen. Je zit dan meer in de richting van het beleidsonderzoek, dat vaak beschrijvend en theoriearm is maar wel praktisch nuttig kan zijn. Ik ga nu kort in op het gebrek aan theorie en de hoge nonrespons alsook op problemen met onderzoek bij een in-group.
Belastingdienst
Het gebrek aan theorie dat sturing kan geven aan onderzoek is inderdaad een zwak punt van dit type onderzoek, maar ik vraag me tegelijk af of je er veel van zou moeten verwachten. Is het reëel te verwachten dat er zoiets kan worden ontwikkeld als een organisatietheorie over slechte onderzoekspraktijken en een persoonlijkheidstheorie over individuen die zich schuldig maken aan het vervalsen van onderzoeksgegevens? Zou je dan ook willen streven naar sociologische en psychologische theorieën die verklaren waarom sommige mensen de Belastingdienst oplichten door valse aangifte (te vergelijken met FFP) en anderen zich beperken tot kleinigheden die zij als terecht beschouwen en waar zij geen kwaad in zien (vergelijk met QRP’s), terwijl vele belastingplichtigen braaf hun burgerplicht vervullen?
Op het gevaar af te worden beschuldigd van cynisme, vrees ik toch dat sommige mensen eerder dan anderen grenzen opzoeken en een deel er overheen gaat. Ook vrees ik dat de redenen van grenszoekend en overschrijdend gedrag nogal divers zijn. Je ziet dat overal, en zeker niet alleen in het wetenschappelijke onderzoek. Je kunt denk ik zelfs zeggen dat de wetenschap er wat laat achter is gekomen dat onderzoekers ook niet allemaal brave lieden zijn. Ik verwijs voor vele voorbeelden uit het pre-Stapel-tijdperk naar de boeken van Van Kolfschoten6 en Judson.7 Ik verwacht dus niet veel van theorievorming op dit terrein, en dat geldt ook voor pogingen om Stapels beweegredenen vanuit allerhande zienswijzen op menselijk handelen te begrijpen, zoals Haven dat in hoofdstuk 2 probeert te doen. We kennen zijn motieven niet en misschien kent hij ze zelf ook niet. Ik denk ook niet dat je er veel achter moet zoeken en je beter op het ongewenste gedrag kunt richten en je afvragen of zoiets te voorkomen is. Dan komt beleidsonderzoek in beeld.
Fantasieën
Het onderzoek van Haven kent hoge nonresponspercentages van rond de 85%, wat jammer is maar ook tamelijk gewoon voor dit type onderzoek. De motieven om wel of niet aan surveys mee te doen zijn soms triviaal, zoals geen zin, geen tijd, en niet weer een survey; maar ook serieuzer, zoals niets mee te maken willen hebben en het een probleem van anderen vinden.
Dat laatste heb ik als universitair bestuurder nogal eens meegemaakt en gelukkig is er wel verbetering merkbaar: steeds meer onderzoekers begrijpen dat de tijden veranderen en dat zij erin mee moeten of willen. Dat gaat echter langzaam en tussen diverse vakgebieden zijn er grote verschillen. Te vaak heb ik binnen en buiten mijn eigen universiteit een onderzoeker of onderzoeksdirecteur horen beweren dat fraude met data of ongelukkig gebruik van methodenleer en statistiek in zijn of haar vakgebied niet aan de orde was – bijvoorbeeld omdat men er geen kwantitatief onderzoek deed. Hen verwijs ik alsnog naar de fantasieën van antropoloog M.M.G. Bax8, die onder andere onderzoek deed op basis van bronnen – getuigen, documenten – die later niet meer te achterhalen vielen en waarvan sterk werd betwijfeld of ze ooit hadden bestaan. De menselijke fantasie is dus niet aan getallen gebonden, maar omdat veel onderzoek kwantitatief is, zou je ten onrechte kunnen denken dat zich alleen daar de ongelukken voordoen. Haven en Van Grootel9 bespreken preregistratie van kwalitatief onderzoek.
Sta-in-de-weg
Haven vond dat wetenschappelijk medewerkers van de twee Amsterdamse universiteiten en academische ziekenhuizen vooral aangaven dat een responsible research climate werd bemoeilijkt door weinig ondersteuning, oneerlijke beoordeling, te veel overwerk, en onvoldoende begeleiding van junioren, zoals promovendi en beginnende universitair docenten. Het leidt geen twijfel dat dit zaken zijn die je liever niet in je organisatie ziet en die vragen om nader onderzoek en bij gebleken juistheid om stappen die het onderzoeksklimaat kunnen verbeteren. Net als Haven til ik vooral zwaar aan slechte begeleiding van promovendi en roep ik in navolging van haar de promotoren op dit in het belang van de promovendi altijd goed te regelen. Op dit en vele andere punten vind ik Havens onderzoek erg nuttig en zouden bestuurders maar ook wetenschappelijk onderzoekers er hun voordeel mee kunnen doen.
Maar hier openbaart zich ook een probleem van het ondervragen van medewerkers van academische instellingen, want volgens mij blijven dan zaken buiten beschouwing die voor het onderzoek van eminent belang zijn. Het gaat dan om zaken die gevoelig liggen omdat ze jezelf kunnen betreffen. Ten eerste lijkt het mij voor de kwaliteit van het wetenschappelijk onderzoek onontbeerlijk dat data waarover men publiceert openbaar worden gemaakt. Ik had wel willen weten hoe vaak dit gebeurt en als het niet gebeurt, waarom niet en wat men eraan heeft gedaan om de data alsnog openbaar te maken. Wat mij betreft kan hier ook het preregistreren van nog uit te voeren onderzoek onder vallen. Doet men dat? Waarom wel of niet? Wat moet er gebeuren om iedereen zover te krijgen? Ook denk ik dat het correct kunnen omgaan met statistiek nogal eens wordt onderschat10 (Kahneman, 2011) en tot vele QRP’s leidt, en in dit verband zou ik willen weten hoe onderzoekers hun eigen vaardigheden inschatten en weleens een methodoloog of statisticus inschakelen. Het niet kunnen erkennen van de eigen beperkingen – je kunt niet overal verstand van hebben, maar geef het maar eens toe – is hier denk ik een sta-in-de-weg.
Het proefschrift van Haven is, naast dat het helemaal voldoet aan de regels voor Responsible Conduct of Research, zeer de moeite waard en moet naar mijn mening eerder gezien worden als een mooie bijdrage aan het verbeteren van universitair beleid dan als een poging tot theorievorming. Wel wordt duidelijk dat het interessant kan zijn om het onderzoeksklimaat en de relatie met FFP en QRP’s niet alleen vanuit de perceptie van de in-group van academici maar ook wat objectiever te bestuderen. Dat in-groupleden het geven van volledige openheid moeilijk kunnen vinden, constateert ook Haven11 en ze doet suggesties voor onderzoeksmethoden om meer openheid te verkrijgen.
Klaas Sijtsma is hoogleraar Methoden en Technieken van Psychologisch Onderzoek aan Tilburg University. E-mail: k.sijtsma@tilburguniversity.edu.
Bronnen
- Tamarinde Laura Haven (2021). Towards a responsible research climate: findings from academic research in Amsterdam. Academisch proefschrift, Vrije Universiteit Amsterdam.
- Bijv.: https://www.trouw.nl/nieuws/meesteroplichterstapelheeftdehelewetenschapgeschaad~b404d92c/?referrer=https%3A%2F%2Fwww.google.com%2F; https://www.volkskrant.nl/wetenschap/ondanksfraudediederikstapelveelvertrouwenindewetenschap~b3ca58db/
- Martinson, B.C, Anderson, M.S. & de Vries, R. (2005). Scientists behaving badly. Nature, 435 (7043), 737–738.
- Nosek, B.A., Alter, G., Banks, G.C., Borsboom, D., Bowman, S.D., Breckler, S.J. et al. (2015). Promoting an open research culture. Science, 348 (6242), 1422–1425.
- Zie noot 1.
- Van Kolfschoten, F. (1993). Valse vooruitgang. Bedrog in de Nederlandse wetenschap. Amsterdam: Uitgeverij Contact.
- Judson, H.F. (2004). The great betrayal. Fraud in science. Orlando, FL: Harcourt, Inc.
- Baud, M., Legêne, S., & Pels, P. (2013). Circumventing reality. Report on the anthropological work of professor emeritus M. M. G. Bax. Downloaded from: https://www.vu.nl/en/Images/20131112_Rapport_Commissie_Baud_Engelse_versie_defi nitief_tcm270365093.pdf
- Haven, T. L., & Van Grootel, L. (2019): Preregistering qualitative research. Accountability in Research, DOI: 10.1080/08989621.2019.1580147
- Kahneman, D. (2011). Thinking, fast and slow. London, UK: Penguin Books.
- Zie noot 1, p. 173.
Beeld: giuseppe-cuzzocrea/unspash.com