De wetenschap bloeit bij het nastreven van ongewone oplossingen voor bekende problemen en het nemen van onverwachte afslagen in een voorgenomen onderzoekstraject. Het klassieke idee van academische vrijheid spitst zich doorgaans toe op de individuele onderzoeker die kan onderzoeken wat zij wenst, zonder inmenging van belangengroepen. Het is maar de vraag of dit ideaal ooit realistisch was, maar vaststaat dat het vandaag moeilijk is vol te houden. De samenleving verwacht dat de wetenschap met resultaten komt die het algemeen belang dienen, ofwel, dat de wetenschap impact heeft. De overheid, bedrijven en ook goede doelen, maar ook de Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) en de European Research Council (ERC) willen inspraak in wat de wetenschap onderzoekt. Financiering wordt ervan afhankelijk gesteld en dit legt nog meer druk op de vraag aan de wetenschap om impact te hebben.
Team Science
Om kennis te genereren die mogelijk impact heeft, hebben onderzoekers een omgeving nodig zonder beperkingen op de onderzoeksmethoden, de uitvoering van het onderzoek en de publicatie van onderzoeksresultaten – zodat het onderzoek kan plaatsvinden zonder inmenging van belangengroepen. Dergelijke inmenging zou de validiteit en de geloofwaardigheid van de onderzoeksresultaten, en daarmee de impact ervan, kunnen bedreigen.
De recente nadruk op team science (Room for everyone’s talent, 2019) beperkt mogelijk de individuele vrijheid van onderzoekers verder, maar beschermt hen ook tegen onredelijke verwachtingen van hun onderzoeksproductie in de vorm van aantallen publicaties, verkregen subsidies en gerealiseerde promoties, waarmee de wetenschap zichzelf in de afgelopen decennia zo onder druk heeft gezet. Academische vrijheid is dus niet absoluut maar onderhevig aan praktische beperkingen.
Een duidelijke tekortkoming van de academische vrijheid zonder restricties zoals we die wellicht hebben gekend, is dat die vrijheid zich zozeer toespitste op het stimuleren van creativiteit, dat de aansprakelijkheid van de individuele onderzoeker voor haar onderzoek achter de horizon verdween. Enkele schandalen aan universiteiten – waaronder aan Tilburg University – hebben de wetenschap ruw wakker geschud. Deze schandalen hebben enkele kenmerken gemeen. Bijna alle draaien ze om eenlingen met sterke persoonlijkheden, die hun eigen regels stellen, hun onderzoeksgroep gebruiken voor hun eigen doeleinden en gehoorzaadheid eisen op straffe van verstoting uit de groep. Team science als model voor wetenschappelijk onderzoek kan alleen succesvol zijn als de leider algemeen aanvaarde regels voor excellent onderzoek uitdraagt, vooral geeft en veel minder neemt, en andere vaak jonge onderzoekers de vrijheid gunt om hun eigen ideeën uit te werken en erover te publiceren. Er wordt dus veel van de moderne teamleider gevraagd in de sterk competitieve wereld van de wetenschapsbeoefening en het gaat hier beslist niet om een open deur, maar om een uiterst serieuze inspanning.
Academische vrijheid moet uiteraard niet worden afgezworen, maar een algemeen aanvaarde verzameling van spelregels is noodzakelijk voor een geordende en eerlijke competitie. Overigens is niet alleen team science belangrijk, individuen moeten ook de kans hebben om met briljante ideeën op de proppen te komen en de gelegenheid krijgen te falen zonder ernstige consequenties voor hun loopbaan. We willen immers niet een nieuwe Einstein mislopen. Einstein wist zich als aspirant-fysicus te ontplooien in de afzondering van een voor hem saaie baan bij het octrooibureau in Zürich. Team science zal naar verwachting wel wat druk van de publicatie-, subsidieen promotieketels halen, waar nu zovelen last van hebben, en ruimte laten voor individuele ontplooiing die niet meteen productief dient te zijn.
Academische vrijheid is niet absoluut maar onderhevig aan praktische beperkingen
Fouten
De universiteit lijkt tegenwoordig door een ontwikkeling van verlichting te gaan. Die brengt een groeiende bewustwording met zich mee dat we ook fouten maken en dus geen heiligen zijn. Is het erg om fouten te maken? De Romeinse filosoof Seneca zei het heel mooi: Errare humanun est, sed in errare perseverare diabolicum. Dat betekent zoveel als Vergissen is menselijk, maar je moet je fouten wel herstellen.
Welke fouten maken onderzoekers en hoe kunnen we ze zoveel mogelijk voorkomen, nog liever dan herstellen? Veel meta-onderzoek legt zich toe op fouten die in onderzoek worden gemaakt en wat we tegen die fouten kunnen doen (bijv. Wicherts et al., 2016). Steneck (2006) presenteerde het volgende continuüm voor de zuiverheid van onderzoek.
RCR ———QRP’s ———FFP
RCR staat voor Responsible Conduct of Research. Dit is onderzoek volgens het boekje dat plaatsvindt onder ideale condities en daarmee dus niet samenvalt met de onderzoekspraktijk. FFP staat voor Fabrication, Falsification, en Plagiarism. Fabricatie is het verzinnen van gegevens met de bedoeling een bepaalde onderzoeksuitkomst te suggereren zonder dat er echte gegevens verzameld zijn. Vervalsing is het verbeteren van een onderzoeksuitkomst door bijvoorbeeld onwelgevallige informatie weg te laten, zoals experimentele condities die een niet-lineaire trend laten zien zodat het lijkt alsof er een lineair verband is gevonden. Plagiaat is diefstal van andermans tekst of ideeën, terwijl de dief suggereert dat het zijn eigen productie betreft. Fabricatie en vervalsing betreffen nepwetenschap, plagiaat betreft echte en mogelijk valide resultaten. Onderzoekers die zich schuldig maken aan FFP zijn excentriekelingen. Als ze worden betrapt, genereren ze veel aandacht en beschadigen ze de geloofwaardigheid van de wetenschap.
Meer zorgen baren mij de questionable research practices (QRP’s). Het gaat hier om fouten die in normaal onderzoek door normale onderzoekers worden gemaakt. Omdat QRP’s zoveel voorkomen en niet meteen opvallen, ondermijnen ze de geloofwaardigheid weliswaar langzaam, maar wel met zekerheid. John, Loewenstein en Prelec (2012) verzamelden data bij ongeveer tweeduizend onderzoekers uit diverse psychologische disciplines, en vroegen hen of zij ooit betrokken waren geweest bij een of meer van de QRP’s die in tabel 1 zijn opgenomen. De ongecorrigeerde resultaten laten zien dat 63% van de respondenten aangaf dat men ten minste eenmaal niet alle meetresultaten had gerapporteerd. Het gevolg kan een vertekening van de resultaten zijn geweest. Ook rapporteert 38% dat men ten minste eenmaal stilzwijgend uitbijters –extreme of ongewone metingen – had weggelaten uit de gegevensanalyse, terwijl dat de resultaten beïnvloedde. Ook in dit geval kon vertekening in de rapportage ontstaan.
Ander onderzoek laat dergelijke resultaten ook zien (bijv. Fanelli, 2009). Dat suggereert dat vele onderzoekers weleens activiteiten ondernemen in het grijze gebied van de QRP’s. Niet iedereen laat zich echter in met QRP’s, en niet alle activiteiten die in tabel 1 worden genoemd (en andere activiteiten) tellen in alle onderzoeksprojecten als QRP’s. Bijvoorbeeld: als duidelijk is dat enkele proefpersonen de hun opgedragen taken niet serieus hebben genomen, is het verdedigbaar, zelfs verstandig, hun gegevens uit de analyses weg te laten. Ook hebben niet alle onderzoekers door dat ze zich met QRP’s inlaten. Zo kan een onderzoeker denken dat zij het juist heel goed doet, terwijl dit vanuit het gezichtspunt van de methodenleer en de statistiek niet zo is. Het gaat dan bijvoorbeeld om discutabele gewoonten die men van collega’s heeft geleerd en die men geheel te goeder trouw heeft overgenomen, blijft gebruiken en weer doorgeeft.
Fabricatie en vervalsing betreffen nepwetenschap, plagiaat betreft echte en mogelijk valide resultaten
Zorg
Aan Tilburg University hebben we diverse maatregelen genomen om onze onderzoeksactiviteiten te verbeteren. Zo is het promotiereglement ingrijpend verbeterd. Ook zijn er regels gekomen voor gegevensopslag. Er zijn diverse vertrouwenspersonen en commissies ingesteld die klachten, zoals veronderstelde schendingen van de onderzoeksintegriteit, kunnen behandelen, en er bestaat een integriteitstraining voor promovendi. Beleid heeft echter de gewoonte om ergens in de organisatiehiërarchie te blijven steken zonder in het echte onderzoek terecht te komen.
Een recente inventarisatie van het Tilburgse beleid laat twee resultaten zien. Ten eerste bestaan er vooral lokale, maar nog geen universiteitsbreed gedragen initiatieven op de terreinen van gegevensopslag en onderzoeksaudits. Ten tweede is het duidelijk dat het implementeren van beleid een lange termijninspanning vergt. Als het gaat om het veranderen van de wijze waarop men onderzoek doet, gaat het om niet minder dan een cultuurverandering die inspanning, doorzettingsvermogen en geduld van alle onderzoekers vraagt. Zoals alle Nederlandse universiteiten heeft Tilburg University de Nederlandse gedragscode wetenschappelijke integriteit (2018) omarmd. Al het wetenschappelijk personeel valt hieronder en dient de regels in het eigen onderzoek te implementeren.
Gedurende de afgelopen decennia heeft de Nederlandse wetenschap een groeiende competitie laten zien om banen, bevordering, subsidies, artikelen in toptijdschriften, reputatie en prijzen (bijv. Busato, 2008). Competitie stimuleert de creativiteit, maar kan sommige mensen tot grensoverschrijdend gedrag aanzetten. De nieuwe visie van de Vereniging van Universiteiten op academische loopbanen (Room for everyone’s talent, 2019) is onder andere bedoeld om de huidige ratrace tussen wetenschappers af te zwakken en alle aspecten van het werk waaronder ook onderwijs, impact, bestuur en bijdrage aan het team in de personeelsbeoordeling mee te laten tellen. Kwaliteit is daarbij belangrijker dan kwantiteit en het nieuwe Standard Evaluation Protocol 2021-2027 voor onderzoeksvisitaties (ten tijde van publicatie van dit artikel nog niet beschikbaar, KS) wordt nadrukkelijk in deze zin aangepast. Deze en andere maatregelen zullen hopelijk de ervaren werkdruk verlichten die thans het plezier in de wetenschap dreigt te ondermijnen en wellicht ook (maar niet alleen) bijdraagt aan het ontstaan van QRP’s.
Mijn grootste zorg als statisticus is de onjuiste wijze waarop sommige onderzoekers hun ruwe gegevens bewerken en statistiek gebruiken. Onjuiste bewerking van gegevens en foutief gebruik van statistiek zijn QRP’s, en onderzoekers die zich hier schuldig aan maken doen dit vaak zonder dat ze het doorhebben. Twee maatregelen in het bijzonder kunnen deze problemen reduceren (Sijtsma, 2016).
De eerste maatregel is het publiceren van de onderzoeksgegevens. Dit dient twee doelen. Publicatie stelt andere onderzoekers in staat secundaire analyses te doen. Zo worden gegevens die vaak met belastinggeld zijn verzameld efficiënter gebruikt. Ook worden collega’s in staat gesteld om iemands gerapporteerde resultaten te reproduceren, zodat onderzoekers nog meer dan voorheen worden aangemoedigd om betrouwbare resultaten te publiceren.
De tweede maatregel is een methodoloog of statisticus te vragen te helpen met de statistische analyses als de gegevens een ingewikkelde structuur hebben – bijvoorbeeld omdat ze genest zijn en vele ontbrekende waarnemingen tellen, en statistische analyses daardoor bemoeilijken. Vele onderzoekers leren wel statistiek tijdens hun studie, maar krijgen daarmee nog niet de ervaring mee die nodig is om de valkuilen van de statistiek te omzeilen. Statistiek is tegen-intuïtief en moeilijk; onderzoekers met weinig ervaring in de theorie en het gebruik ervan vergissen zich gemakkelijk (Hand, 2014; Kahneman, 2011). Basaal statistiekonderwijs maakt onderzoekers wel bewust van de diverse beschikbare statistische methoden, maar zou hen ook moeten leren niet alles zelf te willen doen en een expert in te schakelen als de gegevensanalyse ingewikkeld is.
De samenleving heeft een groot vertrouwen in de wetenschap. Het Rathenau Instituut rapporteerde dat van alle instituties de mensen de wetenschap het meest vertrouwen, inclusief de informatie die zij verschaft over vaccinatie (Van den Broek-Honingh & De Jonge, 2018). Dat is goed nieuws, maar we kunnen er niet blind vanuit gaan dat dit altijd zo blijft. Als men ziet wat de wetenschap in de afgelopen eeuw allemaal voor elkaar heeft gekregen, zou men denken dat het invoeren van enkele regels om een betere onderzoekspraktijk te bevorderen kinderspel moet zijn. Niets is minder waar, want wij zijn zelf het obstakel voor deze verandering omdat we onszelf moeten veranderen. Dat is nooit gemakkelijk en daarom kunnen we maar beter vandaag beginnen.
Literatuur
- Busato, V.V. (2008). Lang leve de psychologie. Honderd jaar psychologische wetenschap aan de UvA. Amsterdam: Uitgeverij Bert Bakker.
- Fanelli, D. (2009). How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data. PLoS ONE, 4(4), e5738. doi:10.1371/journal.pone.0005738
- Hand, D. (2014). The improbability principle. Why coincidences, miracles and rare events happen every day. London, UK: Penguin Random House.
- John, L.K., Loewenstein, G. & Prelec, D. (2012). Measuring the prevalence of questionable research practices with incentives for truth telling. Psychological Science, 23, 524–532.
- Kahneman, D. (2011). Thinking, fast and slow. London: Penguin Books Ltd.
- Nederlandse gedragscode wetenschappelijke integriteit (2018). Gedownload van https://doi.org/10.17026/dans-2cj–nvwu
- Rapport Commissie Bekostiging Hoger Onderwijs en Onderzoek (2019). Wissels om. Naar een transparante en evenwichtige bekostiging, en meer samenwerking in hoger onderwijs en onderzoek. Gedownload van https://tinyurl.com/qrkqkbs
- Room for everyone’s talent. Towards a new balance in the recognition and rewards of academics (2019). Gedownload van https://tinyurl.com/twrofkb
- Sijtsma, K. (2016). Playing with data – Or how to discourage questionable research practices and stimulate researchers to do things right. Psychometrika, 81, 1-15.
- Steneck, N.H. (2006). Fostering integrity in research: Definitions, current knowledge, and future directions. Science and Engineering Ethics, 12, 53–74.
- Van den Broek-Honingh, N., & De Jonge, J. (2018). Vertrouwen in de wetenschap – Monitor 2018. Den Haag: Rathenau Instituut
- Wicherts, J.M., Veldkamp, C.L.S., Augusteijn, H.E.M., Bakker, M., Van Aert, R.C.M. & Van Assen, M.A.L.M. (2016). Degrees of freedom in planning, running, analyzing, and reporting psychological studies: A checklist to avoid p-hacking. Frontiers in Psychology, doi:10.3389/fpsyg.2016.01832
Beeld: Unsplash