Het klonk als een goed idee: om zoveel mogelijk vals-positieven te voorkomen de p-waarde verlagen van <.05 naar <.005. Zo ligt de lat voor significantie veel hoger, en dat zal ook de repliceerbaarheid ten goede komen. (Zie ook De Psycholoog van oktober 2017).
Maar Daniel Lakens en 87 anderen zijn het daar niet mee eens. Ze delen de geuite zorgen maar zien een verlaging van de p-waarde niet als oplossing. Zo zetten ze vraagtekens bij de bewering van Daniel Benjamin en zijn 71 collega’s dat een p-waarde van .05 een ‘leading cause of non-reproducibility’ is. In de praktijk lijkt dit namelijk niet zo te zijn. Het moet eerst maar duidelijk worden hoe dat komt voordat onderzoekers massaal p<.005 gaan hanteren.
Daarnaast blijft ook een drempel van .005 arbitrair. Bovendien kan verlaging van de significantiedrempel leiden tot minder replicatieonderzoek. Je hebt namelijk veel meer proefpersonen nodig voor eenzelfde power. Daardoor kunnen onderzoekers weer vooral hun toevlucht nemen tot studenten die voor een kleine vergoeding wel aan hun experimenten willen meewerken – dat beperkt weer de generaliseerbaarheid van resultaten.
Last but not least vinden deze 88 auteurs dat Benjamin c.s. teveel nadruk leggen op het belang van p-waarden alleen, terwijl ook zaken als power, publicatiebias en p-hacking bepalen hoe je een gevonden effect moet wegen. De auteurs stellen daarom voor het begrip ‘statistisch significant’ af te schaffen. Onderzoekers moeten niet alleen kijken naar de p-waarde, ze moeten resultaten op een betekenisvollere manier beoordelen. Daarnaast moeten wetenschappers volledig transparant werken en van tevoren kenbaar maken welke criteria ze hanteren. Maar dat laatste wisten psychologen natuurlijk al. (ID)
Bron: Lakens, D. et al. (2017, September 18). Justify Your Alpha: A Response to “Redefine Statistical Significance”. Retrieved from psyarxiv.com/9s3y6. DOI: 10.17605/OSF.IO/9S3Y6