Om maar met de deur in huis te vallen: het soort statistiek dat studenten psychologie in hun opleiding wordt aangeleerd is grotendeels onbegrijpelijk en irrelevant. Het is dan ook niet zo raar dat de aangeboden stof onmiddelijk weer vergeten wordt.
Neem bijvoorbeeld de zogenaamde p-waarde, een getal dat in experimenteel onderzoek wordt gebruikt om de nulhypothese te verwerpen. In de wetenschappelijke psychologie moet een claim zoals ‘in het dierentuinscenario waren meisjes hulpvaardiger dan jongens’ ondersteund worden met een p-waarde lager dan .05. De p-waarde is dus van doorslaggevende betekenis voor de wetenschappelijke praktijk, en in het statistiekonderwijs wordt vanaf het begin ook veel aandacht besteed aan die p-waarde. Maar onthouden studenten wel wat een p-waarde is? Ik denk het niet, en dat toets ik ieder jaar als volgt. Aan het begin van een college voor ongeveer driehonderd tweedejaarsstudenten psychologie (die allemaal al uitgebreid statistiekonderwijs hebben genoten) zeg ik: ‘Wie mij kan vertellen wat een p-waarde is krijgt twintig euro!’ En ieder jaar proberen ongeveer tien studenten een antwoord te formuleren, maar geen van allen komt ook maar in de buurt van de twintig euro. Voor wie het weten wil, dit is dus de definitie van een p-waarde:
De p-waarde is de kans op een toetsingsgrootheid ten minste zo extreem als de toetsingsgrootheid die je hebt waargenomen, gegeven dat de nulhypothese precies waar is.
Hallo, bent u daar nog? Ik heb het zelf niet getest, maar ik denk dat ook ervaren onderzoekers niet precies weten wat een p-waarde is (stel uw wetenschappelijke kennissenkring op de proef!) De reden is dat de p-waarde niet datgene representeert waarin onderzoekers echt geïnteresseerd zijn. De onderzoeker wil weten wat de empirische steun is voor de nulhypothese versus de alternatieve hypothese. Merk op dat in de definitie van de
p-waarde er geen plaats is voor de alternatieve hypothese, en dat het gaat om kansen op toetsingsgrootheden in plaats van hypotheses.
Een concreet Bayesiaans alternatief
De huidige stand van zaken in de psychologie is dus tamelijk deprimerend – studenten en onderzoekers wordt een statistiek aangeleerd die niet aansluit bij wat ze willen weten. Maar zo hoeft het niet te zijn. Er is namelijk een ander soort statistiek, de Bayesiaanse statistiek, die wél aansluit bij wat onderzoekers willen weten. De Bayesiaanse statistiek heeft de laatste decennia enorm aan populariteit gewonnen, maar in de psychologie is het nog kwakkelen.
Het proefschrift van Rens van de Schoot is een poging om hier verandering in te brengen. In zijn proefschrift laat Van de Schoot herhaaldelijk zien wat er nu mis is met de klassieke benadering van p-waardes, en daarnaast draagt hij een concreet Bayesiaans alternatief aan. In deze alternatieve benadering gaat het altijd om een vergelijking tussen twee of meer plausibele wetenschappelijke hypotheses die zijn vormgegeven als statistische modellen. Het empirisch bewijsmateriaal voor en tegen deze modellen kan worden gekwantificeerd door middel van posterior-modelkansen, kansen die onderzoekers in staat stellen om uitspraken te doen als ‘het is 90% zeker dat meisjes in het dierentuinscenario hulpvaardiger waren dan jongens’.
Interessant werk op hoog statistisch niveau
Het proefschrift van Rens van de Schoot bevat drie delen: een over filosofie, een over statistiek, en een met toepassingen. Het eerste, filosofische deel is goed te volgen, hoewel een basiskennis van de wiskundige statistiek zeker van pas komt. Het tweede, statistische deel is het hart van het proefschrift, en hier ontwikkelt Van de Schoot nieuwe Bayesiaanse procedures voor een aantal populaire statistische technieken. Dit is origineel en interessant werk op een hoog statistisch niveau. Het derde deel bevat toepassingen over het zelfconcept bij jeugdige delinquenten en de identiteitsvorming gedurende de adolescentie. Dit derde deel is op zijn plaats omdat Van de Schoot hier laat zien hoe de Bayesiaanse technieken daadwerkelijk in de wetenschappelijke praktijk gebruikt kunnen worden.
Al met al zal het nog wel even duren eer studenten psychologie in hun eerste jaar met posterior-modelkansen worden geconfronteerd in plaats van met p-waardes, en tot die tijd blijft statistiek voor psychologen een kwestie van pappen en nathouden. Het is aan jonge onderzoekers als Van de Schoot om aan de hand van een concrete Bayesiaanse aanpak te laten zien dat het anders moet omdat het beter kan.
Dr. E.J. Wagenmakers is verbonden aan de Universiteit van Amsterdam. E-mail: ej.wagenmakers@gmail.com.