Causaliteit, broccoli en depressie

Stel dat we onomstotelijk de oorzaken van depressie zouden kunnen vaststellen. Helaas is het aantonen van causaliteit ingewikkeld en zijn beschikbare data vaak niet ideaal. Vandaar dat veel statistische technieken geen causaal verband aan kunnen tonen maar evidentie opleveren die al dan niet consistent is met een causale hypothese. Maar wat is eigenlijk evidentie die consistent is met een causale hypothese?

Stelt u zich voor dat neuroticisme een veroorzaker is van depressie. Ik meet de mate van neuroticisme en depressiviteit eenmaal bij een heleboel mensen. Op die verzamelde data voer ik een variantieanalyse uit. In het geval dat neuroticisme een veroorzaker is van depressiviteit, zou ik moeten vinden dat de gemiddelde depressiescore in een hoog-neurotische groep hoger is dan die in een laag-neurotische groep. Dit is evidentie die consistent is met een causale hypothese maar die niet afdoende is om causaliteit vast te stellen: je kunt niet uitsluiten dat het causale verband andersom is (depressie neuroticisme).

Waarom? In het voorbeeld hierboven ontbreekt tijd – er is slechts één meetmoment – terwijl een causaal verband meestal betekent dat de oorzaak voorafgaat aan het gevolg: roken gaat vooraf aan de ontwikkeling van longkanker. Daarom is een ander, sterker stukje evidentie het aantonen van een predictieve relatie tussen twee variabelen over de tijd. Terug naar neuroticisme en depressiviteit: stelt u zich voor dat ik beide honderd keer meet bij telkens dezelfde mensen. Dan zou ik bijvoorbeeld met een regressiemodel kunnen laten zien dat neuroticisme een voorspeller is van depressiviteit later in de tijd. Ook hier geldt: consistent met een causale hypothese maar niet afdoende om causaliteit vast te stellen.

Waarom hamer ik hier zo op? De laatste jaren verschijnen meer artikelen waarin gebruik gemaakt wordt van machine learning. Dit klinkt heel spannend maar is een verzamelnaam voor allerlei algoritmes – dat kan ook een relatief eenvoudig regressiemodel zijn – waarmee een computer verbanden kan ‘leren’ tussen variabelen. Met de opkomst van Big Data – veel mensen en veel gemeten variabelen – ziet men machine learning als veelbelovende manier om predictieve relaties te kunnen ontdekken en die bijvoorbeeld te gebruiken in de klinische praktijk.

Maar pas op: stel voor dat uit zo’n machine learningexpeditie komt dat het eten van broccoli voorspellend is voor minder depressiviteit. Moet u nu meteen naar de supermarkt om broccoli in te slaan? Neen. Een predictieve relatie impliceert nog geen causaal verband: het kan zijn dat zowel het eten van broccoli als het niet hebben van depressieve gevoelens beide veroorzaakt worden door een ongemeten derde variabele, bijvoorbeeld veganisme².

Dus wat betreft machine learning: hulde aan het ontdekken van predictieve relaties. Maar dat extra onsje broccoli laat ik voorlopig even staan

Referenties

Ik schrijf ‘In het algemeen’ omdat er situaties denkbaar zijn waarbij oorzaak en gevolg nagenoeg gelijktijdig – afhankelijk van hoe vaak u metingen verricht – optreden. Een bekend voorbeeld is sproeiers op het gazon aanzetten (oorzaak): bijna gelijktijdig treedt het gevolg op, namelijk dat het gras nat wordt.
Epskamp, S. et al. (2018). Personalized Network Modeling in Psychopathology: The Importance of Contemporaneous and Temporal Connections. Clinical Psychological Science. doi:10.1177/2167702617744325.