Sinds de almaar toenemende rekenkracht van computers is zo’n beetje niets de methodoloog te gek. U vraagt, wij draaien: een hiërarchisch factormodel voor een databank met 80 items en 3000 respondenten? Geen probleem. Een netwerkmodel met 200 te schatten parameters? Daar draaien wij onze hand niet voor om. Maar: in de wereld van de informatica is ‘garbage in, garbage out’ een bekende term. In onze wereld betekent dit dat methoden alleen maar zinnige output kunnen leveren indien de input zinnig is. En laat de rest van deze column nou over die input gaan: namelijk, de data.
Neem grote surveys waarbij aan de algemene populatie diagnostische informatie gevraagd wordt om zo vast te kunnen stellen wat de prevalentie is van bepaalde stoornissen. Om bijvoorbeeld de diagnose ‘depressie’ te krijgen, moet een respondent – van de 9 mogelijke symptomen – minstens 1 van 2 kernsymptomen hebben: ‘depressieve stemming’ of ‘interesseverlies’. Stel dat een respondent aangeeft geen last te hebben gehad van beide kernsymptomen. Het gebeurt in de praktijk dan vaak dat deze respondent geen vragen krijgt over de andere symptomen van depressie, bijvoorbeeld insomnia, vermoeidheid en zelfverwijt. Data met een dergelijke skip structuur – waarbij de respondent uit het voorbeeld dus 2 0-en heeft voor de kernsymptomen en ontbrekende waarden voor de overige 7 symptomen – levert problemen op. Waarom?
Wat moeten we nu voor die ontbrekende waarden voor het voorbeeld hierboven invullen? Nullen bijvoorbeeld en er zijn gevallen denkbaar waarin dat een zinnige strategie is. Stel bijvoorbeeld dat een respondent ‘nee’ antwoordt op de vraag of hij/zij alcohol drinkt. Dan is het inderdaad niet zinnig om te vragen naar het symptoom ‘is in aanraking geweest met de politie als gevolg van alcoholgebruik’ en wel zinnig om voor de ontbrekende waarde van dat symptoom een 0 in te vullen: deze persoon drinkt niet en kan dus nooit om die reden met de politie in aanraking zijn gekomen. Bij het voorbeeld van depressie wordt het wel problematisch: een respondent die weliswaar geen last heeft van een depressieve stemming of interesseverlies kan wel degelijk last hebben van insomnia, vermoeidheid of zelfverwijt. Dus we kunnen voor de ontbrekende waarden bij deze symptomen niet zomaar een 0 invullen. Toch is dit wat vaak gebeurt. Wat voor gevolgen heeft dit nu voor de output?
Figuur 1 laat dit zien voor 1000 fictieve respondenten en 9 depressie symptomen. Panel A: netwerkmodel in het geval van alle respondenten alle 9 symptomen vragen. U ziet: er is geen netwerkstructuur. Panel B: netwerkmodel als ik 1) niet doorvraag als de eerste 2 symptomen niet aanwezig zijn en 2) deze ontbrekende waarden vervang door een 0. U ziet: er is een rijke netwerkstructuur. Echter, deze rijke netwerkstructuur is geen weergave van hoe het depressienetwerk er in de empirie uit ziet maar een visualisatie van de opgelegde skip-structuur. Dus wees gewaarschuwd: methoden kunnen veel, maar chocola maken van problematische data kunnen ze nooit.