Sinds de almaar toenemende rekenkracht van computers is zo’n beetje niets de methodoloog te gek. U vraagt, wij draaien: een hiërarchisch factormodel voor een databank met 80 items en 3000 respondenten? Geen probleem. Een netwerkmodel met 200 te schatten parameters? Daar draaien wij onze hand niet voor om. Maar: in de wereld van de informatica is ‘garbage in, garbage out’ een bekende term. In onze wereld betekent dit dat methoden alleen maar zinnige output kunnen leveren indien de input zinnig is. En laat de rest van deze column nou over die input gaan: namelijk, de data.
Neem grote surveys waarbij aan de algemene populatie diagnostische informatie gevraagd wordt om zo vast te kunnen stellen wat de prevalentie is van bepaalde stoornissen. Om bijvoorbeeld de diagnose ‘depressie’ te krijgen, moet een respondent – van de 9 mogelijke symptomen – minstens 1 van 2 kernsymptomen hebben: ‘depressieve stemming’ of ‘interesseverlies’. Stel dat een respondent aangeeft geen last te hebben gehad van beide kernsymptomen. Het gebeurt in