Ik voelde mij een beetje beledigd. Wat ik te vertellen heb, is niet zomaar op internet te vinden. Bovendien, als de organisatie niet geïnteresseerd was in mijn kennis van zaken, waarom hadden ze mij dan als spreker uitgenodigd?
Het internet vormt een rijke bron van informatie, waar je met geautomatiseerde zoekmachines van alles kunt vinden. Big Data. Verlekkerd speculeren mensen over wat je daar niet allemaal mee zou kunnen onderzoeken. De werkelijkheid is vaak minder overzichtelijk. De beschikbare gegevens sluiten niet goed aan bij de vraag die je zou willen beantwoorden. En de veelheid aan bronnen en gebruikers brengt met zich mee dat gegevens die je met elkaar zou willen vergelijken niet zomaar gekoppeld kunnen worden. Met beide soorten problemen heb ik zelf onlangs te maken gehad.
Bijvoorbeeld toen we toestemming kregen survey-gegevens te analyseren die wereldwijd waren verzameld, onder vele tienduizenden medewerkers van een internationaal bedrijf. Een prachtige en rijke dataset. Onze analyse leverde consistente conclusies op, die naar onze mening zowel theoretisch belangwekkend als praktisch relevant waren. Over vele tienduizenden werknemers. Wereldwijd. Toch is het tot nu toe niet gelukt hierover te publiceren. Waarom niet? Tsja, we moesten het doen met door het bedrijf gestelde vragen. De redacteuren en reviewers van tijdschriften vonden die metingen niet optimaal, en onze conclusies daarom niet overtuigend. Ook al sluiten ze wel aan bij wat we weten op basis van theorie en eerder onderzoek, met andere methoden en betere metingen.
In een ander onderzoeksproject was onze opdracht juist om orde aan te brengen in de veelheid van beschikbare gegevens. Het kostte ons vele maanden om uit bijna drieduizend dossiers relevante gegevens terug te zoeken en geschikt te maken voor analyses die inzicht konden geven in de aan ons gestelde vraag. De conclusies waren eenduidig en overtuigend: verschillende onderliggende indicatoren en analyses lieten een consistent patroon zien. Het onderzoek leidde tot een publicatie in een belangrijk tijdschrift*.
Toch werden onze conclusies na publicatie ter discussie gesteld – weliswaar met onderling tegenstrijdige kritiekpunten. Aan de ene kant werd opgemerkt dat de onderzochte gegevensbasis zo groot was dat zelfs kleine en wellicht onbeduidende verschillen statistisch significant werden bevonden. Aan de andere kant was er kritiek dat het door ons geschetste beeld niet representatief zou zijn, omdat men vond dat wij nog veel meer gegevens bij de analyse hadden moeten betrekken.
Kortom, met Big Data alleen ben je er nog niet. Het analyseren en begrijpen ervan vergt veel uitzoekwerk en interpretatie. Er moeten altijd keuzes worden gemaakt, waarover je kunt discussiëren. Want onderzoek blijft mensenwerk.
* Van der Lee, R. & Ellemers, N. (2015). Gender contributes to personal research funding success in the Netherlands. Proceedings of the National Academy of Sciences. doi:10.1073/pnas.1510159112
Fotografie: Stijn rademaker