Lees verder
In de rubriek Veni Vidi Vici wordt per aflevering een onderzoek belicht. Deze editie een Vidi-beurs. Deze keer: Daniel Oberski universitair hoofddocent in Datawetenschappen, Methodologie en Statistiek aan de Universiteit Utrecht ontving in 2019 een Vidi-subsidie. Samen met Laura Boeschoten, onderzoeker aan dezelfde universiteit, ontwikkelt hij een nieuwe manier om sociaal wetenschappelijk onderzoek te doen met gebruikmaking van de schatkamer van de big data die er permanent over ons verzameld worden.
Geertje Kindermans

We laten allemaal digitale sporen na. We twitteren, zetten berichten op Facebook, liken berichten, appen, zoeken op Google. Onze telefoon houdt bij waar we ons bevinden. Pintransacties vertellen wanneer we hoeveel geld uitgeven, de bonuskaart houdt bij wát we kopen, via muziekdiensten is te achterhalen waarnaar we luisteren. Netflix weet wat we kijken.

Enzovoort. Lange tijd leek deze oneindige hoeveelheid aan Big Data een revolutie in de wetenschap te ontketenen. Het klassieke sociaal onderzoek zou overbodig worden, want we kunnen alles halen uit onze digitale sporen. ‘Rond 2005 verschenen de eerste artikelen, onder andere in Science over deze belofte,’ vertelt methodoloog Daniel Oberski. Daarna zijn nog vele artikelen gevolgd met een vergelijkbare boodschap.Er zijn boeken over geschreven2 . En het meest tot de verbeelding sprekende en in ieder geval concrete voorbeeld hiervan is Google Flu Trends waarover een Nature-artikel verscheen3 . Het idee was dat je voorspellingen kunt doen aan de hand van Googlezoekvragen. Als mensen veel op ‘griep’, ‘hoesten’ en ‘verkouden’ zoeken, meldt zich een week later een hoos aan grieppatiënten bij de huisarts. Een model dat dit voorspelde, leek goed te werken.

Maar het model hield geen stand. Een jaar later voorspelde Google Trends dubbel zoveel griepgevallen als daadwerkelijk ontstonden. De verklaring daarvoor was onder andere: er zijn veel meer redenen om op de zoekterm ‘griep’ te zoeken dan als we zelf rillerig zijn.

Oké, mislukt model. En ook de andere hooggespannen verwachtingen over onderzoek met Big Data kwamen niet uit. Maar daarmee zijn die data nog niet waardeloos, de manier om ze te onderzoeken deugt alleen niet, zo luidt de belangrijke boodschap van Oberski. Daaruit ontstond het basisidee voor zijn Vidi-project.

Zijn idee klinkt in eerste instantie niet ingewikkeld. Oberski: ‘We willen op de klassieke manier onderzoek doen met gebruik van die Big Data. Daarmee zit je tussen Big Data en klassiek onderzoek in. Dus je neemt op de klassieke manier een steekproef, vraagt deelnemers of ze willen meewerken en dan gebruiken we alleen die data die nodig zijn om de onderzoeksvraag te beantwoorden.’

Voordeel van deze methode is dat de data laten zien wat mensen daadwerkelijk doen en hoef je niet af te gaan op wat mensen erover zeggen. Bovendien beschik je ook over data uit het verleden. Als je wilt weten hoeveel tijd mensen doorbrengen op sociale media tijdens een lockdown, kun je niet alleen kijken naar het gedrag op het moment zelf, maar je kunt ook zien hoe mensen zich gedroegen voorafgaand eraan.

Oberski voert het project samen met collega Laura Boeschoten uit. Als methodologen willen ze vooral de methode vormgeven.

Het werkt als volgt, legt Oberski uit: ‘De Algemene Verordening Gegevensbescherming (AVG) geeft iedere Nederlander het recht om alle informatie op te vragen die er over hem of haar verzameld wordt. Kleinere bedrijven hebben het op dit moment minder op orde, maar als je erom vraagt, kunnen grote bedrijven als Facebook, Albert Heijn, de NS of je bank je alle gegevens in een bestand aanleveren die ze over je verzamelen. Zo’n bestandje noemen we een package.’

‘ Voordeel: de data laten zien wat mensen daadwerkelijk doen en je niet hoeft af te gaan van wat mensen erover zeggen’

Geen privé foto’s

Oberski en Boeschoten willen dat onderzoekers geen toegang krijgen tot een heel package, maar alleen die gegevens ontvangen die nodig zijn en waar expliciet toestemming voor is gegeven. Oberski: ‘We willen niet al jouw vakantiefoto’s en privégesprekken zien, we willen alleen bijvoorbeeld weten hoe vaak je met vrienden appt. Daartoe maken we een programmaatje dat bij de deelnemer alleen de informatie verzamelt waarin een onderzoeker is geïnteresseerd. De deelnemer kan de informatie dan doorsturen aan de onderzoeker.’

Boeschoten denkt de hele procedure uit en ontwikkelt de onderdelen. Zo ontwikkelt ze samen met research engineers van de Universiteit Utrecht het programma dat de gegevens bij de deelnemers verzamelt, de data corrigeert en verstuurt.

Dat betekent wel dat een onderzoeker vooraf precies moet weten welke gegevens hij of zij nodig heeft. Te veel verzamelen of later nog iets aanpassen, gebeurt niet of is erg omslachtig. Aan de andere kant kan een onderzoeker kiezen uit een oneindige berg met data en is hij niet afhankelijk van wat hij zelf in vragenlijsten heeft uitgevraagd.

Onderzoeksmachine

Oberski en Boeschoten ontwikkelen binnen het Vidi-project dus eigenlijk een soort machine om onderzoek mee te doen. Het motorblok, de techniek, dat is het deel waarmee je bruikbare data uit de packages haalt en het programmaatje dat ze verzamelt en doorstuurt. Daarnaast ontwikkelen ze de kast van de machine, inclusief knoppen; de gebruikersinterface, dus dat deel waarmee de deelnemers te maken krijgen als ze de data moeten doorsturen. Dit gebeurt samen met een softwareontwikkelaar.

En tot slot is Boeschoten bezig met het testen van de methodiek. Ze helpt onderzoekers die de methode willen toepassen en onderzoekt de kwaliteit van de metingen die uit de datapackages worden verkregen. Zo is de UvA al met een project volgens deze methodiek bezig. Overigens was dat nog vóór alles was ontwikkeld, dus ze deden het met een aangepaste manier van dataverzamelen. Met behulp van data uit Instagramaccounts wordt onderzocht wat het verband is tussen het online gedrag van kinderen en hun welzijn.

Meer voorbeelden zijn er nog niet, maar de mogelijkheden zijn oneindig. Oberski: ‘Je kunt onderzoeken hoe vaak mensen naar buiten gaan, hoe gezond ze eten, wat ze kopen en wanneer, of hoe samenzweringstheorieën zich bijvoorbeeld verspreiden.’ Dus: worden de berichten door iedereen evenveel doorgestuurd of zijn er bijvoorbeeld een paar superspreaders van misinformatie? Oberski: ‘Wat er met deze methode kan, gaat net zo ver als de fantasie van de onderzoeker.’

Bronnen

  1. Wired: the end of theory, https://www.wired.com/2008/06/pb-theory/(toegankelijk!)
  2. Big Data van Viktor Mayer-Schönberger is eigenlijk nog een beter voorbeeld (ISBN 9781848547926)
  3. En Ginsberg J, Mohebbi MH, Patel RS, Brammer L, Smolinski MS, Brilliant L. Detecting influenza epidemics using search engine query data. Nature. 2009;457:1012-1014. : https://www.nature.com/articles/nature07634

Beeld: Jaap-Joris Vens