Lees verder
Het Nederlands Tweelingen Register heeft al ruim dertig jaar ervaring met de opslag van grote hoeveelheden data. Op dit moment beschikt het register over gegevens van tussen de zestig- en zeventigduizend tweelingparen en evenzoveel familieleden. We spreken met biologisch psycholoog Dorret Boomsma, die met het register begon. Over duizelingwekkende hoeveelheden data, hoe je die opslaat, wat je er dan allemaal nog mee moet om ze toegankelijk te houden. En wie nog weet waar alles te vinden is.
Geertje Kindermans

Dorret Boomsma (63) begon ergens in 1987 met het Nederlands Tweelingregister (NTR). Ze is hoogleraar Biologische Psychologie aan de Vrije Universiteit Amsterdam (VU) en kreeg in 2002 de Spinozapremie van NWO. Boomsma wilde destijds in haar promotieonderzoek aan de VU onderzoeken of fysiologische reacties op stress, zoals hoge bloeddruk en een hoog cholesterolgehalte, erfelijk zijn. Om twee- of meerlingen tussen de dertien en twintig jaar te werven voor haar onderzoek, werden mensen uit de burgerlijke stand van de gemeente Amsterdam aangeschreven. Al snel werd duidelijk dat het heel kostbaar zou worden om grote groepen tweelingen te rekruteren voor erfelijkheidsonderzoek. Daarom besloot Boomsma een tweelingenregister op te zetten. Hiervoor benaderde ze mensen uit verschillende gemeenten. Zo werd een groot bestand met gegevens van tweelingen opgebouwd.

De tweede grote groep tweelingen voor het register kon ze werven door een gelukkig toeval. Professor Ko Orlebeke, bij wie Boomsma haar promotieonderzoek deed, woonde naast de directeur van het marketingbedrijf Felicitas. Dat bedrijf bracht jonge ouders ‘de blije doos’: een doos met daarin babyspullen, informatie en aanbiedingen. Het Nederlands Tweelingen Register mocht daar een folder aan toevoegen met een oproep om ouders van jonge twee- en meerlingen voor onderzoek uit te nodigen. Zo werd een grote groep tweelingen geworven, die vanaf het begin van hun leven konden worden gevolgd. Inmiddels zijn die twee- en meerlingen zelf volwassen.

Met deze tweelingen werd onderzoek gedaan naar erfelijke factoren, maar ook naar leefwijze, naar de oorzaken van het krijgen van tweelingen en recent ook naar epigeneticaen genexpressie. De gegevens uit dat onderzoek worden ook opgeslagen. Het Nederlands Tweelingen Register beschikt daarmee over databases met gegevens van een- en twee-eiige tweeling-families en over databases met gegevens die over de tweelingen zelf verzameld zijn. Die informatie over alle tweelingen en hun gezinsleden komt vooral uit vragenlijsten, die ouders en de (oudere) tweelingen zelf om de paar jaar toegestuurd krijgen. Daarin wordt gevraagd naar de ontwikkeling, hun gedrag en gezondheid.

Er wordt veel onderzoek met behulp van het NTR gedaan. Alle gegevens uit de afzonderlijke projecten worden ook opgeslagen.

Zo zijn er gegevens uit onderzoek naar bloeddruk en cholesterol in het register opgenomen. En ook van cardiovasculaire parameters als analoog opgenomen hartregistraties, cardiogrammen en ademhalingssequenties. Boomsma: ‘Dat waren destijds de eerste grote datasets. Ze waren toen zo groot dat ze niet konden worden opgeslagen op een computer, zo halverwege de jaren tachtig van de vorige eeuw begon het internet net. Dus ze werden met taperecorders op grote banden gezet.’

Daarnaast zijn er labprojecten uitgevoerd die veel data opleverden in de vorm van EEG of FMRI-metingen. Aan zulke onderzoeken deden honderden deelnemers mee. En in 2005 is er een groot project gedaan dat de NTR Biobank heet. Daarin is biologisch materiaal verzameld, zoals bloed, waaruit RNA en DNA kan worden geïsoleerd (Zie kader.)

Losgekoppelde databases

Het opslaan van zoveel informatie en data is ingewikkeld. ‘Het moet om te beginnen veilig gebeuren,’ legt Boomsma uit. ‘Dat wil zeggen dat alleen wie expliciete toestemming heeft, een databestand kan inkijken. Daarom hebben we er de medisch-ethische commissie vanaf het begin van het project bij betrokken. De gegevens zijn opgeslagen in meerdere databases, die volkomen los van elkaar functioneren. Er is een database voor de vragenlijstgegevens, een voor variabelen als cholesterol enzovoorts. En een database met gegevens verkregen uit het DNA en het RNA. Die databases functioneren allemaal met anonieme identifyers. Voor onderzoekers is dat doorgaans meer dan genoeg. Daarnaast is er een onafhankelijke database met adresgegevens, die ook is losgekoppeld van internet, zodat niemand er van buitenaf in kan.’

Toen de Algemene Verordening Gegevensbescherming (AVG) in 2018 werd ingevoerd, hoefde er wat betreft de opslag niet veel te worden aangepast. Wel veranderde de mate waarin kon worden samengewerkt met andere groepen onderzoekers. Boomsma: ‘Vooral in de genetica worden bevindingen alleen geaccepteerd als ze gerepliceerd worden in een onafhankelijke steekproef of in een onafhankelijk leeftijdscohort. En de humane genetica is een van de voorlopers van replicatieonderzoek op humaan onderzoek. En dat impliceert uitwisseling van gegevens. Daarnaast is ons type onderzoek gebaat bij grote steekproeven. Als je naar een subtiel effect op zoek bent (zoals erfelijke aandeel in jaren educatie, cholesterol of psychische aandoeningen), dan gaat het om steekproeven van soms honderdduizenden mensen. De privacywetgeving heeft met name dat aspect complex gemaakt.’

Zo ontving de NTR een grote subsidie uit Amerika voor onder andere bepalingen in het NTR-Biobankproject. De onderzoekers gingen toen eerst nog een keer naar de medisch-ethische commissie terug om te checken of de dataverzameling qua privacy in orde was. Naar aanleiding daarvan zijn alle deelnemers die al in het onderzoek hadden meegedaan, opnieuw benaderd met de vraag of ze bezwaar hadden om in het Amerikaanse onderzoek te worden meegenomen. De nieuwe deelnemers konden de informatie voorafgaand aan het onderzoek krijgen.

Boomsma: ‘Er is een spanning tussen de ontwikkeling van open science, waarbij het doel is de gegevens beschikbaar te maken voor collega-onderzoekers en met de AVG de sterk toegenomen regels.’ ­

Data en de gegevens eromheen

Het NTR-onderzoek levert veel gegevens op die niet alleen bewaard moeten worden, maar ook met enige regelmaat moeten worden geüpdatet. Niet alleen omdat bijvoorbeeld oude banden met data verslijten en op andere dragers gezet moeten worden, maar ook omdat data moeten worden omgezet. Zo moeten de ruwe gegevens van EEG- of FMRI-onderzoek opnieuw worden gecodeerd als er nieuwe software op de markt komt, wat regelmatig gebeurde en gebeurt. Bovendien worden niet alleen de data waarmee je rekent opgeslagen, maar ook gegevens eromheen worden bewaard, zoals software waarmee de gegevens zijn verzameld.

Het geldt zelfs voor zoiets simpels als de gebruikte vragenlijsten, legt Boomsma uit. ‘Je moet niet alleen de antwoorden van mensen archiveren, maar ook de vragenlijst zelf. Dat klinkt triviaal, maar vragenlijsten veranderen in de loop der tijd. Je wilt kunnen terugzoeken hoe een item destijds ook alweer precies geformuleerd was en wat de antwoordcategorieën waren.’

Boomsma heeft op haar kamer op de VU een archief met alle papieren vragenlijsten die ooit zijn verstuurd. En op een gegeven moment is ze overgestapt van een papieren vragenlijst op digitale. Ook die digitale lijsten moeten worden bewaard, net als de testomgeving om de vragenlijst af te nemen. En ook die is een paar keer veranderd, sommige leveranciers waarmee in het begin werd samengewerkt, bestaan niet meer.

En verder moet er van alle opgeslagen gegevens een back-up zijn, die ook weer allemaal verschillende op locaties zijn ondergebracht. Zo heeft een groot consortium waarin het NTR participeert (het zogeheten BBMRI-Metabolomics Consortium) bij zo’n 25 verschillende cohortstudies metingen gedaan, waar grote datasets bijhoren. Die staan – uiteraard geanonimiseerd – op grote servers in Nederland.

Wat staat waar?

Gegevens en alle bijkomende data en software zijn opgeslagen in verschillende databases, waarvan een deel moet worden geactualiseerd. Dan doemt er een volgende kwestie op: er moeten mensen zijn die alles weten te vinden. ‘Er is een groep die er vanaf het begin bij betrokken is, zij vormen het collectief geheugen,’ zegt Boomsma. ‘Maar op een gegeven moment realiseerde ik me: als die mensen gaan stoppen met werken, moet het collectief geheugen ergens goed gedocumenteerd zijn.’ Daarom vroeg ze zo’n vijf jaar geleden de zogenoemde NWO groot-subsidie aan. Die subsidie was aanvankelijk door NWO ingesteld om grote apparatuur van te kopen, zoals een MRI-scanner. Maar de subsidie kon ook worden gebruik voor dit geval: het systematisch bij elkaar brengen van de kennis die er bij individuele onderzoekers aanwezig is over de databases en de documentatie daarover. De subsidie werd toegekend en nu is een aantal mensen met dit project bezig.

‘ Dan doemt er een volgende kwestie op: er moeten mensen zijn die alles weten te vinden’

Wie weet wat?

Hoeveel mensen hebben een overzicht van alles? ‘Ik zou niet weten of er iemand is die alles weet,’ zegt Boomsma. ‘Maar er is een groepje mensen dat dankzij de NWO groot-subsidie de exclusieve taak hebben om deze archivering te doen en een groep daaromheen is al vanaf het begin bij het NTR betrokken. Dat zijn tussen de vijf en tien mensen op dit moment. Daaromheen zitten weer de gebruikers en die weten bijvoorbeeld heel veel van bepaalde aspecten. En dus ziet het er als volgt uit: We doen subsidieaanvragen, waarop jonge onderzoekers worden aangesteld, vaak promovendi of post-docs. De eerste documentatie bestaat daarom vaak al aan het begin van het project, namelijk de aanvraag en de bijhorende documentatie voor bijvoorbeeld de ethische commissie. Vervolgens documenteren de onderzoekers hun werk. De proefschriften die zijn gebaseerd op het NTR-onderzoek bevatten vaak grote appendices over dataverzamelingen (vaak inclusief uitnodigingsbrieven en folders aan deelnemers). En daarnaast de empirische hoofdstukken die vaak zijn gepubliceerd en dus ook terug te vinden via pubmed (zie ook alle overzichtspapers). Ook de meettechnische gegevens staan daarin gedocumenteerd. De data zelf staan in de verschillende soorten databases van het NTR. De documentatie over die databases staat in toenemende mate in catalogi en atlassen op het internet. Met onze NWO Groot-subsidie brengen we nu alles onder op een systematische manier. Er zijn een stuk of tien overzichtsartikelen geschreven die de vragen beantwoorden: wat hebben we allemaal, waar bestaat het uit en waar is het te vinden?’2

Klassieke vraag

Met behulp van het NTR wordt op de eerste plaats onderzoek gedaan naar de vraag waar het klassieke tweelingonderzoek ooit mee begonnen is: wat verklaart verschillen tussen mensen? Wordt wat we meemaken in het leven en hoe onze eigenschappen zich hebben ontwikkeld, veroorzaakt door de omgeving of ligt het aan de genetische informatie die zit opgeslagen in ons DNA? En die vraag blijft actueel. Want sommige vormen van gedrag bestonden dertig jaar geleden nog niet. Zo kon er decennia geleden bijvoorbeeld geen onderzoek worden gedaan naar de vraag waarom sommige mensen verslaafd zijn aan hun computer of aan sociale media.3

Er zijn ook vormen van gedrag waar we nu anders tegenaan kijken dan decennia geleden. Dan is in feite de omgeving veranderd en kun je opnieuw de vraag stellen: wat is op dit moment de invloed van ons genoom op een eigenschap? Neem roken. Boomsma: ‘Ooit rookte een meerderheid van de mensen en werden er reclames gemaakt voor roken en zeiden dokters dat het gezond was. Nu is het percentage rokers gedaald van zestig, zeventig procent, naar zo’n 23 procent. Bovendien is roken duurder, er wordt op neergekeken, we weten allemaal hoe ongezond het is en op veel plekken is het verboden. De vraag in hoeverre het erfelijk is, kan daarom in de huidige situatie opnieuw gesteld worden.’ ­

Balans

De sterk toegenomen rekenkracht van computers is een tweede belangrijke impuls voor het onderzoek. Want daardoor is een genuanceerdere blik mogelijk op de erfelijkheidsvraag. Boomsma: ‘Het is niet dat ofwel de genen of de omgeving belangrijk zijn, het gaat om de balans tussen die twee.’ En sinds een aantal jaar is er een doorbraak geweest in het onderzoek naar de correlatie tussen genen en omgeving. Boomsma legt uit: ‘De omgeving waarin een kind of volwassene zich bevindt, hoeft niet los te staan van hun genoom (dus alle genen die in de chromosomen zijn vastgelegd). Een van de manieren waarop erfelijke aanleg zich kan uiten is juist door de omgeving die je als individu opzoekt of de omgeving die in je kinderjaren voor je gecreëerd wordt door je ouders. Een paar jaar geleden zijn twee artikelen verschenen van hele slimme mensen die als volgt redeneerden: binnen gezinnen verzamel je DNA van de ouders en het nageslacht.4 We weten uit de klassieke genetica hoe overerving in zijn werk gaat: een kind krijgt vijftig procent van zijn genen van vader, vijftig procent van zijn moeder. Maar de vader en moeder hebben ieder dus ook vijftig procent van hun genen die ze niet direct aan hun kind doorgeven. Als je bij kinderen kunt onderscheiden welke genen zijn doorgegeven en welke niet, kun je ook nagaan welk deel van het ouderlijk genoom los van de genetische overerving de omgeving van het kind beïnvloedt. Dus hoeveel je leest en hoeveel boeken je als volwassene aanschaft, komt gedeeltelijk door een genetische invloed. Maar het heeft ook te maken met de omgeving die voor jou als kind is gecreëerd en die omgeving is deels gebaseerd op het genotype van de ouders.’ Als ouders deels introvert zijn en ze een rustige omgeving om zich heen creëren, met veel boeken en klassieke muziek, groeit hun kind dat extraverte kanten heeft geërfd, toch in die rustige omgeving op.

Dit is een van de grote doorbraken in de sociale wetenschappen: het scheiden van genetische en culturele overerving. Boomsma: ‘Dat kun je doen op basis van DNA-data. En wij zijn in de gelukkige omstandigheid dat wij onze DNA-verzameling bijna altijd hebben gedaan op familie-niveau, dus niet alleen van het kind, maar ook van de ouders.’ Een ander voorbeeld waar nu veel om te doen is, heeft te maken met het onderwijs en wat je ermee kunt bereiken. Ook in Nederland is er een discussie over de – mogelijk toegenomen – kansenongelijkheid van kinderen. Boomsma: ‘Als ouders niet meer dan vmbo hebben gehad, is het voor een kind moeilijk het gymnasium te halen, ook al is het kind er intelligent genoeg voor. Hoe dat kan? Ligt dat aan de omgeving, aan de genetica of is het de subtiele samenwerking van die twee? We hebben ook onderzoek gedaan op grond van Cito-scores van tweelingen naar het vervolg in hun schoolcarrière. Ik vond het vrij onthutsend dat in de lagere sociale milieus kinderen met een topscore op de Cito, toch vaak niet op een vwo terechtkomen. In de hoogste opleidingscategorieën van de ouders, is het precies andersom. Je kunt deze vraag operationaliseren door naar de DNA-variabelen te kijken die je bij ouders en kinderen hebt gemeten. En zo is de genetica de nieuwe toolbox voor sociaal onderzoek. Juist op het gebied van een generatie-op-generatie-effect is dat heel relevant onderzoek.’

Bronnen

  1. De epigenetica bestudeert (tijdelijke) veranderingen in genexpressie die optreden zonder dat het DNA zelf wijzigt
  2. Bartels, M., van Beijsterveldt, C. T., Derks, E. M., Stroet, T. M., Polderman, T. J., Hudziak, J. J., & Boomsma, D. I. (2007). Young Netherlands Twin Register (Y-NTR): a longitudinal multiple informant study of problem behavior. Twin Research and Human Genetics, 10(1), 3-11. -Boomsma, D., Beem, A., Van den Berg, M., Dolan, C., Koopmans, J., Vink, J., . . . Slagboom, P. (2000). Netherlands twin family study of anxious depression (NETSAD). Twin Research and Human Genetics, 3(4), 323-334. -Boomsma, D., De Geus, E., Vink, J., Stubbe, J., Distel, M., Hottenga, J., . . . Bartels, M. (2006). Netherlands Twin Register: from twins to twin families. Twin Research and Human Genetics, 9(6), 849-857. – Boomsma, D., Orlebeke, J., & Van Baal, G. (1992). The Dutch Twin Register: Growth data on weight and height. Behavior Genetics, 22(2), 247-251. -Boomsma, D., Vink, J. M., Van Beijsterveldt, T. C., de Geus, E. J., Beem, A. L., Mulder, E. J., . . . Bartels, M. (2002). Netherlands Twin Register: a focus on longitudinal research. Twin Research and Human Genetics, 5(5), 401-406. -Boomsma, D., Willemsen, G., Vink, J. M., Bartels, M., Groot, P., Hottenga, J. J., . . . Wertheim, R. (2008). Design and implementation of a twin-family database for behavior genetics and genomics studies. Twin Research and Human Genetics, 11(3), 342-348. – Willemsen, G., De Geus, E. J., Bartels, M., van Beijsterveldt, C. T., Brooks, A. I., Estourgie-van Burk, G. F., . . . Kluft, K. (2010). The Netherlands Twin Register biobank: a resource for genetic epidemiological studies. Twin Research and Human Genetics, 13(3), 231-245. -Willemsen, G., Vink, J. M., Abdellaoui, A., den Braber, A., van Beek, J. H., Draisma, H. H., . . . van Lien, R. (2013). The Adult Netherlands Twin Register: twenty-five years of survey and biological data collection. Twin Research and Human Genetics, 16(1), 271-281.
  3. Vink, J.M. Toos C. E. M. Van Beijsterveldt, T.C.E.M., Huppertz, C., Bartels, M., & Boomsma, D.I.( 2016). Heritability of compulsive Internet use in adolescents Addiction Biology Mar; 21(2): 460–468. doi: 10.1111/adb.12218
  4. Bates TC, Maher BS, Medland SE et al (2018) The nature of nurture: using a virtual-parent design to test parenting efects on children’s educational attainment in genotyped families. Twin Res Hum Genet 21:73–83. https://doi.org/10.1017/thg.2018.11-Kong A, Thorleifsson G, Frigge ML, Vilhjalmsson BJ, Young AI, Thorgeirsson TE, Benonisdottir S, Oddsson A, Halldorsson BV, Masson G, Gudbjartsson DF, Helgason A, Bjornsdottir G, Thorsteinsdottir U, Stefansson K. The nature of nurture: Effects of parental genotypes. Science. 2018 Jan 26;359(6374):424-428

Beeld: Richelle van der Valk