Lees verder
De vaak felle discussies tussen voor- en tegenstanders over het gebruik van  ROM – Routine Outcome Monitoring – voor benchmarken in de zorg zijn niet onopgemerkt gebleven. De Psycholoog vroeg Edwin de Beurs van Stichting Benchmark GGZ zijn stellingname voor het gebruik van ROM -gegevens ten behoeve van benchmarken in de zorg uit te leggen. De klinisch psychologen Philippe Delespaul en Wim Cnubben werden gevraagd hun standpunt tegen het gebruik van ROM als benchmark toe te lichten. Methodoloog Angélique Cramer reflecteert naar aanleiding van beide bijdragen.
Edwin de Beurs, Philippe Delespaul, Wim Cnubben

Waarom ROM en benchmark combineren?

Achtergrond

In de ggz werken 90.000 mensen, van wie zo’n 25.000 psychologen. Daarmee is de ggz-sector de grootste werkgever van psychologen. Er is behoefte aan heldere informatie over de kosten en baten van de ggz. In de sector gaat jaarlijks zo’n zes miljard om. Dat is tien procent van het gezondheidszorgbudget, wat weer tien procent van de jaarlijkse Nederlandse begroting uitmaakt.

Over de baten is minder bekend. Door allerlei betrokkenen bij de ggz, zoals de beroepsverenigingen van psychologen, psychiaters, vrijgevestigde ggz-hulpverleners, de koepels van de zorgverzekeraars en de zorgaanbieders is eind 2015 een agenda opgesteld voor de toekomst van de ggz en aan de overheid gepresenteerd: de agenda transparantie en gepast gebruik (ministerie van VWS, 2015). In die agenda is vastgelegd dat voortgegaan zou worden op een weg die al in 2010 is ingeslagen. Er was toen afgesproken dat de sector Routine Outcome Monitoring (ROM) zou implementeren ter ondersteuning van de behandeling. Zo zou de sector meteen transparant kunnen worden over de behaalde behandelresultaten. Het streven was om in 2014 de helft van alle diagnosebehandel- combinaties (ROM’s) met ROM-metingen centraal aan te leveren bij Stichting Benchmark GGZ (SBG). Dit streven is bijna gehaald met in 2016 47% evalueerbare DBC’s over de gehele ggz.

ROM heeft in Nederland een grote vlucht genomen sinds afspraken werden gemaakt tussen zorgaanbieders en zorgverzekeraars in het kader van de gewenste transparantie over uitkomsten van behandeling in de ggz (de Beurs, 2017). Zonder die afspraken was ROM in de ggz waarschijnlijk beperkt gebleven tot een aantal kleinere projecten, zoals die al voor 2010 geïnitieerd waren door academische centra in Groningen, Maastricht en Leiden. Verspreiding van de gedachte dat het goed is om geregeld bij de individuele patiënt vast te stellen of de behandeling ‘aanslaat’ en of het nog steeds baat oplevert, was wellicht ook zonder bemoeienis van de zorgverzekeraars op gang gekomen, maar ROM is zeker in een versnelling geraakt sinds 2010 (de Beurs, Barendregt & Warmerdam, 2017). De omgekeerde beweging zien we ook: met de transitie van de kinder- en jeugdpsychiatrie naar de gemeenten zijn veel zorgaanbieders met ROM gestopt. Ten slotte heeft ROM ook het meten van kwaliteit in de ggz een flinke stap voorwaarts gebracht. Een eerder initiatief van de overheid op het gebied van transparantie over de kwaliteit van zorg (ZichtbareZorg, 2012) heeft voor de ggz weinig bruikbare gegevens opgeleverd: de indicatoren waren weinig stabiel over de tijd en differentieerden slecht tussen zorgaanbieders.

SBG is opgericht om het benchmarken te stimuleren. Benchmarken is leren van elkaar door kennis te nemen van elkaars resultaten en werkwijze (zowel organisatorisch als behandelinhoudelijk). Doel is inzicht te krijgen in hoe het beter kan door bij anderen af te kijken hoe ze goede resultaten boeken en de opgedane kennis gebruiken om zo eigen resultaten te verbeteren (de Beurs, 2015). Bij de start van SBG was het een logische gedachte om gegevens, die verzameld worden om het verloop van de individuele behandeling te volgen, ook te gebruiken om vast te stellen wat de gemiddelde behandeluitkomst is bij de diverse zorgaanbieders in de ggz. Zo sla je twee vliegen in een klap. Door gegevens van vele ROM -trajecten te aggregeren, ontstaat informatie over de uitkomst van de zorg die door een individuele behandelaar, een team of door een gehele instelling is geleverd. De kracht van combineren van ROM en benchmarken is dat enerzijds de oproep tot verantwoorden de implementatie en het gebruik van individuele ROM stimuleert. Anderzijds worden kwaliteitsgegevens verzameld in de klinische context (zie ook kader 1). Om de voortgang in de therapie te kunnen bewaken heeft de behandelaar belang bij onvertekende ROM-informatie. Deze context gaat de verleidingtegen om de uitkomstgegevens op te poetsen vanwege externe verantwoording.

Niets is volmaakt en er kleven ook nadelen aan het combineren van ROM en benchmarken. De druk om jaarlijks de afgesproken ROM-responspercentages te halen heeft de oorspronkelijke doelstelling van ROM (ondersteunen van de behandeling met maat en getal) op veel plekken ondergesneeuwd. De focus op pre-post metingen rondom een DBC – op zichzelf al een klinisch weinig herkenbare eenheid van behandeling – heeft ertoe geleid dat tussentijdse ROM-metingen vaak uitblijven (de Beurs, 2017). Het zijn nu juist die tussentijdse metingen die de behandelaar en de patiënt informeren over het verloop van de behandeling en aanleiding kunnen zijn voor herbezinning over de ingezette koers. Langzaam maar zeker zien we echter een kentering en vinden instellingen ruimte om ROM zinniger in te zetten in het primaire proces, door frequenter te gaan meten en, waar nodig, naast generieke ook stoornis-specifieke instrumenten te gebruiken.

Waarom de uitkomst van een behandeling meten?

Als je de kwaliteit van de geboden zorg wilt vaststellen, wil je vooral weten in hoeverre patiënten baat hebben bij de behandeling. De uitkomst van de behandeling is daarmee een van de belangrijkste indicatoren van de kwaliteit van de zorg. Andere kwaliteitsindicatoren zijn secundair aan de uitkomst. Een patiënt komt niet naar de ggz om te kunnen praten met een hoog opgeleide, in het register opgenomen, recent bijgeschoolde specialist. Een patiënt komt ook niet in zorg voor een tevredenstellende patiëntervaring. Een patiënt zoekt primair behandeling vanwege een psychiatrische aandoening en is uit op herstel of een anderszins positief behandelresultaat. En iemand die aanklopt bij de ggz is gebaat bij heldere informatie over de aard en duur van de behandeling en eerlijke cijfers over het te verwachten resultaat.

Kritiek

Het zal niemand zijn ontgaan dat er ook criticasters van deze ontwikkeling zijn. De kritiek richt zich momenteel op twee zaken: de juridische en de methodologische kant.

Juridische kanttekeningen

De juridische kritiek richt zich op twijfel over de legitimiteit van het aanleggen van een landelijke dataverzameling van behandeluitkomsten met aanvullende patiëntkenmerken met het oog op de privacy. Er moet hierbij een zorgvuldige afweging gemaakt worden van het belang van goede informatie en het privacybelang. SBG heeft de privacy van de patiënt altijd hoge prioriteit gegeven met organisatorische, juridische en technische middelden waardoor gegevens nooit zonder hulp van derden herleid kunnen worden naar een individuele persoon. Vooruitlopend op toekomstige wetgeving heeft het ministerie van VWS recent geadviseerd dat het raadzaam is patiënten toestemming te vragen voor ROM (inclusief toestemming voor doorlevering van gegevens aan de centrale database). Ook heeft de minister aangegeven dat de gegevens bij SBG niet herleidbaar zijn tot een individuele patiënt (ministerie van VWS, 2017). Uiteindelijk is dit alles geen voer voor psychologen, maar voer voor juristen.

Methodiek

Ook worden inhoudelijke twijfels naar voren gebracht over benchmarken: twijfel over de zeggingskracht van de behandeluitkomst als indicator voor kwaliteit van zorg, twijfel over het nut van vergelijken, twijfel over de betrouwbaarheid en validiteit van de uitkomstgegevens vanwege meet- of instrumenteffecten, confounding, en onvoldoende representativiteit van de gegevens (van Os et al., 2012). Elders gaan we uitgebreid in op deze inhoudelijke twijfels (de Beurs, Barendregt, et al., 2017). Volmaakte informatie, geheel vrij van vertekening vanwege meetvariantie, selectieve respons of confounding, is een illusie1. We zullen het moeten doen met de informatie die voorhanden is. De gemiddelde behandeluitkomst (delta T; de Beurs, Barendregt, et al., 2017) van een instelling bij een specifieke subgroep van patiënten, bijvoorbeeld allen die lijden aan een stemmingsstoornis, is echter inhoudelijk en psychometrisch een goede prestatie-indicator. Er valt veel te leren van verschillen in gemiddelde behandeluitkomst en behandelproces tussen vergelijkbare instellingen (zie kader 2). Als eerste stap om de betrouwbaarheid te bepalen hebben we gekeken naar de test-hertest-betrouwbaarheid van de gemiddelde delta T van instellingen door de score over de eerste zes maanden van 2016 te vergelijken met de score over de tweede helft. De betrouwbaarheid van delta T is uitstekend (intra class correlatie ICC =.83) en de ranking van instellingen is stabiel (spearman rho = .80; de Beurs & Warmerdam, 2017). Als we ervan uitgaan dat de gemiddelde behandeluitkomst van een zorgaanbieder stabiel is over een half jaar, dan geeft delta T dus ook bij de meeste instellingen hetzelfde resultaat bij een herhaalde meting.

Conclusie

Wie beweert dat de uitkomst van de behandeling in de ggz niet betrouwbaar is te meten, doet ons vakgebied te kort. Meer dan veertig jaar therapie-effectonderzoek laat zien dat veel patiënten aantoonbaar baat hebben bij psychiatrische en psychologische hulpverlening (de Beurs, 2015). Een toekomstbestendige ggz is transparant over wat ze vermag; het draait daarbij vooral om het resultaat van behandeling. ROM-gegevens aggregeren biedt zicht op het resultaat dat bij groepen patiënten wordt behaald en brengt aanzienlijke verschillen aan het licht tussen zorgaanbieders. Er valt wat te leren van die verschillen in uitkomsten en zo kan de combinatie van ROM met benchmarken leiden tot een betere ggz. Kortom: ROM en kwaliteitsmeting zijn samen sterker dan elk voor zich.

1 Confounding is de potentieel vertekenende invloed van demografische en klinische patiëntkenmerken op uitkomst. In gerandomiseerd onderzoek wordt daarvoor gecontroleerd omdat patiënten aselect verdeeld worden over te vergelijken groepen. In observationeel onderzoek zonder randomisatie heb je die controle niet en moet je statistisch corrigeren voor kenmerken van patiëntenpopulaties van instellingen. Die kenmerken noemt men de casemix van een organisatie.

Literatuur

  • de Beurs, E. (2015). ROM en Benchmarken, over meten, weten en wat dan? (oratie). Leiden: Leiden University.
  • de Beurs, E. (2017). Over ROM en benchmarken; reactie van SBG op rapport van de Algemene Rekenkamer en de actie ‘Stop ROM’. Tijdschrift voor Psychiatrie, 59, 238-241.
  • de Beurs, E., Barendregt, M. & Warmerdam, L. (Eds.). (2017). Behandeluitkomsten: bron voor kwaliteitsbeleid in de GGZ. Amsterdam: Boom.
  • de Beurs, E. & Warmerdam, E.H. (in voorbereiding). De betrouwbaarheid van Delta T.
  • de Beurs, E., Warmerdam, E.H., Oudejans, S.C.C., Spits, M., Dingemanse, P. et al. (in press). Treatment outcome, duration, and costs: A comparison of performance indicators using data from mental health care providers in the Netherlands.
  • Ministerie van Volksgezondheid (2017). Antwoorden op Kamervragen van het Kamerlid Leijten (SP) over de protesten tegen het verplicht in moeten vullen en aan moeten leveren van routine outcome measure (Rom) gegevens in de geestelijke gezondheidszorg (ggz). (2017Z02006). Den Haag: VWS.
  • Ministerie van VWS. (2015). Agenda ggz voor gepast gebruik en transparantie (25 424). Den Haag: Sdu Retrieved from https://www.rijksoverheid.nl/documenten/rapporten/2015/11/26/agenda-ggzvoor-gepast-gebruik-en-transparantie.
  • Paul, G.L. (1967). Strategy of outcome research in psychotherapy. Journal of Consulting Psychology, 31, 109-118.
  • Van Os, J., Berkelaar, A. & Hafkenscheid, A. (2017). Benchmarken: doodlopende weg onder het mom van ‘ROM’. Tijdschrift voor Psychiatrie, 59, 247-250.
  • Van Os, J., Kahn, R., Denys, D., Schoevers, R.A., Beekman, A.T.et al. (2012). ROM: Gedragsnorm of dwangmaatregel? Overwegingen bij het themanummer over routine outcome monitoring. Tijdschrift voor Psychiatrie, 54, 245-253.
  • ZichtbareZorg. (2012). Bruidsschat Zichtbare Zorg. Den Haag: Ministerie van VWS

 

Benchmark ROM: de verkeerde soort administratie

Laat ons, geïnspireerd door de fauna in de natuur, beginnen met een moderne fabel.

‘Er was eens een eekhoorn die jaar in jaar uit voor haar kroost zorgde en kon terugkijken op een groot aantal nakomelingen, die ook al hun eigen kinderen hadden grootgebracht. Ze was ‘la Mama’ en werd in de eekhoorngemeenschap zeer gewaardeerd. Haar kinderen droegen haar op handen en kwamen bij haar voor raad.

La Mama maakte zich, net als elk jaar, zorgen over de voorraden voor de winter. Zo zijn mama’s nu eenmaal. Alle eekhoorn-kinderen gingen, als de dagen begonnen te korten, dagelijks op zoek naar noten. Walnoten, hazelnoten, beukennootjes en okkernoten werden bij elkaar gebracht in voorraadplekken in holtes in de bomen.

La Mama bedacht dat dit effciënter kon. Elke dag schreef ze op, welke voorraden de verschillende kinderen vonden. Ze telde de noten en maakte per soort hoopjes. Later begon ze op te schrijven hoeveel minuten elke tocht duurde en waar de beste buit gevonden werd. Ze maakte schema’s en bepaalde elke morgen waar de kinderen die dag noten zouden zoeken. Aanvankelijk waren haar schema’s succesvol, maar na een tijd groeiden de hoopjes noten steeds minder. De noten werden kleiner, de aantallen beperkt. Ze werd wanhopig. De schema’s die ze gebruikte, waren immers goed berekend. Toch waren de voorraden onvoldoende voor de winter. En haar kinderen leden honger. Voor het eerst in jaren. Ze kon het niet geloven.

Ze besloot haar schema’s beter te controleren. Maar iedereen die ze om hulp vroeg, kon geen fouten vinden. Ze ging meer data verzamelen: het uur van de dag, of het regende, de temperatuur, de vermoeidheid van de verzamelende eekhoorns (op een zevenpuntenschaal en op basis van de bloeddruk) en langs welke boom de kinderen sprongen, wanneer ze noten zochten. De meest succesvolle notenverzamelaars onder haar kinderen werden geselecteerd om voor de voorraden te zorgen. De andere kinderen berekenden de schema’s. Maar jaar na jaar namen de opgeslagen voorraden voor de winter af. Er was hongersnood en de zwakste eekhoorns gingen dood. En toch waren de voorbije winters geen harde geweest.’

Net als de schema’s van Mamaeekhoorn werd ROM bedacht met de beste intenties. De ROM-pioniers van het eerste uur, zoals het team van de Zuid-Limburgse Zorgmonitor, waren van mening dat goede zorg betekende dat een behandeling aansloot bij de zorgbehoeften van cliënten (niet alleen hoe professionals dat zagen, maar ook in de verwachtingen van cliënten en betrokkenen). Het idee was verder om te objectiveren of het verloop van de zorg de gewenste richting uitging, c.q. bijsturing behoefde. Dat waren clinici aan hun cliënten verschuldigd en ROM zou dit in elk individueel traject inzichtelijk maken. Deze dynamische optimalisatie stond garant voor goede zorg. Nu lijkt meten belangrijker dan iets met de data doen, en is het groepsresultaat (de gemiddelde patiënt) en de uitvoering van gesofisticeerde richtlijnen belangrijker dan de individuele patiënt. En dit is exact waarmee ook la Mama eekhoorn de mist in ging.

Het was eveneens belangrijk om patiënten de informatie te bieden, waardoor ze partners konden worden in hun eigen behandeling (shared decision making). Instrumenten werden geselecteerd en gewogen, trainingen gegeven, en software geschreven om persoonlijke trajecten in kaart te brengen. Teamleden onderzochten patronen en trends in de data en ontdekten bijvoorbeeld dat eenzaamheid belangrijker was dan het ‘horen van stemmen’. Resultaten werden met cliënten en families besproken en afspraken gemaakt over het bijscholingsbeleid van medewerkers en hoe de zorg regionaal beter kon worden georganiseerd.

Bestuurders waren gecharmeerd door het initiatief van het veld en stelden voor iedereen te verplichten ROM-data te verzamelen. ROM-pioniers waren rond 1990 niet overtuigd. Ze vreesden dat door een bestuursbesluit, ROM zou veranderen van een intrinsiek gemotiveerd bottom-up proces om te komen tot betere zorg voor de patiënt in je behandelkamer en de patiënten uit de eigen caseload, tot een top-down opgelegde administratieve verplichting. En deze vrees bleek gegrond; het veld raakte vervreemd van de klinische ROM toen het initiatief werd overgenomen door een aantal ‘cijferaars’ aan universiteiten of bij zorgverzekeraars.

Transparantie

Wie weigert te onderkennen dat ROM-gegevens niet bruikbaar zijn om te benchmarken en de discussie over ‘STOPdeBenchmarkROM’ wil wegzetten als een achterhoedegevecht van professionals in de ggz die geen transparantie wensen, gaat de ware discussie uit de weg. Immers, de benchmark ROM zorgt niet voor meer transparantie. Het bouwt verder op de illusie, geïntroduceerd door benchmark- ‘cijferaars’, dat transparantie gebaat is bij statistieken. Echte transparantie vinden we enkel en bij uitstek in de relatie tussen cliënt, hulpverleners en betrokkenen waar consensus bestaat over behandeldoelen en de mate waarin deze worden gerealiseerd. In feite was dat ook de opzet van de ‘klassieke’ klinische ROM. De schijnbare transparantie die de ‘benchmark’- cijferaars voorstellen, werkt alleen maar vervreemdend. Voorstanders van de accountability- ROM argumenteren, dat dankzij de afgedwongen verplichte ROM, in de praktijk meer wordt ge-ROMd. De afgelopen jaren zijn inderdaad meer ROM-data verzameld, maar of dit de transparantie in de therapeutische relatie ten goede komt en leidt tot een betere outcome, wordt nergens aangetoond.

De ROM werd gekaapt voor externe controledoeleinden en werd hierdoor een accountability (of benchmark-) ROM. Dit ging ten koste van de eerdere ‘klassieke’ klinische ROM-procedures ter evaluatie en monitoring van de individuele zorgverlening. De benchmark ROM is er gekomen doordat de partners van het bestuurlijk akkoord onder tijdsdruk stonden en in een dovemansgesprek gewikkeld waren over de inhoud (of kwaliteit) van de zorg. Kwaliteit moest worden genormeerd (vandaar benchmarken). Het gevolg was een polder-compromis met consensus rond een buzz-woord ‘transparantie’, waaraan iedereen een eigen invulling gegeven heeft. En zo werd de landelijke benchmark ROM geboren, zogenaamd onderschreven door ‘het veld’, en mede gestimuleerd door de framing dat Nederland de beste landelijke monitoring op outcome in de wereld zou krijgen. Het proces werd opgestart, niet gehinderd door kennis uit andere landen, waar al lang bewezen was hoe men landelijke monitors het best niet aanpakt (bijv. Twomey et al., 2016). Er werd verder geen gebruik gemaakt van de ervaring van Nederlandse klinische ROM- pioniers (bijvoorbeeld van de reeds genoemde Limburgse Zorgmonitor, Phamous in Groningen, initiatieven in Utrecht, Noord-Holland of Den Haag), noch van de inbreng van epidemiologen met kennis van grote databestanden. Deze inbreng zou duidelijk gemaakt hebben dat door gerichte sampling van subjecten meer informatie verkregen kan worden, dan door iedereen in kaart te willen brengen. Ook zou men voorzichtiger zijn met de verwachting dat een caseload correctie achteraf, bestaande designproblemen zoals casemix-verschillen per voorziening en selectieve uitval, zou kunnen oplossen (Hafkenscheid & Van Os, 2016).

Informed consent

De landelijke ROM moest en zou er komen. Zorgverzekeraars gingen een partnership aan met gedreven academische onderzoekers, die graag meewerkten aan de ontwikkeling van een landelijke database voor benchmarking. Hierdoor zouden ze toegang krijgen tot meer klinische data waardoor hun academische carrières een boost zou krijgen.

De ROM-benchmark is inmiddels een datakerkhof, gebaseerd op onjuiste wetenschappelijke premissen en opgelegd door een eenzijdige verplichting tot aanlevering door zorgverzekeraars en overheid. Dit datakerkhof is ontstaan omdat bij de opzet nooit zorgvuldig is gekeken naar privacyrandvoorwaarden zoals vastgelegd in wet en verdrag. Dat de privacy van mensen systematisch en op grote schaal is geschonden, heeft de minister zelf moeten toegeven. Medische gegevens worden verzameld en verwerkt voor een doel waarvoor ze niet geschikt zijn, zo blijkt uit een recent rapport van de ‘Algemene Rekenkamer’. Bijgevolg is het verzamelen en verwerken van ROM-gegevens voor benchmarking per definitie niet noodzakelijk en daarmee onrechtmatig en in strijd met kernwaarden vastgelegd in het Europees Verdrag voor de Rechten van de Mens (EVRM). Overigens wordt ook niet voldaan aan de strenge regels voor wetenschappelijk onderzoek met betrekking tot ‘informed consent’ [data mogen alleen gebruikt worden voor het onderzoeksdoel en voor geen andere doeleinden]. Ook een reparatiewet, die een juridisch kader zou geven aan de verplichting voor behandelaars om  ROM-gegevens aan te leveren (en hiermee hun beroepsgeheim te schenden) zal nietig blijken en in strijd met het EVRM.

De ROM-benchmark wordt kunstmatig in leven gehouden door ad hoc beleid en mogelijke reparatiemaatregelen. Heel opvallend is het feit dat er telkens weer extra data moeten worden opgehaald om de bestaande landelijke outcome-data interpreteerbaar te maken.

Intenties

In onze overtuiging heeft de benchmark-ROM de transparantie in de zorg geen goede dienst bewezen. Het begrip is vernauwd, de oplossingen zijn gebureaucratiseerd. Enkel door de stekker eruit te halen, zal de discussie over kwaliteit in de ggz weer kunnen gaan over de essentie: mensen die psychisch lijden de best mogelijke zorg te verlenen. Het is echt niet voldoende dat de intenties goed zijn. Een bekend credo is: ‘meten is weten’. Maar Albert Einstein, niet de minste onder de intellectuelen van deze wereld stelde: ‘Niet alles wat geteld kan worden, is waardevol. Niet alles wat waardevol is, kan geteld worden.’ Data kunnen irrelevant of zelfs gewoon rommel zijn. Garbage in, garbage out is een bekende uitspraak bij kritische dataanalisten. Het waarschuwt ons dat de kwaliteit van de dataverzameling en de het design relevanter zijn dan gesofisticeerde statistische technieken.

De malaise in de Nederlandse ggz, in het bijzonder de uit de pan gerezen bureaucratie, is een gevolg van een opeenstapeling van goede intenties in het kader van een kwaliteitsbeleid. We kunnen deze trend alleen keren door te stoppen met top-down projecten in het kader van kwaliteitsverbetering. Laat ons een begin maken door te stoppen met de benchmark ROM. Andere fetisjen van de kwaliteitspolitiek zullen later moeten volgen. Dit pleidooi gaat gepaard met een grote verantwoordelijkheid: namelijk om waarachtig transparant bij te dragen aan het psychisch welzijn van alle burgers. Dit is onze ethische verantwoordelijkheid. Deze handschoen willen we oppakken.

Epiloog

Onze Mama eekhoorn heeft, zo hoorden we recent fluisteren, besloten tot een radicaal experiment. Ze zou haar nageslacht hebben gemeld dat ze dit jaar veel meer vrijheid zouden krijgen om op hun eigen zoekdeskundigheid af te gaan. Aan de basis van haar beslissing lag de overweging, dat de best mogelijke strategie om noten te vergaren, onvoldoende was om de voorraden voor de winter te vullen. Haar nageslacht maakt een veel betere kans op overleving, wanneer meerdere ‘eigen’ strategieën gebruikt worden. Immers: de voedingswaarde van hazelnoten is best aantrekkelijk. Maar een zoektocht in een dennenbos levert weinig op. Dat heeft Mama eekhoorn wel geleerd. 

Literatuur

  • Hafkenscheid, A. & Os, J. van (2016). Wat ieder die betrokken is bij ROM zich over de metingen moet realiseren. Tijdschrift voor Psychiatrie, 58, 388-398.
  • Twomey, C., Prina, A.M., Baldwin, D.S., Das-Munshi, J., Kingdon, D. et al. (2016). Utility of the Health of the Nation Outcome Scales (HoNOS) in Predicting Mental Health Service Costs for Patients with Common Mental Health Problems: Historical Cohort Study. PlosOne, Nov. 2016.

Pleidooi voor betere methodologie en meer slow science

Hoe verder met benchmarking in de GGZ?

De klinische psychologie en psychiatrie worden de afgelopen tijd gedomineerd door één onderwerp: benchmarking in de GGZ op basis van ROM. Het debat hierover is inmiddels gepolariseerd met gepassioneerde voor- en tegenstanders die elkaar regelmatig verbaal in de haren vliegen. Echter, mijn lezing van de huidige literatuur is dat zowel voor- als tegenstanders het in principe eens zijn: de kosten van de GGZ zijn enorm en het lijkt derhalve zinnig om op een of andere manier in kaart te brengen welke instellingen bepaalde interventies goed leveren, en welke instellingen in dit opzicht relatief minder presteren.

De grote vraag is nu: als we gaan benchmarken, zijn het huidige instrumentarium en de gebruikte analyses geschikt om tot een goede benchmarking te komen? Dit is niet slechts een methodologisch interessante vraag, maar een die cruciaal is voor het welslagen van benchmarking: benchmarking gaat over het komen tot een relatieve rangordening van instellingen (instelling A geeft betere gedragstherapie dan instelling B) die idealiter tot ‘concurrentie om kwaliteit’ zou moeten leiden (Laane & Luijk, 2012). Deze instellingen worden bevolkt door mensen die met de beste intenties andere mensen met psychische problematiek naar hun beste vermogen proberen te helpen. Het is derhalve cruciaal dat de uitspraken die we doen over de kwaliteit van zorg die geleverd en ontvangen wordt door mensen gestoeld zijn op degelijke instrumenten en degelijke analyses. Hier wil ik de eerste contouren van een mogelijke roadmap richting betere methodologie bespreken en dus een betere benchmarking.

Instrumenten die kunnen meten wat we willen meten

Op de website van Stichting Benchmark GGZ is te lezen dat de instrumenten die voor de ROM gebruikt worden (bijvoorbeeld de SCL-90) psychometrisch gunstige eigenschappen bezitten, zoals een goede betrouwbaarheid en validiteit. Dit klopt. Echter, ten eerste, de SCL-90 bijvoorbeeld is een valide instrument voor het meten van geestelijke en lichamelijke klachten van individuen. Het is echter op dit moment onduidelijk of de SCL-90 ook een valide instrument is om kwaliteitsverschillen tussen instellingen te meten. De validiteit van een instrument kan wellicht niet zomaar geëxtrapoleerd worden naar andere doeleinden (in dit geval: benchmarking) dan waarvoor een instrument oorspronkelijk werd ontwikkeld. Ten tweede, in verband hiermee, we weten op dit moment onvoldoende zeker of de gebruikte instrumenten wel valide en betrouwbaar zijn om longitudinaal – dat wil zeggen: herhaald – te meten. Tot slot lijkt het niet zeker dat we met dit soort instrumenten ook echt meten wat we willen weten (zie ook Van Os et al., 2012). Het is bijvoorbeeld niet uit te sluiten dat een patiënt weinig of geen verbetering laat zien op de SCL-90 – bijvoorbeeld depressieve symptomatologie neemt nauwelijks af – terwijl er wel degelijk sprake is van herstel dat door de familie van de patiënt duidelijk wordt waargenomen (zie ook Van Os et al., 2012). Mijns inziens is een mogelijke weg voorwaarts hier het onderzoeken van het huidige instrumentarium in termen van geschiktheid als benchmarking-instrument, als longitudinaal meetinstrument en als valide maat voor allerlei vormen van herstel (meer dan bijvoorbeeld zelfgerapporteerde symptomatologie en kwaliteit van leven). Daarnaast moet er tijd en ruimte zijn voor het ontwikkelen van additionele instrumenten.

De multilevel-structuur van ROM-data en meetvariantie

De ROM-data worden verzameld voor individuele patiënten. Deze patiënten zijn genest in instellingen en deze instellingen zijn weer genest in regio’s/ provincies. De verzamelde data hebben derhalve een multilevelstructuur met drie niveaus: patiënt, instelling, en regio/provincie.

Het is mijns inziens uitermate belangrijk om die multilevelstructuur mee te nemen in de analyse van de data, en deze methodologie is reeds voorhanden (Jak, Oort & Dolan, 2014). Waarom? Stelt u zich voor dat we instellingen uit twee provincies, Friesland en Noord-Holland, met elkaar willen vergelijken. Stelt u zich ook voor dat patiënten die behandeld worden in instellingen in Noord Holland, vanwege bijvoorbeeld meer optimisme ten aanzien van de kans van slagen van de behandeling, geneigd zijn om hun herstel in termen van symptoomreductie te overschatten: dat wil zeggen, deze patiënten zijn geneigd om meer symptoomreductie te rapporteren dan werkelijk het geval is, ten opzichte van patiënten in Friesland die pessimistischer zijn. Indien ik een analyse zou doen zonder inachtneming van de multilevelstructuur, dan zou ik concluderen dat de instellingen in Noord- Holland betere zorg leveren dan de instellingen in Friesland. Immers, er is sprake van meer symptoomreductie in de instellingen in Noord-Holland. Maar: dit komt niet door een werkelijk verschil in symptoomreductie maar door een verschil in onderliggend optimisme dat leidt tot overschatting van symptoomreductie in Noord- Holland. In dit geval is het meetinstrument dat gebruikt wordt voor het meten van symptomatologie niet meetinvariant en op het niveau van de instelling of de regio/provincie zou dit in kaart gebracht kunnen worden met multilevel-modellen.

Met betrekking tot meetinvariantie dient zich nog een ander onvoldoende onderzocht issue aan, namelijk meetinvariantie over tijd binnen een persoon: meten we op elk tijdstip bij een persoon wel hetzelfde? Zo zou het bijvoorbeeld kunnen dat een patiënt met depressie door de tijd heen lager scoort op de SCL-90 maar dat dit niet komt door echte symptoomreductie maar doordat de patiënt gedurende de behandeling een andere opvatting ontwikkelt over wat depressie is (response shift).

Mijns inziens is een weg voorwaarts hier het systematisch onderzoeken van meetinvariantie, binnen personen over tijd, tussen personen, en tussen instellingen uit verschillende regio’s. Multilevelmodellen zouden hierbij kunnen helpen, maar dergelijke modellen stellen wel additionele eisen aan de data. Het zou bijvoorbeeld betekenen dat men terug zou moeten gaan naar het tussentijds meten om zo voldoende datapunten voor analyse te verkrijgen, in plaats van de tegenwoordig gangbare pre- en postmeting (zie de bijdrage van De Beurs in deze forumdiscussie).

Oproep tot slow science

Er zijn uiteraard nog vele andere mogelijkheden om de bestaande methodologie te verbeteren en mijn indruk is dat men daar binnen de Stichting Benchmark GGZ hard mee bezig is. Welke methodologische mogelijkheden er ook aangeboord gaan worden verder, ik kan niet sterk genoeg benadrukken hoe ontzettend belangrijk het is om tijd en ruimte te hebben om aan deze mogelijkheden te werken. We hebben veel te verliezen bij benchmarking die gestoeld is op methodologie die nog voor verbetering vatbaar is. Daarom is het zo van belang om de principes van slow science hier toe te passen: onderzoekers die bezig zijn met de benchmarking mogen niet opgejut worden door partijen met (deels) andere – bijvoorbeeld commerciële en/of financiële – belangen (zie ook de bijdrage van Delespaul & Cnubben in deze forumdiscussie), en moeten zich vrij voelen om niet met quick fixes te komen – die zijn er hoogstwaarschijnlijk ook niet – maar middels een langzaam maar zeker, methodisch en trial-anderrorproces te komen tot goede en eerlijke benchmarking.

Literatuur

  • De Beurs, E. (2017). Waarom ROM en benchmarken combineren? De Psycholoog, 52(7/8), 45-47
  • Delespaul, P. & Cnubben, W. (2017). Benchmark ROM: de verkeerde soort administratie. De Psycholoog, 52(7/8), 49-52
  • Jak, S., Oort, F. J. & Dolan, C.V. (2014). Measurement Bias in Multilevel Data. Structural Equation Modeling: A Multidisciplinary Journal, 21, 31-39.
  • Laane, R. & Luijk, R. (2012). ROM en de positie van zorgverzekeraars. Tijdschrift voor Psychiatrie, 54, 135-139.
  • Van Os, J., Kahn, R., Denys, D., Schoevers, R. A., Beekman, A. T. F. et al. (2012). ROM: gedragsnorm of dwangmaatregel? Overwegingen bij het themanummer over routine outcome monitoring. Tijdschrift voor Psychiatrie, 54, 245-253.