Inleiding
Zoiets komt zeker voor, maar patiënten kunnen ook om andere redenen een overdreven voorstelling van hun klachten geven. Ze kunnen bijvoorbeeld klachtenlijsten slordig invullen en dat kan torenhoge scores opleveren (Meyer et al., 2013)13. Wat ook de oorzaak, het is belangrijk dat de diagnosticus klachtenoverdrijving onderkent en met zoveel woorden benoemt. Want als klachtenoverdrijving onopgemerkt blijft, kan het leiden tot een verkeerde inschatting van wat de patiënt mankeert (Kirkwood et al., 2012; Merckelbach et al., 2014)59.
Twee verdere opmerkingen zijn op hun plaats. Om te beginnen: buiten het strafrecht vormen patiënten die klachten overdrijven weliswaar een minderheid, maar het is geen verwaarloosbaar kleine groep. Zo vonden Dandachi-FitzGerald et al. (2011)3 in hun onderzoek onder ggz-patiënten die waren verwezen voor psychodiagnostiek, dat zo’n 20% van hen een overmaat aan pseudosymptomen aankruiste op de Structured Inventory of Malingered Symptomatology (SIMS; zie onder). Bij patiënten van algemene ziekenhuizen varieerde dat percentage tussen de 12% en 19% (Dandachi-FitzGerald et al., 2017)1.
Op de tweede plaats: als clinici op hun intuïtie afgaan om te bepalen of de patiënt klachten aandikt, zitten ze er vaak naast. De foutenmarge beloopt dan in de tientallen procenten (Dandachi-FitzGerald et al., 2017; Merckelbach, 2017)6. Een beproefde manier om die marge omlaag te krijgen, is door instrumenten zoals de eerder genoemde SIMS in te zetten.
Alternatief voor de SIMS
De SIMS (zie voor de Nederlandse vertaling Merckelbach et al., 2001) bestaat uit een opsomming van pseudosymptomen zoals: ‘Wanneer ik een telefoonnummer noteer, merk ik soms dat de cijfers achterstevoren op papier komen ofschoon ik dat helemaal niet wil.’ De patiënt moet telkens zeggen of hij – ja of nee – last heeft van de symptomen. Het instrument stoelt op de aanname dat wie op ruime schaal nepsymptomen aanvinkt, zijn klachten op een ongeloofwaardige manier presenteert.
De psychometrische staat van dienst van de SIMS is redelijk (Merckelbach et al., 2013; Van Impelen et al., 2014)15 en de lijst wordt in ons land veel gebruikt (Dandachi-FitzGerald et al., 2013)2. Toch kleven er nadelen aan. Niet de minste daarvan is dat de naam (Structured Inventory of Malingered Symptomatology) op riskante wijze verwarring sticht. Wie overmatig veel symptomen op de SIMS aankruist, doet aan klachtenoverdrijving, maar is daarom nog geen malingerer. Dat is wel een misverstand dat de SIMS voedt. Voorts: de SIMS werd ontwikkeld om in de strafrechtelijke context klachtenoverdrijving op te sporen. Veel van de pseudosymptomen die in de SIMS figureren, maken zodoende toespelingen op psychotische aandoeningen en extreem geheugenverlies. Overdrijving van het soort klachten dat ter sprake komt tijdens bijvoorbeeld letselschadezaken – angst, pijn, vermoeidheid – wordt door de SIMS niet gedekt. En dan: de SIMS bestaat enkel uit een opsomming van hoogst atypische symptomen. Daarmee is het instrument voor ingewijden makkelijk te herkennen als een symptoomvaliditeitstest.
In de afgelopen jaren hebben wij met Duitse en Zwitserse collega’s gewerkt aan een alternatief voor de SIMS. Wat ons voor ogen stond, was een lijst van zowel plausibele symptomen als pseudosymptomen, en dan zo geformuleerd dat ze diagnostische problemen bestrijken die opduiken in letselschadezaken en bestuursrechtelijke procedures over uitkeringen. Te denken valt inderdaad aan angst en pijn, maar ook aan de post-traumatische stressstoornis (PTSS). Dat leverde de Self-Report Symptom Inventory (SRSI) op.
De SRSI heeft 107 items, die de patiënt moet waarderen met een ja of nee. De SRSI begint met twee items die vragen of de patiënt bereid is de lijst zo goed mogelijk in te vullen. Ook omvat de SRSI vijf over de test verspreide items die controleren of iemand consistent is in zijn antwoorden. De hoofdmoot bestaat uit 100 symptomen, waarvan 50 plausibel zijn en 50 hoogst atypisch (pseudosymptomen). De oorspronkelijke verzameling van 150 symptomen kwam tot stand via een consensusvergadering van artsen en psychologen en een inspectie van bestaande instrumenten. Daarbij werd als stelregel gehanteerd dat kandidaat-items niet mochten overlappen met die van de SIMS.
Met de aldus geconstrueerde oerversie werden gegevens verzameld in een heterogene steekproef van patiënten en studenten (N=239). Sommigen van hen gingen zich te buiten aan symptoomoverdrijving; bij anderen was dat niet het geval. Uit de oorspronkelijke verzameling van 150 symptomen werden de 50 symptomen verwijderd die het slechtst onderscheidden tussen deze twee groepen, zodat de 100 best discriminerende symptomen in de definitieve – Duitse – versie kwamen. Er is inmiddels een Noorse, Franse, Engelse en Nederlandse vertaling van deze versie en de eerste resultaten die daarmee werden verkregen, stemmen optimistisch (Merten et al., 2016)12. Binnenkort publiceert Hogrefe de handleiding van de Duitse SRSI, waarin ook de Nederlandse vertaling ter sprake komt (Merten et al., 2018). De psychometrische kerngegevens die we hieronder bespreken, komen uit deze handleiding.
Hoofdschalen, subschalen en afkappunten
Tabel 1 geeft een indruk van hoe de SRSI is opgebouwd en laat ook voorbeelden zien van plausibele symptomen en pseudosymptomen. De interne consistentie (Cronbach alpha) van de plausibele symptomen (Xx) bedraagt, zo bleek uit eerder onderzoek (N=520), 0.95 en die van de pseudosymptomen (Yy) 0.92. Voor de afzonderlijke subschalen werden lagere Cronbach alpha’s gevonden. De laagste waarde was die voor motorische pseudosymptomen (0.70). De test-hertest stabiliteit van de SRSI bleek redelijk in een heterogene steekproef van jonge mensen (N=30) die de test tweemaal met een tussenpauze van enkele weken invulden: 0.91 voor de plausibele symptomen en 0.87 voor de pseudosymptomen. Een Receiver Operating Characteristics (ROC)-analyse uitgevoerd op een steekproef van N=367 – waaronder asymptomatische controles, geïnstrueerde studenten en patiënten die afwijkend presteerden op andere symptoomvaliditeitstests – leverde een area under the curve (AUC) op van 0.93, 95% CI [0.90, 0.96], wat behoorlijk is.
Voor de kwaliteit van de SRSI pleit ook dat het aantal aangevinkte pseudosymptomen (Yy) positief bleek samen te hangen met scores op de SIMS. De correlaties cirkelden steeds rond r=0.80. De pseudosymptomen van de SRSI hingen negatief samen met taken die onderpresteren meten, waarbij correlaties in de orde van de -0.40 waren. Naarmate mensen meer pseudosymptomen op de SRSI aankruisten, presteerden ze dus beroerder op simpele geheugen- of redeneertaken.
Kijkend naar optimale afkappunten voor het opsporen van symptoomoverdrijving stelden Merten et al. (2018)11 twee waardes voor: meer dan zes pseudosymptomen (>6) voor screening en meer dan negen pseudosymptomen (>9) voor diagnostische doeleinden.1 De effectiviteit van zulke afkappunten wordt uitgedrukt in sensitiviteit – het percentage overdrijvers dat wordt ontdekt – en foutpositieven – het percentage eerlijke respondenten dat als overdrijver wordt weggezet. Merten et al. (2018) vonden voor hun afkappunten sensitiviteitspercentages van 83% (>6) en 62% (>9) en foutpositieven van 9% (>6) en 5% (>9).
Een andere maat die uit de SRSI valt af te leiden, is de ratio (Σ pseudosymptomen) / (Σ plausibele symptomen) (Σ Yy/ Σ Xx). Hoe lager de ratio uitvalt, hoe selectiever patiënten in hun klachtenpresentatie zijn en hoe meer zij pseudosympto- men vermijden. Een ratio van 0.10 betekent dat de patiënt op elke tien plausibele symptomen slechts een pseudosymptoom aankruist. Hoe hoger de ratio, hoe minder kieskeurig de patiënt is in het aanvinken van symptomen. Zo betekent een ratio van 1.0 dat de patiënt op elk plausibel symptoom ook een pseudosymptoom aankruist. Er is te weinig onderzoek voorhanden om harde uitspraken te kunnen doen over verstandige afkapwaarden, maar een voorlopige vuistregel is dat ratio’s die de 0.288 overschrijden – grofweg op elke vier plausibele symptomen meer dan een pseudosymptoom – de verdenking van klachtenoverdrijving oproepen. De ratio kan informatief zijn als de clinicus wil nagaan of klachtenoverdrijving zich afspeelt binnen een afgebakend domein – bijvoorbeeld pijn – terwijl dat domein slechts met een beperkt aantal items (namelijk 10) in de SRSI is vertegenwoordigd.
Pseudosymptomen: vooronderzoek
Om vast te stellen of nepsymptomen van de SRSI iets anders meten dan haar plausibele symptomen, gaven we de Nederlandse SRSI aan een groep van 29 Maastrichtse studenten (5 mannen). Ze waren proefpersoon in een niet-gerelateerd experiment. Opdracht: vul de papieren versie van de SRSI zo nauwkeurig mogelijk in. De studenten kregen bovendien een Nederlandse vertaling van de Checklist for Symptoms in Daily Life (CSDL; Wientjes & Grossman, 1994)16. De CSDL omvat 39 alledaagse klachten (hoofdpijn, lage rugpijn, koude handen). Ze worden beoordeeld op een schaal die loopt van 1 (nooit last) naar 5 (heel vaak last). Alledaagse klachten correleerden sterker met plausibele symptomen van de SRSI dan met haar pseudosymptomen: 0.63 (p<0.01) versus 0.39 (p=0.03). Gemiddeld kruisten de studenten 7.2 (SD=4.8) plausibele symptomen aan en slechts 1.4 (SD=1.8) nepsymptomen. De ratio, 0.17 (SD=0.24), lag zodoende ver onder de provisorische afkapwaarde van 0.288. Bijna de helft van de studenten kruiste 0 pseudosymptomen aan, geen van de studenten zat boven het afkappunt voor diagnostische doeleinden (9) en één student vinkte acht pseudosymptomen aan en zat daarmee boven het afkappunt voor screening.
Experimentele simulanten
Vervolgens voerden we een experiment uit om te bepalen of de afzonderlijke subschalen voor pijn en PTSS gevoelig zijn voor het type klachtenoverdrijving dat mensen nastreven. Anders dan ons vooronderzoek verliep dit experiment via het internet. Proefpersonen vulden dus een elektronische versie van de SRSI in. Aan het experiment deden 158 studenten (gemiddelde leeftijd 21.4 jaar; 83% vrouw) mee.2 Sommigen kregen de instructie om klachten te overdrijven (simulanten), anderen fungeerden als controle proefpersonen. De controles (N=51) vroegen we om de SRSI eerlijk in te vullen. Bij de simulanten waren er twee groepen. De pijngroep (N=54) las eerst een zorgvuldig samengesteld scenario over een student die tijdens een letselschadeprocedure chronische pijnklachten veinst nadat hij/zij slachtoffer werd van een verkeersongeval veroorzaakt door een arrogante automobilist.3 Daarna werd deze groep gevraagd om zich te vereenzelvigen met de student in het scenario en in die rol de SRSI in te vullen.
De angstgroep (N=53) las eerst een scenario over een jonge politiefunctionaris die een incident meemaakt, waaraan zijn baas nogal achteloos voorbijgaat. De politiefunctionaris besluit te veinzen dat hij/zij een trauma heeft opgelopen om zo enige tijd thuis rustig op adem te kunnen komen. De angstgroep werd gevraagd zich in te leven in de rol van de politiefunctionaris en met dat in het achterhoofd de SRSI in te vullen.
Beide groepen simulanten drukten we op het hart om toch vooral op een gedoseerde manier te werk te gaan: ‘Presenteer je symptomen op een manier die geloofwaardig is en kom niet met klachten aanzetten die in de ogen van artsen misschien weinig plausibel zijn. Wees slim in welke symptomen je aankruist en houd het doel voor ogen dat je hiermee hebt. Als je overtuigend bent in hoe je je klachten presenteert, doe je mee in een loterij, waarmee je een bonus van € 20 kunt verdienen!’
Resultaten
Tabel 2 vat de uitkomsten van ons experiment samen. Allereerst valt op dat de interne consistenties van de hoofdschalen overeenkomen met wat Merten et al. (2018) eerder vonden (>0.90), maar dat de consistenties van de subschalen gunstiger zijn dan die in voorgaande studies (alle Cronbach alpha’s ≥ 0.80). Vervolgens is evident dat de controlegroep relatief weinig – gemiddeld minder dan 3 – pseudosymptomen (Yy) aankruist, terwijl dat gemiddelde bij simulanten boven het afkappunt van 9 ligt. Inspectie van de gemiddeldes suggereert dat subschalen gevoelig zijn voor wat simulanten beogen. Zo scoren degenen die werden geïnstrueerd om pijnklachten te overdrijven hoger dan alle anderen op de subschaal die plausibele pijnklachten (XPa) meet [F(2,155)=125.1, p<0.01], maar ook op de subschaal die pseudopijnklachten (YPa) meet [F(2,155)=35.2, p<0.01]. De verschillen blijven significant als de vergelijkingen met post-hoc Bonferroni-tests worden beperkt tot de pijngroep en de angstgroep (alle p’s<0.01). Iets vergelijkbaars geldt voor de subschalen die plausibele angstsymptomen (XAn) of pseudo-angst/depressie (YMe) meten. Hierop scoren degenen die zijn geïnstrueerd om angst te overdrijven significant hoger dan alle anderen, pijnsimulanten incluis.
De gevonden ratio’s (Yy/Xx) bevestigen de regel dat waardes vanaf 0.288 verdacht zijn. Een eenwegvariantie-analyse maakt duidelijk dat er wat dat betreft significante verschillen tussen controles en simulanten bestaan [F(2, 155)=17.83, p<0.01, η2 =0.19], zodanig dat simulanten niet van elkaar (p=0.40), maar wel steeds van controles verschillen (p’s<0.01). Het 95% betrouwbaarheidsinterval van de ratio loopt bij de controles van 0.14 tot 0.27. Bij de simulanten loop het van 0.33 tot 0.52.
Receiver Operating Characteristics (ROC)
We voegden de gegevens van ons vooronderzoek en die van het experiment samen, zodat we een groep van 80 (29 + 51) controles en 107 (54+53) simulanten hadden. Op deze geaggregeerde data voerden we een ROC-analyse uit. Die gaf voor de ratio een area under the curve (AUC) van 0.80, 95% CI [0.73, 0.86], wat volgens geldende standaarden redelijk is.
Tabel 3 laat voor de afkappunten van 6 en 9 pseudosymptomen telkens het percentage correct geclassificeerde simulanten (sensitiviteit) en het percentage verkeerd geclassificeerde controles (1-specificiteit; ‘fout-positieven’) zien. Ze sporen vrij aardig met de percentages die Merten et al. (2018) in een heterogene steekproef van patiënten en asymptomatische respondenten vonden. Een ROC-analyse leverde een AUC van 0.91, 95% CI [0.87,0.95], op. Het duidt op een onderscheidend vermogen dat heel behoorlijk is.
Voor klinische toepassingen zijn AUC, sensitiviteit en specificiteit niet zo informatief. Voor de clinicus is het belangrijker om te weten wat het betekent als deze concrete patiënt boven of juist onder het afkappunt scoort. Hoe groot is de kans dat de patiënt aan symptoomoverdrijving doet als hij meer dan 6 of 9 pseudosymptomen aankruist (positief voorspelende waarde; PVW)? En hoe groot is de kans dat de patiënt daar niet op uit is als hij minder dan 6 of 9 pseudosymptomen omarmt (negatief voorspellende waarde; NVW)? Zulke kansen zijn sterk afhankelijk van de prevalentie (‘base rate’) waarmee klachtenoverdrijving voorkomt in een populatie. Tabel 4 geeft de positieve en negatieve voorspellende waardes voor prevalenties van 5%-45% uitgaande van de kerngegevens in Tabel 3.4 Opnieuw komen onze waardes tamelijk goed overeen met die van Merten et al. (2018).
Tabel 4 moet als volgt worden gelezen. Stel dat de prevalentie van klachtenoverdrijving onder patiënten die in letselschade-procedures zijn verwikkeld 35% bedraagt (zie voor een beschouwing over prevalenties: Young, 2015)17. Stel voorts dat een zo’n patiënt voor psychodiagnostisch onderzoek wordt verwezen en de SRSI invult. Als deze patiënt meer dan 9 pseudosymptomen omcirkelt, is de kans dat hij zich de facto aan klachtenoverdrijving te buiten gaat 92%. Als diezelfde patiënt 9 of minder pseudosymptomen aankruist, is de kans dat hij niet aan klachtenoverdrijving doet 82%. Deze percentages maken een precieze indruk, maar het zijn in werkelijkheid grove schattingen. Ze zijn immers gebaseerd op kleine en nogal homogene steekproeven (studenten). Ons gaat het erom dat ze de bredere geldigheid van de psychometrische kerngegevens in de handleiding van de SRSI (Merten et al., 2018) onderstrepen.
Discussie
Om duidelijk te maken wat hen scheelt, kunnen patiënten hun klachten zwaarder aanzetten dan ze feitelijk zijn. Dat is begrijpelijk, maar soms krijgt klachtenoverdrijving zo’n allure dat het aparte aandacht verdient van de clinicus. Dat is aan de orde wanneer klachtenoverdrijving accurate diagnostiek en behandeling in de weg staat.
Clinici die zich enkel op hun intuïtie verlaten om te bepalen of de patiënt klachten overdrijft, slaan nogal eens de plank mis (Dandachi-FitzGerald et al., 2017; Merckelbach, 2017). Het verschijnsel laat zich beter detecteren met speciaal daartoe ontworpen tests, zoals ook het Amerikaanse Institute of Medicine (2015)4 in haar gezaghebbende rapport constateert, een rapport dat overigens vooral betrekking heeft op de context van uitkeringen. Deze zogenaamde symptoomvaliditeitstests bestaan er in allerlei soorten en maten. Een vaak gebruikte variant schotelt de patiënt een reeks van extreme, zeldzame of bizarre klachten voor; de patiënt moet aankruisen van welke klachten hij last heeft. Degenen die hun klachten op een disproportionele manier willen presenteren, zullen op ruime schaal zulke symptomen gaan aanvinken. De veel gebruikte SIMS (Merckelbach et al., 2001)8 is een voorbeeld van dit type test. Een van de beperkingen van dit instrument is dat het vooral sondeert naar extreme psychopathologie: het gaat om pseudosymptomen die toespelingen maken op, bijvoorbeeld, psychose, amnesie en ernstige stemmingsstoornissen. Dat type pseudosymptomen zal zeker een rol spelen in het strafrechtelijke domein, maar letselschadezaken of geschillen over uitkeringen spitsen zich vaker toe op minder opzichtige problemen, zoals pijnklachten en vermoeidheid.
Met deze overweging in het achterhoofd werd de SRSI ontworpen als alternatief voor de SIMS. De psychometrische kwaliteiten van de SRSI zijn ruim voldoende, maar de gegevens terzake werden vooral verzameld met Duitstalige steekproeven (Merten et al., 2018). Daarnaast liet het Duitse onderzoek een paar kwesties links liggen: zijn de afzonderlijke subschalen gevoelig voor verschillende vormen van klachtenoverdrijving en is de ratio van pseudosymptomen en plausibele symptomen inderdaad een goede maat voor hoe aselectief overdrijvers hun klachten presenteren? In ons onderzoek stelden we deze vragen aan de orde; de resultaten laten zich als volgt samenvatten:
- De psychometrische kwaliteiten van de Nederlandse SRSI – interne consistentie, AUC, sensitiviteit en ‘foutpositieve’ percentages bij de afkappunten van 6 en 9 pseudosymptomen – zijn bevredigend. We schrijven ‘foutpositief’ tussen aanhalingstekens omdat we niet zeker weten of het handjevol controles met overmatig veel pseudosymptomen inderdaad ten onrechte door de SRSI werd geclassificeerd als klachtenoverdrijvers. Een andere mogelijkheid is dat deze mensen opzettelijk veel symptomen op de SRSI aanvinkten. Proefpersonen die zich actief verzetten tegen de instructie van de proefleider en/of die vragenlijsten opzettelijk slordig invullen komen nu eenmaal voor (Merckelbach et al., 2010)7 en hun omvang wordt geschat op enkele procenten. Een reden om in deze richting te denken is ook dat de controles die in ons experiment een elektronische versie van de SRSI invulden – en dat in alle anonimiteit en achter hun eigen beeldscherm deden – aanmerkelijk meer symptomen aankruisten dan de controles in ons vooronderzoek. De laatsten vulden een papieren versie in van de SRSI en wel onder het toeziend oog van een proefleider. Deze groep had wezenlijk lagere scores voor plausibele en nepsymptomen dan de controles in het experiment (respectievelijk 7.2 en 1.3 tegen 12.3 en 2.7).
- De subschalen voor pijn en angst/PTSS vangen inderdaad op pijn of angst gerichte vormen van klachtenoverdrijving, wat voor de validiteit van deze subschalen pleit.
- Onze gegevens bevestigen de juistheid van de vuistregel dat een ratio van pseudo- en plausibele symptomen die de 0.288 overschrijdt een rode vlag is voor symptoomoverdrijving.
De Nederlandse SRSI is veelbelovend, maar het laat onverlet dat meer gegevens nodig zijn. Zo is onderzoek naar de gevoeligheid van de andere subschalen (cognitieve symptomen, depressie, somatisatie etc.) wenselijk. Waar vooral behoefte aan is, zijn de SRSI-profielen van diverse patiëntengroepen. Met zulke profielen in de hand, valt er pas met stelligheid iets te zeggen over het informatieve gehalte van de schalen die plausibele symptomen meten en de veiligheid van de vuistregel dat ratio’s >0.288 suspect zijn. Ook de foutpositieve percentages die bij de verschillende afkappunten horen, laten zich dan nauwkeuriger bepalen.
In afwachting van zulke gegevens staat een verstandig gebruik van de Nederlandse SRSI wel de volgende conclusies toe. Ten eerste, als de SRSI wordt ingezet in een context waar de prevalentie van klachtenoverdrijving laag moet worden geacht (≤ 15%), zeggen scores boven de afkappunten niet bijster veel, terwijl scores daaronder des te informatiever zijn: ze wijzen er namelijk sterk op dat de patiënt niet uit is op klachtenoverdrijving. We benadrukken dit aspect van negatief voorspellende waarde, omdat clinici het belang ervan nogal eens over het hoofd zien (Merckelbach et al., 2016)10. Ten tweede, bij hogere prevalenties van klachtenoverdrijving, zou een score van >9 pseudosymptomen aanleiding moeten zijn om met andere symptoomvaliditeitstests de hypothese van klachtenoverdrijving te toetsen. Dan ook zou het een doel dienen om de patiënt uit te vragen over de aanwezigheid van belangen, voordelen en revenuen en hoe die samenhangen met behandelmotivatie. Dat is iets wat clinici vaak weinig doen, terwijl behandelvooruitgang duidelijk verband houdt met de verborgen agenda van secundaire belangen die patiënten erop na kunnen houden (Van Egmond & Kummeling, 2002)14.
Referenties
- De handleiding van de SRSI (Merten et al., 2018) staat ook stil bij andere afkappunten, maar om redenen van overzichtelijkheid bespreken we die hier niet.
- Een meer gedetailleerde beschrijving van dit experiment is te vinden in: Boskovic, I., Merckelbach, H., Merten, T., Hope, I. & Jelicic, M. (in voorbereiding). The Self-Report Symptom Inventory as a screen for over-reporting: An explorative study with instructed simulants.
- De scenario’s hebben een lengte van circa 1980 woorden; ze zijn op te vragen bij de eerste auteur.
- Bij de berekeningen zijn we uitgegaan van een gemiddelde (naar beneden afgeronde) sensitiviteit van 75% voor het afkappunt van 6 en een gemiddelde (ook weer naar beneden afgeronde) sensitiviteit van 60% voor het afkappunt van 9. Die gemiddeldes ontlenen we aan Tabel 3.