Summary

INTERPRETATION OF MEASUREMENT RESULTS IN CLINICAL PSYCHOLOGY

E. DE BEURS, G. FLENS & G. WILLIAMS

This article deals with measurement and the interpretation of scores on clinical psychological tests. The use of a uniform measurement scale is proposed as well as how to present measurement results to the patient. We describe the meaning of measurement results: When do we call a score high, when low? When do we consider a change in score over time as a statistically reliable change and when is a (change in) score indicative of symptomatic or functional recovery? We provide specifi c recommendations to give meaning to measurement results and visualization of the data. After reading this article, you will be able to interpret Tscores, explain to patients what their measurement results mean and use this information for shared decision making with the patient about the further course of treatment (to stop, continue, switch, intensify or reduce the intensity of treatment).

Log in
Edwin de Beurs, Gerard Flens en Guido Williams doen een voorstel voor een uniforme meetschaal en hoe meetresultaten samen met de patiënt zijn te bespreken. Ze beschrijven hoe betekenis kan worden gegeven aan meetresultaten. Ook beschrijven ze wanneer een verandering in score over de tijd een indicatie is van een wezenlijke verandering in de klinische toestand van de patiënt. De Beurs c.s. sluiten af met zes concrete aan bevelingen voor betekenisverlening aan meetresultaten.

Inleiding

Gebruik van meetinstrumenten in de klinische psychologie wordt al geruime tijd gepropageerd en hun toepassing in het kader van Routine Outcome Monitoring (ROM) neemt hand over hand toe. Veel professionals in de zorg zijn echter onvoldoende vertrouwd met meetresultaten en voelen zich onvoldoende toegerust om de patiënt goed voor te lichten over de gegevens die ROM oplevert. Het helpt daarbij niet dat de gebruikte meetinstrumenten in de ggz allemaal hun eigen meetschalen hebben en er talloze cryptische afkortingen voor subschalen worden gebruikt. Hierdoor is eerst een grondige studie van het meetinstrument vereist, alvorens iets met de scores aan te kunnen vangen. Een medicus heeft het wat dat betreft iets makkelijker met een enkele schaal voor koorts, een enkele schaal voor bloeddruk en een enkele schaal voor de hemoglobinewaarde van het bloed. Ook is kennis over de interpretatie van scores, met name waar het gaat om verandering in de score over de tijd, nog onvoldoende verspreid. Zo gaapt er een…

Bij Edwin de Beurs is een brochure opvraagbaar met een korte toelichting van respectievelijk scores en verandering in score over de tijd om te gebruiken bij uitleg aan de patiënt.

1. De validiteit van een meetinstrument geeft aan in hoeverre het instrument meet wat het beoogt te meten: iemands gewicht meet je beter met een weegschaal dan met een meetlint.

2. We beperken ons hier tot betrouwbaarheid zoals gedefinieerd in de klassieke testtheorie omdat vooralsnog de meerderheid van meetinstrumenten in de Nederlandse ggz ontwikkeld is volgens deze theorie. Bij andere benaderingen, zoals de Item Respons Theorie, wordt betrouwbaarheid anders beschouwd en vastgesteld. We verwijzen de geïnteresseerde lezer naar Embretson en Reise (2013).

3. Er zijn twee manieren om een betrouwbaarheidsinterval te construeren. Naast de hierboven beschreven betrouwbaarheidsintervallen op basis van de standaardmeetfout kan het interval ook berekend worden op basis van de standaardschattingsfout (zie Lek, Van de Schoot-Hubeek, Kroesbergen & Van de Schoot, 2017). In het laatste geval wordt een aanvullende correctie toegepast, vermenigvuldigen met de wortel uit de betrouwbaarheid. SE wordt dan volgens een formule van Kelley (1947): CI95 = T ± 1.96*SE*. Hiermee wordt ook rekening gehouden met ‘regression to the mean’, het fenomeen van de verhoogde kans op een minder extreme score bij een herhaalde afname van een meetinstrument. Voor geobserveerde extreme scores verschuift het betrouwbaarheidsinterval dan richting het gemiddelde. De geïnteresseerde lezer verwijzen we graag naar het zeer leesbare artikel van Lek et al. (2017).

4. Drie formules zijn hierbij van belang: (1) RCI=DT/SDIFF, (2) SDIFF= en (3) SE=SD*;

5. Voor RCI95 DT/SDIFF=1.96; SE=2.52. Dit betekent dat de betrouwbaarheid van het instrument r=.97 moet zijn om DT=5 te mogen hanteren als grenswaarde.

6. Jaeschke, Singer & Guyatt (1989) stelden een verschuiving van een halve punt op een zevenpuntschaal voor als een verandering die detecteerbaar is voor patiënten (een ‘anchor based’ criterium); bij Norman, Sloan & Wyrwich, (2003) en Sloan, Cella & Hays, (2005) gaat het om een ‘distributionbased’ of statistisch criterium; zie ook De Vet et al. (2006).

Literatuurlijst
  1. Beck, A.T. & Steer, R.A. (1987). Manual for the revised Beck Depression Inventory. San Antonio, TX: Psychological Corporation.
  2. Cella, D., Yount, S., Rothrock, N., Gershon, R., Cook, K. et al. (2007). The PatientReported Outcomes Measurement Information System (PROMIS): progress of an NIH Roadmap cooperative group during its fi rst two years. Medical Care, 45(5, S1), S3S11. doi:10.1097/01. mlr.0000258615.42478.55
  3. Choi, S.W., Schalet, B., Cook, K.F. & Cella, D. (2014). Establishing a common metric for depressive symptoms: Linking the BDIII, CESD, and PHQ9 to PROMIS Depression. Psychological Assessment, 26(2), 513=527. doi:10.1037/a0035768
  4. de Beurs, E. (2010). De genormaliseerde T-score, een ‘euro’ voor testuitslagen [The normalised Tscore: A euro for test results]. Maandblad Geestelijke Volksgezondheid, 65, 684695. Retrieved from www.sbggz.nl
  5. de Beurs, E. (2011). Handleiding Brief Symptom Inventory (2nd ed.). Leiden: Pits BV.
  6. de Beurs, E. & Flens, G. (2017). Gebruik van verschillende meetinstrumenten: de getransformeerde Tscore en equivalente responsiviteit. In E. de Beurs, L. Warmerdam & M. Barendregt (Eds.), Behandeluitkomsten: bron voor kwaliteitsbeleid in de GGZ [Treatment outcome: source of quality management in Mental Health Care] (pp. 225238). Amsterdam: Boom Uitgevers.
  7. de Beurs, E., Meesters, Y., Vissers, E., Schoevers, R.A., Carlier, I.V. & Van Hemert, A.M. (2018). Comparative responsiveness of generic versus disorderspecifi c instruments for depression: an assessment in three longitudinal datasets Journal of Depression and Anxiety, Accepted for publication. doi:10.1002/da.22809
  8. de Beurs, E. & Zitman, F.G. (2006). De Brief Symptom Inventory (BSI): De betrouwbaarheid en validiteit van een handzaam alternatief voor de SCL90 [The Brief Symptom Inventory: Reliability and validity of a handy alternative for the SCL90]. Maandblad Geestelijke Volksgezondheid, 61, 120141.
  9. de Vet, H.C., Terwee, C.B., Ostelo, R.W., Beckerman, H., Knol, D.L. & Bouter, L.M. (2006). Minimal changes in health status questionnaires: distinction between minimally detectable change and minimally important change. Health and Quality of Life Outcomes, 4(1), 54.
  10. Derogatis, L.R. (1975). The Brief Symptom Inventory. Baltimore, MD.: Clinical Psychometric Research.
  11. Dingemans, A.E. & Van Furth, E.F. (2017). Het meten van verandering tijdens behandeling voor eetstoornissen: Een vergelijking van twee algemene en specifi eke vragenlijsten [Measuring change during the treatment of eating disorders: a comparison of two types of questionnaires] Tijdschrift voor Psychiatry, 59(5), 278285. doi:http:// www.tijdschriftvoorpsychiatrie.nl/assets/articles/5920175artikeldingemans. pdf
  12. Egberink, I., Janssen, N. & Vermeulen, C. (2009). COTAN Documentatie (www. cotandocumentatie. nl). Amsterdam: Boom test uitgevers.
  13. Embretson, S.E. & Reise, S.P. (2013). Item response theory for psychologists. Mahwah, NJ: Lawrence Erlbaum Associates.
  14. Flens, G., & de Beurs, E. (2017). De toekomst van ROM: computergestuurd adaptief testen. Tijdschrift voor Psychiatrie, 59(12), 767774.
  15. Flens, G., Smits, N., Terwee, C.B., Dekker, J. Huijbrechts, I. et al. (2017). Development of a Computerized Adaptive Test for Anxiety based on the DutchFlemish version of the PROMIS Item Bank. Assessment, 24(4). doi:10.1177/1073191117746742
  16. Jacobson, N.S. & Revenstorf, D. (1988). Statistics for assessing the clinical signifi cance of psychotherapy techniques: Issues, problems and new developments. Behavioral Assessment, 10, 133145.
  17. Jacobson, N.S., Roberts, L.J., Berns, S.B. & McGlinchey, J.B. (1999). Methods for defi ning and determining the clinical signifi cance of treatment effects: Description, application, and alternatives. Journal of Consulting and Clinical Psychology, 67(3), 300307.
  18. Jaeschke, R., Singer, J. & Guyatt, G.H. (1989). Measurement of health status. Controlled Clinical Trials, 10(4), 407415. doi:10.1016/01972456( 89)900056
  19. Kelley, T.L. (1947). Fundamentals of statistics. Cambridge, MA: Harvard University Press.
  20. Lek, K., Van de SchootHubeek, W., Kroesbergen, E., & van de Schoot, R. (2017). Het betrouwbaarheidsinterval in intelligentietests. Hoe zat het ook weer? De Psycholoog, 52(11), 1024.
  21. Maruyama, G. & Ryan, C.S. (2014). Research methods in social relations: John Wiley & Sons.
  22. McCall, W.A. (1922). How to measure in education. New York: MacMillan.
  23. Norman, G.R., Sloan, J.A. & Wyrwich, K.W. (2003). Interpretation of changes in healthrelated quality of life: The remarkable universality of half a standard deviation. Medical Care, 41(5), 582592. doi:10.1097/0000565020030500000004
  24. Nunnally, J.C. & Bernstein, I.R. (1994). Psychometric theory (3th ed.). New York: McGrawHill.
  25. Obbarius, A., Van Maasakkers, L., Bear, L., Clark, D.M., Crocker, A.G. et al. (2017). Standardization of health outcomes assessment for depression and anxiety: recommendations from the ICHOM Depression and Anxiety Working Group. Quality of Life Research, 26, 115. doi:10.1007/ s1113601716595
  26. Schalet, B.D., Cook, K.F., Choi, S.W. & Cella, D. (2014). Establishing a common metric for selfreported anxiety: Linking the MASQ, PANAS, and GAD7 to PROMIS Anxiety. Journal of Anxiety Disorders, 28(1), 8896. doi:10.1016/j.janxdis.2013.11.006
  27. Schawo, S., Carlier, I.V., Van Hemert, A.M. & De Beurs, E. (2019). Measuring treatment outcome in patients with anxiety disorders: A comparison of the responsiveness of generic and disorderspecifi c instruments. Journal of Anxiety Disorders, 64, 5563. doi:10.1016/j.jamxdis. 2019.04.001
  28. Sloan, J.A., Cella, D. & Hays, R.D. (2005). Clinical signifi cance of patientreported questionnaire data: another step toward consensus. Journal of Clinical Epidemiology, 58(12), 12171219. doi:10.1016/j. jclinepi.2005.07.009
  29. Timman, R., De Jong, K. & De Neve-Enthoven, N. (2017). Cut-o¥ scores and clinical change indices for the Dutch Outcome Questionnaire (OQ-45) in a large sample of normal and several psychotherapeutic populations. Clinical Psychology & Psychotherapy, 24(1), 7281. doi:10.1002/ cpp.1979
  30. Van der Mheen, M., ter Mors, L.M., Van den Hout, M.A. & Cath, D.C. (2017). Routine outcome monitoring bij de behandeling van angststoornissen: diagnosespecifi eke versus generieke meetinstrumenten. Tijdschrift voor Psychiatrie, 59. doi:http://www.tijdschriftvoorpsychiatrie. nl/assets/articles/6020181artikelvandermheen. pdf
  31. Wahl, I., Löwe, B., Bjorner, J.B., Fischer, F., Langs, G. et al. (2014). Standardization of depression measurement: a common metric was developed for 11 selfreport depression measures. Journal of Clinical Epidemiology, 67(1), 7386. doi:10.1016/j.jclinepi.2013.04.019
  32. Williams, G., Flens, G. & De Beurs, E. (2017). Computer Adaptief Testen Moderne meettechniek voor uitkomstmaten. PsyXpert, 3(4), 1421. doi:https://www.psyxpert.nl/tijdschrift/editie/artikel/t/computergestuurdadaptieftestencat