Karen Heij (2021) geeft in haar proefschrift Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs een kritische beschouwing van het nut van de Cito Eindtoets Basisonderwijs en de invloed ervan op de samenleving. In het laatste hoofdstuk, ‘Balans en Debat’, roept ze op tot een debat over een eerlijkere overgang van basisonderwijs naar voortgezet onderwijs in het licht van een rechtvaardige samenleving. Ze refereert hiermee aan het pleidooi dat A.D. de Groot (1966) hield in zijn boek Vijven en Zessen om toetsen te standaardiseren, schoolprestaties transparant te maken en objectieve meerkeuzetoetsen te gebruiken.
Tests kunnen behulpzaam zijn bij de emancipatie van sociaaleconomisch zwakkere groepen
Heij vindt dat het basisonderwijs zich te veel is gaan richten op wat de Eindtoets meet. Dat is in de eerste plaats taal en rekenen. Aangezien de Eindtoets nog steeds een rol speelt bij de advisering van leerlingen voor het vervolgonderwijs, bepalen taal- en rekenvaardigheid dus in hoge mate waar een leerling terechtkomt. Ook vindt Heij dat het basisonderwijs te veel in dienst staat van het voorbereiden op de arbeidsmarkt en te weinig van socialisatie en persoonsvorming. Selectie vindt al vroeg plaats en bepaalt daarmee iemands latere positie in de samenleving. Heij redeneert voorts dat aangezien 50% naar het vmbo gaat en 20% naar het vwo, onderwijs competitie is. Die pakt in het voordeel uit van de autochtone, goed opgeleide Nederlander. De overheid laat hiermee toe dat op ongelijke onderwijsuitkomsten wordt gestuurd en vindt mindere resultaten in zwakkere sociaaleconomische groepen acceptabel. De Eindtoets bevordert ongelijke kansen.
Door de nadruk van de Eindtoets op taal en rekenen, is het onderwijs versmald tot wat gemeten kan worden met objectief te beoordelen toetsen. De kennis over toetsing is belegd bij externe instituten als College voor Toetsen en Examens en Cito, en daarmee is de overheid de regie over onderwijs en toetsing kwijt. Heij vindt dat er meer aandacht dient te komen voor studievaardigheden en algemene ontwikkeling van cognitieve capaciteiten. Zij maakt een onderscheid tussen wat meetbaar is en wat ‘merkbaar’. Eenzijdige nadruk op meetbaarheid leidt tot verschraling, want belangrijke zaken die niet meetbaar zijn, blijven onderbelicht. De Eindtoets wordt ook gebruikt om onderwijskwaliteit te beoordelen, maar is hiervoor ongeschikt.
Onbewezen vooronderstelling
Onze korte samenvatting zal Heij’s proefschrift ongetwijfeld tekort doen, maar de hoofdzaken hebben we hopelijk wel genoemd. We maken enkele kanttekeningen vanuit de psychometrie en de selectiepsychologie en onderscheiden beoordelen en beleid. Het proefschrift oogt weliswaar grondig, maar lijkt ook uit te gaan van onbewezen vooronderstellingen. Zo lijkt Heij te vinden dat verschillen tussen leerlingen voornamelijk te wijten zijn aan verschillen in sociaaleconomische status van het gezin waaruit ze afkomstig zijn, en laat zij voor niet ‘weg te trainen’ verschillen geen ruimte. Waarop baseert zij dit? In Hoofdstuk 8 stelt Heij dat het intelligentiebegrip niet deugt en dat de psychometrie op vele terreinen tekortschiet, maar refereert ze eenzijdig en schuift ze een paar serieuze wetenschapsgebieden gemakkelijk terzijde. Waarom zo weinig nuance?
Ons voornaamste probleem met het proefschrift is dat alles in het teken staat van kritiek op het onderwijssysteem met de Eindtoets als grote boosdoener, en er geen alternatief wordt geboden.
Eindtoets
Het primair onderwijs is algemeen vormend, kinderen moeten zich optimaal kunnen ontwikkelen, samen met andere kinderen, en ondersteund door leraren en ouders. Onze basisscholen besteden veel aandacht aan taal en rekenen, geschiedenis, en aardrijkskunde, en ook aan sociale omgang, toneel, sport, en tekenen. Taal en rekenen zijn belangrijke vakken en we denken niet dat dit bij Heij ter discussie staat. Het begrijpen en correct leren toepassen van de syntax, grammatica en semantiek van de taal, evenals de logica van het rekenen, zijn verre van eenvoudig, vereisen veel oefening en zijn in het volwassen leven onmisbaar. Men moet toch de brieven die men van de gemeente ontvangt kunnen begrijpen en een huishouding kunnen voeren? Meerkeuzetoetsen zijn geschikt om deze vaardigheden te meten, maar ook andere toets- en beoordelingsvormen zijn mogelijk, zoals een opstel en het met rekenvaardigheid oplossen van een praktisch boodschappen of constructieprobleem.
Leerlingen moeten kunnen laten zien dat ze kunnen groeien, ook na de basisschool. Als de eerste verwijzing niet bleek te kloppen mag een leerling daar niet de dupe van worden. Dat stapelen of ‘opstromen’ lastiger is geworden, is een politieke keuze en kan men moeilijk de Eindtoets verwijten. Heij verwijt de Eindtoets mythische proporties. Dat is niet de schuld van de Eindtoets, maar van de manier waarop deze wordt gebruikt en hoe schoolcarrières worden bepaald. De discussie is: hoe kunnen we met inachtneming van individuele verschillen leerlingen het beste toewijzen aan vervolgonderwijs? Overigens is sinds 2015 het schooladvies leidend in de advisering, en moet de school dit advies alleen heroverwegen wanneer de Eindtoetsscore hoger is dan het schooladvies. De Eindtoets heeft dus een opwaarts effect bij de advisering van een leerling.
De mogelijkheden om te adviseren bij de schoolkeuze zijn groter dan Heij doet voorkomen. Ze gaat ervan uit dat de Eindtoets relatief genormeerde scores levert, waarbij altijd eenzelfde percentage leerlingen een bepaald advies krijgt, maar dat klopt niet. In de praktijk zijn de scores gerelateerd aan een vast prestatieniveau, en equivaleringsonderzoek zorgt ervoor dat rekening wordt gehouden met prestatieverschillen tussen verschillende groepen. Daardoor is het mogelijk dat over tijd het aantal adviezen voor een bepaald schooltype stijgt of daalt al naargelang de Eindtoetsprestaties.
Reduceren van sociaaleconomische ongelijkheid
Naast taal en rekenen zouden ook andere vaardigheden of eigenschappen kunnen worden meegewogen. Dat is aan ‘het democratisch debat’. Om willekeur te vermijden, moeten deze dan wel op een transparante, betrouwbare en valide wijze worden vastgesteld (‘getoetst’). Recent is er aandacht ontstaan voor intrapersoonlijke eigenschappen (bijvoorbeeld motivatie, persoonlijkheid) en interpersoonlijke vaardigheden (bijvoorbeeld sociale en communicatieve vaardigheden). Zij zijn moeilijk te meten, vooral als er veel van afhangt (Niessen & Meijer, 2017). En vergeet niet: net als bij taal en rekenen, hebben leerlingen uit sterkere sociaaleconomische groepen vaak een voordeel bij het aanleren van deze vaardigheden (Zwick, 2017, hoofdstuk 6).
Naarmate een toets meer cognitie meet zijn de verschillen in toetsscores tussen groepen met een verschillende etnische achtergrond groter (Dahlke & Sackett, 2017). De verschillen tussen groepen in bijvoorbeeld motivatie en – wellicht – studievaardigheden zijn vaak kleiner. Om verschillen tussen groepen te reduceren zou men dus relevante niet-cognitieve vaardigheden mee kunnen nemen. Het eect hiervan valt echter vaak tegen (Sackett & Ellingson, 1997), en soms nemen groepsverschillen toe (Sacket & Ellingson, 1997)! Het effect van het toevoegen van niet-cognitieve vaardigheden moet heel goed worden uitgezocht.
Tests kunnen behulpzaam zijn bij de emancipatie van sociaaleconomisch zwakkere groepen (Card & Giuliani, 2016). Zo leidde het gebruik van een intelligentietest ertoe dat meer kinderen uit minderheidsgroepen werden verwezen naar ‘talentenklassen’ dan alleen op basis van het advies van de leraar en de ouders gebeurde. Dit kennen we ook in Nederland. In een interview in NRC Handelsblad (5 juni 2021) illustreert oud-burgermeester en substituut ombudsman van Surinaamse afkomst Joyce Sylvester wat het effect is van het vertrouwen op andere zaken dan de Eindtoets. Op basis van de Eindtoets kon ze naar het vwo, maar het schooladvies was huishoudschool. ‘Oneerlijk, of het racisme was? Het was in ieder geval niet in de haak,’ concludeert ze na twee academische studies en een promotie. We moeten heel goed nadenken wat we doen als we ons gaan richten op alternatieven voor de Eindtoets.
Het gevaar van vertellen in plaats van tellen
Het combineren van toetsresultaten met andere informatie kan het beste worden gedaan door tevoren een regel op te stellen die voor iedere leerling dezelfde is (Niessen, Meijer & Neumann, 2019). Dat is transparant, eerlijk en valide, maar het reduceert ook het belang van het verhaal, het gevoel van de uniciteit van de leerling en de autonomie van de leraar, redenen waarom dit soort regels zelden wordt gebruikt. Kahneman (2011) wijst op het gevaar van het vertellen van een verhaal: ‘If people can construct a simple and coherent story, they will feel confident regardless of how well grounded it is in reality.’
Het beslissen volgens transparante regels – de kwantitatieve benadering – behoedt ons voor het vertellen van dit soort overtuigende maar onjuiste verhalen. Een leerling valt niet samen met een toetsscore, net zomin als wij onze bloeddruk of ons DigiD zijn. Door ons te concentreren op de meest succesvolle voorspellers, zijn we wel in staat een eerlijke beslissing te nemen over vervolgonderwijs. Het alternatief van het beschouwen van ‘heel de mens’ zonder transparante regels op te stellen die voor iedereen gelden, leidt tot ongelijke kansen.
Maatschappelijke kwesties
We zijn het met Heij eens dat onderwijs niet mag verworden tot toetstraining gericht op hoge Eindtoetsscores, maar basisonderwijs is veel meer dan dat. We zijn het niet met haar eens dat wat er niet zou deugen in het huidige onderwijs aan de Eindtoets ligt. Net zomin als je de thermometer de schuld van de klimaatproblematiek kunt geven, kun je de Eindtoets verwijten maken over de staat van het onderwijs, kansen op goed onderwijs, en gevolgen van de meritocratie. Discussie over wat we willen meten is natuurlijk mogelijk, maar thermometer en Eindtoets registreren verschillen in respectievelijk temperatuur en cognitieve vaardigheden en meer doen ze niet. Mensen kunnen de Eindtoets gebruiken op een manier waar je van alles van kunt vinden, maar dat is een kwestie van beleid en politiek.
Heij richt haar pijlen op de Eindtoets, maar maakt daarmee de complexe maatschappelijke en politieke invloeden op het onderwijs te klein. Zo heeft de overheid het onderwijs sterk gedecentraliseerd en veel zeggenschap bij de scholen gelegd, zoals Heij ook constateert. Is er draagvlak in samenleving, onderwijsveld en politiek om de regie weer terug te geven aan de overheid? Regelmatig wordt geconstateerd dat kinderen uit zwakkere sociaaleconomische groepen minder kansen krijgen. Goedopgeleide ouders kunnen hun kinderen helpen met huiswerk, sturen ze naar de school van hun keuze, en praten met docenten en schoolleiding. Willen we dat aan die keuzevrijheid een einde komt? Is daar draagvlak voor? Heij is van mening dat de Eindtoets de competitie tussen leerlingen aanwakkert, maar de echte competitie vindt buiten de klas plaats tussen de vele belangen die daar spelen.
Individuele verschillen tussen leerlingen blijven en de Eindtoets, hoe ook samengesteld, registreert ze. Ontkennen ervan leidt tot nieuw onrecht en het effect van alternatieve vaardigheden op het verkleinen van scoreverschillen kan tegenvallen. Bij het gebruik van de Eindtoets en onderwijskundig beleid over de plaats van de Eindtoets bij de selectie van leerlingen, dient men goed te begrijpen hoe toetsresultaten te combineren met andere informatie. Besliskunde en selectiepsychologie bieden deze kennis, maar beleidsmakers doen er niets mee. Een probleem is dat er vaak vanuit goede bedoelingen beleid wordt gemaakt dat averechts kan werken. Een voorbeeld is dat het toevoegen van zaken als studievaardigheid aan de beslissing niet hoeft te betekenen dat groepsverschillen zullen afnemen, terwijl het gebruik van een gestandaardiseerd instrument groepsverschillen kan verkleinen.
Rob R. Meijer is hoogleraar psychometrische en statistische technieken aan de Rijksuniversiteit Groningen. E-mail: r.r.meijer@rug.nl. Klaas Sijtsma is hoogleraar methoden en technieken van psychologisch onderzoek aan Tilburg University. E-mail: k.sijtsma@tilburguniversity.edu.
Literatuur
- Card D. & Giuliana, L. (2016). Universal screening increases the representation of low- income and minority students in gifted education. Proceedings of the National Academy of Sciences, 113, 48, 13678-13683.
- Dahlke, J.A. & Sackett, P.R. (2017). The relationship between cognitive-ability saturation and subgroup mean differences across predictors of job performance. Journal of Applied Psychology, 102, 1403-1420.
- Heij, K. (2021). Van de kat en de bel, tellen en vertellen met de eindtoets basisonderwijs. Academisch proefschrift, Tilburg University.
- Kahneman, D. (2011). Thinking, fast and slow. London: Penguin books.
- Niessen, A.S.M. & Meijer, R.R. (2017). On the use of broadened selection criteria in higher education. Perspectives on Psychological Science, 12, 436-448.
- Niessen, A.S.M., Meijer, R.R. & Neumann, M. (2019). Mis(ver)standen in de selectiepraktijk. Een goed verhaal maakt nog geen goede beslissing. De Psycholoog, 11(54), 46-55.
- Sackett, P.R. & Ellington. J.E. (1997). The effects of forming multiple predictor composites on group differences and adverse impact. Personnel Psychology, 50, 707-721.
- Zwick, R. (2017). Who gets in? Strategies for fair and eective college admissions. Cambridge, Massachusetts: Harvard University Press.
Reactie Karen Verheij
Geen toets verheven boven de kwaliteitsvraag
Toetsen zijn instrumenten die ingezet worden als we beslissingen moeten nemen over individuen die we niet kunnen of niet willen overlaten aan menselijke beoordelingen. Want de subjectiviteit daarvan is genoegzaam bekend en de zucht naar transparante, objectief uitvoerbare procedures is in dat licht begrijpelijk en legitiem. Maar als de getoetste en de toetser in een hiërarchische relatie staan waarbij de toetser beslissingen kan nemen waar de getoetste zich maar moeilijk tegen kan weren, dan is zorg geboden. Dan is de vraag relevant wie er baat bij hebben, wie er nadeel van ondervinden en moet vooral de balans opgemaakt worden of die uitkomst het waard is. Zoals in het geval van de Eindtoets.
Alertheid geboden
Testen en toetsen zijn volgens Meijer en Sijtsma te beschouwen als neutrale bepalers van soms aangename en soms onaangename werkelijkheden. Zij stellen dat uitkomsten op testen of toetsen beter in dankbaarheid kunnen worden aanvaard omdat aan menselijke beoordelingen ook nadelen kleven. En daar hebben zij een punt. Menselijke beoordelingen kunnen worden gekleurd door tal van niet op waarheid gebaseerde interpretaties. Testen en toetsen kunnen een andere, waardevolle blik op de werkelijkheid bieden. Maar daarmee zijn testen en toetsen en het gebruik ervan niet per definitie boven elke twijfel verheven.
Testen en toetsen zijn technologische instrumenten en aan technologische ‘oplossingen’ kleven naast voordelen ook risico’s en bezwaren (Madaus, 1994). Het fragmenteren van een samenhangende werkelijkheid die nodig is om meetinstrumenten te kunnen gebruiken, geeft per definitie een verbindingsprobleem met die te meten werkelijkheid. Het genereren van data kan de schijn van exactheid oproepen, maar exact is niet zomaar valide. Het is zaak oog te hebben voor de verstorende kant van technologieën zoals tal van meer recente voorbeelden, ook van buiten de toetswereld, duidelijk hebben gemaakt.
Testen en toetsen als beleidsinstrumenten
Als instrumenten in handen zijn van de overheid en verplicht worden opgelegd, komt daar onmiddellijk een niet te ontlopen verantwoordelijkheid achter vandaan: het bevragen van de kwaliteit van een instrument met het oog op maatschappelijke gevolgen. Want met beleidsinstrumenten kan een werkelijkheid worden vormgegeven.
Het meetbaar en daarmee zichtbaar maken, kan zelfs werkelijkheden laten ontstaan die er daarvoor niet waren. Zo kan een overheid enerzijds indicatoren bepalen om kwaliteit van onderwijs aan te willen pakken, daar instrumenten voor ontwikkelen en verplicht stellen, en anderzijds resultaten van de eigen geconstrueerde metingen gebruiken om het succes van haar beleid aan te tonen. Zo kan de overheid sturen op data die succes van de aanpak aantonen maar ook het tegendeel: ze kan data gebruiken om te sturen op veranderingen die zij wil realiseren. Testen en toetsen bezien in het licht van de werkelijkheid die wordt vormgegeven en daar vanuit maatschappelijk perspectief vragen bij stellen, is een gemeenschappelijke verantwoordelijkheid en des te belangrijker als er veel op het spel staat (high stakes) voor individu en samenleving.
Data die door gestandaardiseerde toetsen gegenereerd worden, zijn zelden ‘alleen maar’ scores op een toets voor een individu. Het individu en de score die hij behaalt, vormen veelal pionnen op een schaakbord waarop een ander spel gespeeld wordt. Dit beïnvloedt de (inhoudelijke) ontwikkeling van testen en toetsen. De ervaringen met de introductie van gestandaardiseerde ‘high stakes tests’ in de Verenigde Staten gericht op lezen en rekenen rond de afgelopen eeuwwisseling hebben laten zien dat vooral de schadelijke effecten op (de kwaliteit van) onderwijs per saldo de boventoon hebben gevoerd en dat de ambitie om ‘geen kind achter te laten’ eerder in het omgekeerde dreigde te ontaarden. De inzet van high stakes tests om de algehele kwaliteit van onderwijs te verbeteren bleek bijvoorbeeld als effect te hebben dat het curriculum zich beperkte tot datgene dat in de test aan bod kwam en de onderwijstijd werd substantieel ingevuld met het trainen voor een test. Dit bleek ten koste te gaan van met name het onderwijs aan vooral die leerlingen waar het programma met name voor bedoeld was, de kinderen uit achterstandsposities. (Ravitch, 2010, Koretz, 2017, Madaus, 2001, Nichols & Berliner, 2007).
Belangen die op het spel staan spelen een rol in de afwegingen die gemaakt worden bij de constructie en samenstelling van toetsen. De populariteit van de meerkeuzevraag is mede vergroot door de transparantie en objectiviteit bij het nakijken en het gemak waarmee data gegenereerd kunnen worden. Nu is er met een goed geconstrueerde meerkeuzevraag niet zoveel mis, maar zeker niet alles laat zich even goed met meerkeuzevragen bevragen. Wat kies je als inhoud van je toets als het werken met meerkeuzevragen een vereiste is? De gewenste vraagvorm is veelal de inhoud van hetgeen in de toets aan bod komt gaan bepalen.
Dit is ook gebleken uit de historische reconstructie van de totstandkoming van de Eindtoets (Heij, 2021). De digitalisering van het onderwijs, de dashboards en de behoefte leerstofgebonden toetsen goed af te stemmen op afsluitende toetsen en examens, maakt dat open vragen ook in methodes en hun toetsen meer en meer het veld hebben moeten ruimen en vervangen zijn door meerkeuzevragen die automatisch kunnen worden nagekeken en op die manier snel feedback genereren. Die pluspunten hebben echter ook een keerzijde als het gaat om de inhoud van het onderwijs. Want bepaalde leerdoelen verhouden zich moeizaam tot meerkeuzevragen en krijgen daarmee, als we niet uitkijken, minder aandacht. Dit kan verklaren dat de Inspectie in de laatste periodieke peiling heeft moeten vaststellen dat de schrijfvaardigheid van leerlingen in het basisonderwijs zich niet ontwikkelt zoals verwacht en beoogd.
Testen en toetsen staan niet op zichzelf
Testen en toetsen zijn hulpmiddelen, bedoeld om zicht te krijgen op een werkelijkheid die niet zomaar vast te stellen is. Hoe een individu is, wat hij kan, wat hij weet, ís niet direct vast te stellen. Daar kunnen we alleen maar een inschatting van maken op basis van een afspiegeling die we denken te kunnen maken van de waarheid die we zoeken. De ‘ware score’ van een persoon zullen we nooit kunnen kennen. Met behulp van soms zeer verfijnde psychometrische technieken wordt gezocht naar een zo goed mogelijke schatting want ‘de vaardigheid zelf wordt als niet-observeerbaar beschouwd, en daarom gewoonlijk omschreven als een latente vaardigheid’ (Cito, 2011). Verschillende psychometrische modellen zijn ontwikkeld om die ‘ware’ score zo goed mogelijk te benaderen. Maar hoe goed we de technieken ook inzetten, het blijven technieken die proberen een werkelijkheid te modelleren. En dat gebeurt op basis van aannames. Juist die aannames zijn relevant om te bevragen om uitkomsten op testen en toetsen op waarde te kunnen schatten. Te beginnen met het onderliggende construct.
Meijer en Sijtsma spreken in geval van de Eindtoets van ‘cognitie’ maar in de historie van de Eindtoets wordt gesproken over leerprestaties die samenhangen met eigenschappen waarnaar gezocht wordt (zie kader). Het is relevant te bevragen of een combinatie van taal- en rekenitems een goede afspiegeling vormt van dit vast te stellen construct en vervolgens of de specifieke combinatie van steekproeven in de vorm van de specifieke items uit de verschillende domeinen van taal en rekenen dit voldoende weten af te dekken, in aantal opgaven en in inhoud. En of we met alle psychometrische technieken op basis van de scores een goed beeld krijgen op individueel niveau. Gezien de belangen die op het spel staan is een afspiegeling met voldoende zekerheid op individueel niveau relevant. Want daar worden scores gekoppeld aan schooladviezen.
‘Het lijkt gerechtvaardigd te veronderstellen dat leerprestaties uit het verleden iets zeggen over leerprestaties in de toekomst. Verschillen in leerprestaties op de onderdelen van de Centrale Eindtoets kunnen vermoedelijk voor een belangrijk deel worden verklaard door verschillen in eigenschappen als ‘intelligentie’, ‘concentratie’, ‘motivatie’ en ‘doorzettingsvermogen’. Via de CE worden deze eigenschappen indirect en afgewogen gemeten; elke leerling heeft een ‘persoonlijke mix’. (CvTE, 2015)
De psychometrische technieken die bij de Eindtoets worden ingezet, zijn erop gericht dat leerlingen zo goed mogelijk kunnen worden vergeleken met elkaar waarbij het streven is dat de Eindtoetsen van jaar tot jaar vergelijkbaar zijn. ‘De equivaleringsprocedures zorgen ervoor dat de gemiddelde score en variantie daarin van jaar tot jaar vrijwel exact hetzelfde blijven’ (Cito, 2011). De gemiddelde score lag in 1988 op 535 en in 2019 op 536. Er wordt een jaarlijks vrij stabiele verdeling gerealiseerd over de schaal van 501 tot 550. Door de scores op die schaal te koppelen aan vaste schooladviezen1, ontstaat ook daarin een stabiele verdeling. Het percentage leerlingen dat een vwo-advies krijgt, varieert in de periode van 2009 tot en met 2019 van 18,1% in 2009 tot 19,4% in 2019. Dit percentage is nog altijd vergelijkbaar met het percentage leerlingen dat in 1966 een vhmo-advies kreeg in de stad Amsterdam, namelijk 20% (Amsterdamse Schooltoetsen, 1967). Het percentage leerlingen dat een vmb-advies krijgt, ligt net onder de 50% (49,9% in 2009 en 48,7% in 2018)2. Het is de combinatie van toets, psychometrie en beleid dat resulteert in een stabiel verdeelsysteem van individuele kinderen over de diverse vormen van voortgezet onderwijs.
Deze systematiek in combinatie met beleid en de gedifferentieerde manier waarop het voortgezet onderwijs in Nederland is vormgegeven, laat overigens de fundamentele vraag of voorspellen van schoolsucces überhaupt mogelijk of wenselijk is, naar de achtergrond verdwijnen. De toetsing en de adviezen die ermee gegenereerd worden legitimeren indirect het idee dat onderwijstoekomst te voorspellen is. Toetsing heeft daarmee een waarheid scheppende kracht die niet onderschat kan worden.
Verantwoordelijkheid nemen
Op de schouders van toetsenmakers en hun opdrachtgevers, veelal beleidsmakers, rust de verantwoordelijkheid zich niet alleen te beperken tot het nadenken over de toets die ze ontwikkelen maar ook over het te verwachten ‘terugslageffect’ op onderwijs en/of samenleving. Het is te gemakkelijk om, zoals Meijer en Sijtsma stellen, de omgang met uitkomsten van meetinstrumenten te positioneren als de verantwoordelijkheid van de ‘gebruiker’ of de ‘ontvanger’ die in hun optiek eigen verantwoordelijkheden hebben in het leven dat toetsuitslagen kunnen gaan leiden. De reikwijdte en verantwoordelijkheid van uitkomsten gaan veel verder dan gebruikers en ontvangers kunnen beïnvloeden. Een toets heeft impact, en die wordt bepaald door het instrument zelf, de uitslag, de manier waarop deze wordt gebruikt en hoe het systeem daarop is ingericht. Het afleggen van testen of toetsen is zelden vrijblijvend.
Individuele leerlingen hebben niet de keus om wel of niet aan een toets deel te nemen. Scholen krijgen, zoals nu bij de Eindtoets en de toetsen van het LVS, de verplichting opgelegd om deze toetsen af te nemen. Die toetsen zijn ook bedoeld om individuele leerlingen met elkaar te vergelijken maar ook om scholen met elkaar te kunnen vergelijken. En die vergelijkingen hebben gevolgen: voor het individu en voor de school. En hoewel onderwijs primair bedoeld is om een plek te bieden aan diversiteit, eist de toetssystematiek van ons dat we leerlingen en scholen op één unidimensionele schaal zetten en hen marginaliseren tot de score die ze behaald hebben. Dit doet geen recht aan individuen die veel meer zijn dan een optelsom van taal en rekenen, ook als het aankomt op hun cognitie maar ook niet aan scholen die, gelukkig, veel meer bieden dan alleen die vakgebieden en streven naar een brede ontwikkeling van hun leerlingen.
Toetsing gaat niet alleen over de vraag wat je meet en hoe goed je dat doet maar ook over de vraag ten koste van wat en van wie en vooral de vraag of dat het waard is (Nichols, 2007). En die vraag naar de waarde van Eindtoets, de validiteit ervan, heb ik met mijn proefschrift gepositioneerd als de olifant in de onderwijskamer. We kunnen niet nadenken over kwaliteit van onderwijs, kansengelijkheid of inclusiviteit zonder de Eindtoets daar in al z’n terechte voors en tegens in mee te nemen, te bevragen en ter discussie te durven stellen. Juist om testen en toetsen de waarde te laten behouden die ze wél kunnen hebben is het van belang stil te durven staan bij de beperkingen die ze nu eenmaal ook hebben.
Dit alles, en zeker ook mijn proefschrift, is geen pleidooi om te stoppen met het gebruik van meetinstrumenten of halsoverkop nieuwe, andere meetprogramma’s op te tuigen. Ik sluit me dan ook graag aan bij de zorg van Meijer en Sijtsma om niet zomaar alternatieven voor de Eindtoets te gaan omarmen. Het voorbeeld van de Eindtoets maakt juist duidelijk dat we zowel aan de voorkant, gedurende de implementatie én achteraf, heel goed moeten nadenken over wat toetsing doet en wat het teweegbrengt, in brede zin: voor de leerling, voor de school en voor de samenleving. Juist daar waar toetsen ingebed worden in systemen is er een gezamenlijke verantwoordelijkheid om hierover een discours tot stand te brengen, ook door de toetsontwikkelaars zelf.
Het stelt ons voor de vraag, die niets minder dan uitdagend is: hoe gaan we in gesprek over de systematiek die we hebben gecreëerd? Waar is correctie nodig en waar niet? Wat willen we als samenleving en wie hebben daar een stem in?
Tot nu toe vind ik het angstwekkend stil.
Karen Heij is taalkundige en al meer dan 35 jaar werkzaam in de wereld van toetsen en examens (waaronder in de rol van algemeen directeur bij Bureau ICE, van 2002-2016). Zij onderzocht in haar proefschrift Van de kat en de bel, tellen en vertellen met de eindtoets basisonderwijs de rol van de Eindtoets op onderwijs en samenleving. Het proefschrift is via haar site www.parrhesiaonderwijsadvies. nl te bestellen of te downloaden.
Bronnen in tekst:
- Staatscourant, 25 juni 2018
- Vanaf 2019 is Havo geen aparte categorie meer maar samengenomen met vmbo-gt-havo of vwo.
Literatuur
- Madaus, G. (1994). A technological and historical consideration of equity issues associated with proposals to change the nation’s policy.Harvard Educational Review, 64(1), 76–96.
- Madaus, G., & Clarke, M. (2001). The adverse impact of high stakes testing on minority students: Evidence from one hundred years of test data. In G. Orfield, & M. L. Kornhaber (Eds.), Raising standards or raising barriers? Inequality and high-stakes testing in public education. New York: The Century Foundation Press.
- Koretz, D. (2017).·The testing charade: Pretending to make schools better. Chicago: University of Chicago Press.
- Nichols, S. L., & Berliner, D. C. (2007). Collateral damage: How high-stakes testing corrupts America’s schools. Massachusetts: Harvard Education Press.
- Ravitch, D. (2016). The death and life of the great American schoolsystem: How testing and choice are undermining education. New York: Basic Books.
Prlwytzkovski versus Sickbock
In de Bommelverhalen van Marten Toonder figureren twee prominente wetenschappers. De goedaardige en naïeve Prlwytzkovski maakt doorgaans een machine of meetapparaat, maar kan de consequenties van zijn uitvinding niet overzien. Sickbock is daarentegen de kwade genius die misbruik maakt van machines en meetapparatuur met perfide oogmerken.
Meijer en Sijtsma beargumenteren dat de Eindtoets een adequaat instrument is voor het (mede-) adviseren van een vervolgopleiding en dat onjuist gebruik van de Eindtoets door de politiek, overheid en ook scholen niet aan de toets zelf mag worden geweten. In haar reactie stelt Heij dat toetsontwikkelaars dan hun ‘verantwoordelijkheid’ niet nemen. In wezen schrijft zij Meijer en Sijtsma (en andere psychometrici) daarmee een hoog Prlwytzkovski- gehalte toe, omdat zij geen oog voor de Sickbock-effecten van de Eindtoets in de praktijk zouden hebben. Heij heeft in haar proefschrift echter niet overtuigend kunnen aantonen dat de inhoud van de Eindtoets in essentie is veranderd als gevolg van onjuist gebruik door politiek, overheid en scholen. Met andere woorden: Sickbock zit niet in de Eindtoets zelf, maar in wat maatschappelijke instituties ermee doen. Je kunt autoproducenten ook niet van moord met voorbedachten rade beschuldigen, louter omdat roekeloos rijden of verhoging van de maximumsnelheid tot (meer) verkeersdoden leidt. Ik ben het dus met Meijer en Sijtsma eens dat doel en inhoud van een meetinstrument moeten worden onderscheiden van (onjuist) gebruik. Natuurlijk mogen ook doel en inhoud ter discussie worden gesteld, maar dan wel op juiste gronden.
Intelligentie
In haar proefschrift wijdt Heij (2021) veel pagina’s aan intelligentie en IQ. Haar begrip van intelligentietheorie is echter gestoeld op verouderde, zelfs betwiste literatuur (zoals die van Piet Vroon of paleontoloog Stephen Jay Gould). Daardoor geeft zij een eenzijdige visie op het naturenurturedebat in intelligentie met A.D. de Groot als kop van Jut. Intelligentie wordt allang niet meer gezien als uitsluitend aangeboren. Veeleer wordt intelligentie opgevat als een optelsom van genetische aanleg en de verdere ontwikkeling van dat potentieel door een stimulerende omgeving, scholing en goede gezondheidszorg (Brody, 1992; Sternberg, 1996). Intelligentie kan worden beschouwd als een gereedschapskist met een verworven repertoire aan basale cognitieve gereedschappen (‘operaties’), waarbij aantal, reikwijdte en kwaliteit van dat gereedschap de intellectuele capaciteit bepalen (Elshout, 2003; Snow & Lohman, 1984; Veenman, 2008). Een intelligentietest neemt een (representatieve) steekproef uit dat cognitieve repertoire. De inhoud van die gereedschapskist is dus geen statisch gegeven, maar kan evenmin worden opgekrikt middels een relatief korte training. Het kost namelijk tijd en moeite om (nieuwe) gereedschappen adequaat te leren hanteren in allerlei situaties.
Waarom dit exposé over intelligentie? In opmaat tot kritiek op de Eindtoets, maakt Heij (2021, pp. 46, 230, 259-260) onvoldoende onderscheid tussen intelligentietests en schoolvaardigheidstoetsen. De twee soorten tests meten echter conceptueel verschillende constructen. Een intelligentietest meet algemene, basale kennis en vaardigheden die toepasbaar zijn op een breed spectrum aan cognitief functioneren (Carroll, 1993). Schoolvaardigheidstoetsen, zoals de SAT (Scholastic Assessment Test) en de Eindtoets, meten het bereikte niveau van schoolse kennis en vaardigheden in taal en rekenen om toekomstige leerprestaties te kunnen voorspellen. Het is niet verwonderlijk dat scores op deze tests onderling correleren, omdat intelligentie een relevante predictor van leerprestaties is (Veenman, 2008). Correlaties tussen IQ en Cito-scores blijken echter verre van perfect (.41-.79; Bartels, Rietveld, van Baal, & Boomsma, 2002; Testhandleiding GIVO). Een correlatie van .79 lijkt veel, maar betekent dat beide testscores hooguit 62% gemeenschappelijk hebben. Ook deSAT is gerelateerd aan intelligentie, maar blijkt een substantiele predictor van schoolresultaten na verwijdering van intelligentie (Coyle & Pillow, 2008). Derhalve dienen schoolvaardigheidstoetsen niet louter als verlengstuk van intelligentietests te worden beschouwd.
Schooladvies
Heij betoogt dat de Eindtoets een beperkt bereik heeft qua schoolse vaardigheden door de nadruk op taal en rekenen te leggen. Terecht stellen Meijer en Sijtsma dat taal en rekenen essentiële vaardigheden zijn die toekomstig functioneren in vervolgonderwijs én alledag bepalen. Bovendien is niet de Eindtoets maar het schooladvies leidend voor de toewijzing aan vervolgonderwijs, waarin de Eindtoets louter een opwaarts corrigerend effect kan hebben. Kán hebben, omdat scholen zo’n Eindtoetsresultaat niet hoeven over te nemen.
Het is daarom merkwaardig dat Heij de Eindtoets als zondebok aanmerkt, terwijl zij nauwelijks haar pijlen richt op de wijze waarop het schooladvies tot stand komt. Het leerkrachtoordeel als onderdeel van het schooladvies valt bepaald niet onder wat Meijer en Sijtsma transparante toetsing noemen. Verder is het een gemiste kans dat Heij nauwelijks aandacht besteedt aan alternatieve selectiecriteria en adequate meetmethoden. Met haar eenzijdige kritiek op de Eindtoets gedraagt Heij zich als Drs. Pieps, de rebelse maar ignorante assistent van Prof. Prlwytzkovski uit de Bommelsaga, die onbedoeld Sickbock in de kaart speelt.
De bovenstaande reacties overziend, zijn wij het op één punt eens: de Eindtoets zou niet tevens moeten worden gebruikt als meetinstrument voor onderwijskwaliteit met alle perverterende gevolgen van dien. Daar ligt een verantwoordelijkheid voor overheid én scholen. Die overheid zou stapelen of ‘opstromen’ niet als economisch redundant moeten beschouwen, maar juist als mogelijkheid om te laag ingeschatte leerlingen of laatbloeiers recht te doen.
Dr. Marcel V.J. Veenman is psycholoog en directeur/oprichter van het Instituut voor Metacognitie Onderzoek. Ook is hij lid van de redactieraad van De Psycholoog. E-mail: mvjveenman@kpnmail.nl.
Literatuur
- Bartels, M., Rietveld, M.J.H., van Baal, G.C.M. & Boomsma, D.I. (2002). Heritability of educational achievement in 12-year olds and the overlap with cognitive ability. Twin Research, 5, 544-553.
- Brody, E.B. (1992). Intelligence: Nature, determinants, and consequences. (New York: Academic Press).
- Carroll, J.B. (1993). Human cognitive abilities. A survey of factor-analytic studies. Cambridge: Cambridge UP.
- Coyle, T.R. & Pillow, D.R. (2008). SAT and ACT predict college GPA after removing g. Intelligence, 36, 719-729.
- Elshout, J.J. (1983). Is measuring intelligence still useful? In S. B. Anderson & J.S. Helmick (Eds.), On educational testing (pp. 45-56). San Francisco: Jossey-Bass.
- Heij, K. (2021). Van de kat en de bel, tellen en vertellen met de eindtoets basisonderwijs. Academisch proefschrift, Tilburg University.
- Snow, R.E., & Lohman, D. F. (1984). Toward a theory of cognitive aptitude for learning from instruction. Journal of Educational Psychology, 76, 347-376.
- Sternberg, R. J. (1990). Myths, countermyths, and truths about intelligence. Educational Researcher, 25(2), 11-16.
- Veenman, M.V.J. (2008). Giftedness: Predicting the speed of expertise acquisition by intellectual ability and metacognitive skillfulness of novices. In M.F. Shaughnessy, M.V.J. Veenman & C. Kleyn-Kennedy (Eds.), Meta-cognition: A recent review of research, theory, and perspectives (pp. 207- 220). Hauppage: Nova Science.