Soms nuttig, soms niet: Adaptief toetsen genuanceerd

Karen Heij
Zelfstandig toetsexpert bij Parrhesia onderwijsadvies

APA

Heij, K. (2022). Soms nuttig, soms niet: Adaptief toetsen genuanceerd.
Geraadpleegd op 19-09-2024,
van https://wij-leren.nl/adaptief-toetsen-genuanceerd.php

Geplaatst op 8 november 2022

Er wordt al jaren gesproken over adaptief onderwijs en, in het verlengde daarvan, adaptief toetsen. Reikhalzend kijken we uit naar het moment dat de computer door slim rekenwerk de leerling vlot en moeiteloos op het juiste niveau plaatst. Toch blijft de echte adaptieve revolutie uit. Wat maakt dat de adaptieve toetsdroom zo beperkt werkelijkheid wordt? We vragen het Marc Binsbergen, hoofd afdeling Onderzoek en Psychometrie van Bureau ICE.

Laten we bij het begin beginnen: wat is adaptiviteit eigenlijk?

Adaptiviteit is een ander woord voor aanpassingsvermogen. Houtveen & Reezigt (2000) definieerden adaptief onderwijs op de volgende manier: ‘een onderwijskundig middel om doelen te bereiken bij kinderen die van elkaar verschillen in kenmerken die voor het onderwijs belangrijk zijn’. Aanpassingsvermogen kun je ook realiseren in toetssituaties.

Bij een adaptieve toets reageert niet alleen een kandidaat op de hem/ haar voorgelegde toetsvragen, maar ‘reageert’ de toets ook op de antwoorden van de kandidaat. Als een kandidaat een vraag correct beantwoordt, is de volgende vraag moeilijker. Als hij een vraag incorrect beantwoordt, is de volgende vraag makkelijker. De toets past zich dus aan de kandidaat aan op basis van de gegeven antwoorden.

We moeten dit niet verwarren met toetsen waarvan verschillende varianten aan leerlingen kunnen worden voorgelegd, afhankelijk van hun vaardigheid. Dat zou ik meer ‘toetsen op maat’ willen noemen. Bij adaptieve toetsen heb je het echt over toetsen waarvan de vragen zich aanpassen aan het niveau van de leerling, tijdens het maken van de toets.

Is een adaptieve toets ook altijd een digitale toets?

De eerste adaptieve toets stamt uit 1905 en er bestaan nog steeds toetsenbatterijen met korte voortoetsen die bepalen welke vervolgtoetsen er komen. Maar echte adaptiviteit binnen een toets op het niveau van de toetsvragen vraagt om veel rekenwerk en maakt de computer onontbeerlijk. De toetsvragen kunnen direct beoordeeld worden door het toetssysteem, waarna de computer onmiddellijk kan berekenen welke vervolgvraag passend is.

Echte adaptiviteit maakt de computer onontbeerlijk.

Wat heb je nodig om een adaptieve toets te maken?

Een aantal dingen. In de eerste plaats heb je zeer betrouwbare toetsvragen nodig waarvan je weet hoe moeilijk ze zijn en hoe goed ze discrimineren. Moeilijkheid wordt dan uitgedrukt in welke vaardigheid een kandidaat nodig heeft om de toetsvraag correct te kunnen beantwoorden. Discriminatievermogen van een toetsvraag betekent dat de vraag op de juiste manier onderscheid kan maken tussen de vaardigheidsniveaus van de kandidaten.

Daarnaast heb je veel vragen nodig, zogezegd een grote itembank. Er moet dus uitgebreid gepretest worden, met heel veel vragen – er vallen immers altijd vragen af die niet geschikt blijken te zijn – en bij de juiste doelgroep van voldoende grootte.

Naast de itembank zijn er regels en criteria nodig die vastleggen op welke manier vragen geselecteerd worden. Het systeem moet immers na iedere vraag of na een setje vragen bepalen wat de volgende vraag of set is. Dus moet je beslissen van welke moeilijkheid de eerste vraag (set vragen) moet zijn, hoe wordt bepaald hoeveel moeilijker of makkelijker de volgende vraag (set vragen) moet zijn en wanneer er genoeg vragen zijn gesteld opdat er met voldoende nauwkeurigheid is vastgesteld wat de vaardigheid van een kandidaat is.

Wanneer levert adaptiviteit echt wat op?

Over het algemeen worden aan (digitaal) adaptief toetsen drie grote voordelen toegekend ten opzichte van gefixeerde lineaire toetsen (met een vaste lengte en een vaste set items). De vaardigheid van een kandidaat wordt met grotere nauwkeurigheid bepaald (1) en dat gebeurt dan met een kortere toets (2). Daarbij krijgen kandidaten geen vragen die of veel te makkelijk of veel te moeilijk zijn, wat in beide gevallen frustrerend kan zijn (3).

Een goed gedocumenteerd voorbeeld van de ontwikkeling en uitvoering van een digitale adaptieve high-stakes test(batterij) die op grote schaal wordt afgenomen is de Armed Services Vocational Aptitude Battery (ASVAB) in de VS. Naast de digitale adaptieve versie wordt in dit geval nog steeds de papieren versie gebruikt. Gemiddelde toetstijd van de adaptieve test is 1,5 uur, die van de papieren versie is 3 uur. In Nederland is mogelijk het bekendste voorbeeld van het toepassen van adaptiviteit Rekentuin (zie http://www.rekentuin.nl), een adaptief online rekenoefenprogramma. Het ‘rekenwerk’ achter Rekentuin kent drie bijzondere eigenschappen (Straatemeijer, M., Van der Maas, H. & Klinkenberg, S., 2009):

Niet alleen van de leerlingen wordt de vaardigheid gemeten (die over tijd groeit), ook van de items wordt de moeilijkheid steeds opnieuw bepaald (met het toenemen van de data).
De regel is dat leerlingen niet 50% van de vragen goed moeten kunnen doen, maar 75%, hetgeen veel motiverender is.
De snelheid waarmee een leerling de vragen beantwoordt wordt meegenomen in de bepaling van de vaardigheid.

Zijn er nog meer voorbeelden in Nederland van goede adaptieve toetsen?

Nee. Die zijn mij niet bekend.

Welke nadelen kleven er aan adaptief toetsen? Wat zijn de beperkingen?

In principe meet een adaptieve toets de vaardigheid van een kandidaat op één construct (zoals rekenvaardigheid). In ons onderwijs werken we echter meer met vakken dan met vaardigheden. Een toets Aardrijkskunde bevat veel domeinen/onderwerpen en raakt aan veel vaardigheden. Een toets of examen wordt als goed en stevig ervaren (civiel effect) als deze een brede inhoudelijke dekking laat zien. Je wilt immers voldoende evidentie voordat je een uitspraak doet over iemands niveau of beheersing. Dat is niet per definitie de kracht van een adaptieve toets. Die ligt vooral in het snel en accuraat bepalen van de ‘overall’ vaardigheid. Zou je van zo’n brede inhoudelijke toets een adaptieve toets willen maken, dan zal de laatste ook aanzienlijk in lengte groeien.

Een ander nadeel is dat een adaptieve toets een kandidaat díe vragen voorschotelt die het beste passen bij zijn vaardigheid. Daardoor kunnen sterkere kandidaten (geheel) andere soort vragen krijgen dan minder sterke kandidaten. Denk bijvoorbeeld aan een adaptieve rekentoets in groep 5: die kiest vooral de vermenigvuldig- en deelvragen voor de vaardige leerlingen en de optel- en aftrekvragen voor de minder sterke leerlingen, als er niet ook regels gemaakt worden voor het minimaal aantal vragen per bewerking.

Omdat een adaptieve toets bijna altijd een digitale, direct beoordeelbare toets is heeft het ook de nadelen van een gesloten digitale toets. De toets zal hoofdzakelijk meerkeuzevragen bevatten en dat past niet altijd bij wat je wilt meten. Op dit moment is het automatisch digitaal beoordelen bij productieve vaardigheden (spreken, schrijven) nog toekomstmuziek. Ook de langere open-antwoord vragen kunnen niet zonder menselijke beoordelaar en zijn dus niet geschikt in een toets die direct moet kunnen reageren op het door de kandidaat gegeven antwoord.

De toets zal hoofdzakelijk meerkeuzevragen bevatten en dat past niet altijd bij wat je wilt meten.

Zoals gezegd is er veel ontwikkel- en testwerk nodig op een grote itembank om een goede adaptieve toets te maken. Dat is heel duur. En de vraag is of de ‘winst’ die daarmee wordt gemaakt die extra kosten waard is. Dat een adaptieve toets nauwkeuriger de vaardigheid van een kandidaat meet wil niet zeggen dat een gefixeerde lineaire toets onvoldoende nauwkeurig meet.

Dat een toets korter is, is niet per definitie een voordeel. Het geeft veel leerlingen een bevredigend gevoel als de inspanning die zij moeten plegen voor het maken van de toets in verhouding staat tot de inspanning die zij gedaan hebben om te leren voor een toets.

Verder gaat het bij het afnemen van toetsen meestal niet alleen om het eindoordeel, maar is juist de feedback op (delen van) de toets een essentieel onderdeel van toetsing. Het inrichten daarop maakt een adaptieve toets een nog complexere aangelegenheid.

En ten slotte; de meest effectieve regels achter de inrichting van een adaptieve toets leveren een systeem op dat werkt op ‘50% scores’: de helft van de vragen wordt correct beantwoord en de helft incorrect. Dit principe is niet per se heel motiverend voor kandidaten, het is veel prettiger als het overgrote deel van de vragen wel correct beantwoord kan worden.

Welke zin zou adaptiviteit kunnen hebben als je kijkt naar toetsing in het voortgezet onderwijs zoals we dat nu kennen?

Adaptiviteit betaalt zich uit als je van iedere kandidaat het individuele vaardigheidsniveau wilt bepalen in een situatie waarin óf niet of nauwelijks bekend is wat ieders vaardigheid is, óf bekend is dat er grote verschillen in vaardigheid zijn tussen de kandidaten in de doelgroep. In beide gevallen moet er namelijk geschat worden op welk niveau er gemeten moet worden om per kandidaat zo accuraat mogelijk te meten. Dat (grove) inschatten gebeurt in het onderwijs normaliter door de docent die zijn groep leerlingen kent of (ongeveer) weet wat het niveau zou moeten zijn op basis van eerdere (toets)resultaten. Maar als dat niet kan of niet mag[1] dan biedt een adaptieve toets een uitkomst (een voorschatter is ook een mogelijkheid).

Met name bij doelgroepen met een grote spreiding in vaardigheidsniveau zorgt een adaptieve toets ervoor dat ook de zwakste en sterkste leerlingen een toets aangeboden krijgen met zo weinig mogelijk (veel) te moeilijke of te makkelijke vragen. Daar waar ingrijpende beslissingen worden genomen in de onderwijsloopbaan van leerlingen op basis van hun vaardigheidsniveau is een zo accuraat mogelijke meting van groot belang. Natuurlijk kunnen ook summatieve toetsen als examens adaptief ingericht worden, alleen is er een aantal factoren die het gebruik van adaptiviteit veel minder aantrekkelijk maakt: de beperking op soorten toetsvragen, de dekking van ‘alle’ leerstof en de bekendheid van de items.

Niet iets voor de nabije toekomst?

Ik denk dat er nog heel wat water door de Rijn zal stromen voordat we adaptieve toetsing goed kunnen omarmen. En ik denk dat we tot dat moment uitstekend uit de voeten kunnen met de huidige manieren van toetsen.

Literatuur

Houtveen, A.A.M., & Reezigt, G.J. (2000). Succesvol adaptief onderwijs. Alphen a/d Rijn: Samsom.
Straatemeijer, M., Van der Maas, H. & Klinkenberg, S. (2009). Werken in de rekentuin. Spelenderwijs oefenen en meten. Volgens Bartjens, 28(5), 4-6.

[1] In het primair onderwijs wordt tot en met schooljaar 2016-2017 de Centrale Eindtoets als B- en als N-versie aangeboden. De docent bepaalt per leerling welke versie voor hem/haar het meest geschikt is. Dit laatste vindt de politiek niet meer wenselijk en daarom wordt de Centrale Eindtoets vanaf 2017-2018 opgevolgd door de adaptieve Centrale Eindtoets.

Heb je vragen over dit thema? Stel ze in de onderwijs community binnen de Wij-leren.nl Academie!