Meerkeuzeopgaven van de Cito-spellingtoets zijn echt niet valide

Anna Bosman
Hoogleraar bij Radboud Universiteit Nijmegen

APA

Bosman, A. & Schraven, J.L.M. (2015) Meerkeuzeopgaven van de Cito-spellingtoets zijn echt niet valide.
Geraadpleegd op 19-09-2024,
van https://wij-leren.nl/spelling-cito-toets-meerkeuze.php

Geplaatst op 1 juni 2015

Dit artikel is samen geschreven met José Schraven.

Samenvatting

In ons eerste artikel over de problemen met de meerkeuzeopgaven van de Cito-spelling toetsen lieten we op empirische wijze zien dat de betrouwbaarheid en validiteit van de M4 onvoldoende zijn en dat gebruik in het onderwijs niet gerechtvaardigd is (J.L.M. Schraven, Bosman & van Eekhout, 2010).

In ons tweede artikel (Bosman, J.L.M. Schraven & van Eekhout, 2010), dat een reactie was op de kritiek die de Wijs (2010) had op onze conclusies, bespraken we nogmaals onze bezwaren tegen het toetsen van spellingvaardigheid door middel van meerkeuzeopgaven. De belangrijkste conclusies waren dat meerkeuzeopgaven geen valide meting van het spellingniveau opleveren, geen diagnostische waarden hebben en dat de spellingtoets de didactiek van het spellingonderwijs negatief beïnvloedt.

De aanleiding om dit artikel te schrijven is de kritiek van het Cito dat wij onze negatieve conclusies baseren op een kleine, homogene steekproef (goede leerlingen uit groep 4). Overigens lieten we onlangs zien dat precies dezelfde conclusie getrokken kon worden voor de meerkeuzetoets M7 (Bosman & J.L.M. Schraven, 2013). Desondanks is het Cito niet overtuigd. Om die reden hebben we additioneel onderzoek gedaan.

Op basis van nieuwe empirische gegevens (n = 151) laten we voor de derde keer zien dat een meerkeuzespellingtoets niet valide is om de spelling van leerlingen in het basisonderwijs te meten. De conclusie luidt dus andermaal dat meerkeuzeopgaven geen valide meting van het spellingniveau opleveren en op geen enkele wijze diagnostische informatie kunnen verschaffen en daarom geen didactische waarde hebben.

Inleiding

In haar bijdrage aan de discussie over de Cito-spellingtoets stelde de Wijs (2010) dat onze bezwaren ten aanzien van de betrouwbaarheid en validiteit van het meerkeuzeonderdeel ongegrond waren. Het feit, dat wij onze conclusies destijds baseerden op de empirische gegevens van één klas van 18 leerlingen uit Groep 4, was voor De Wijs voldoende reden om onze bezwaren weg te wuiven. Bovendien, zo werd gesteld, betrof het een homogene groep van goed presterende leerlingen en dan was het te verwachten dat de betrouwbaarheid en validiteit laag waren.

Dat men bij het Cito (en de Cotan) niet begrijpt dat wij een falsificatiestudie hebben verricht is op zijn minst zorgwekkend. Dat ook sinds de publicatie van B. Schraven (2013), waarin hij een theoretisch-methodologische verhandeling geeft over de juistheid van het door ons uitgevoerde onderzoek, er nog steeds geen reactie van het Cito komt is uitermate teleurstellend.

Argumenten (Bosman & J.L.M. Schraven, 2010, 2013; J.L.M Schraven, Bosman & van Eekhout, 2010) lijken niet het gehoor te vinden waarop we hoopten. Om die reden hebben we besloten om alsnog additioneel empirisch bewijs te leveren voor onze stelling dat meerkeuzeopgaven van de Cito-spellingtoets echt niet valide zijn.

Wat ging er aan vooraf?

In 2010 publiceerden Schraven et al. hun onderzoek, met 18 leerlingen uit Groep 4, over de betrouwbaarheid en validiteit van de M4 Cito-spellingtoets. Aan deze leerlingen werd gevraagd om de toets te maken zoals in de handleiding wordt voorgeschreven. Dit betekent dat de leerlingen eerst Deel 1 maakten, een dictee van 25 woorden, ook wel aangeduid met Startwoorden.

Vervolgens deden alle leerlingen Deel 2, aangeduid met Vervolg 2. Dit deel bestaat uit 25 meerkeuzeopgaven. Hier moeten de leerlingen aangeven welk van de vier vetgedrukte woorden in vier verschillende zinnen fout gespeld is. In Figuur 1 staat een voorbeeld. Een week later kregen alle leerlingen een dictee over de 25 fout gespelde dikgedrukte woorden. Op basis van gedetailleerde vergelijkingen kwamen we tot een aantal belangrijke conclusies.

A   Ben je in de zomer op vakantie geweest?
B   De caviea van de buren heet Sammie.
C   Mijn moeder heeft een taart gebakken
D   Weet jij waarom hij zo raar doet?

Figuur 1. Voorbeeldopgave Spelling M4 Vervolg

De eerste was dat de correlatie tussen de scores op het dictee en die van de meerkeuzetoets beneden de maat was, r = 0.45.

Op de tweede plaats bleek dat de groep leerlingen het dictee gemiddeld genomen beter maakten dan de meerkeuzetoets (het verschil was 6% en significant). Er waren echter grote individuele verschillen; sommige kinderen maakten het dictee beter en andere juist de meerkeuzetoets.

Een derde belangrijke constatering was dat er een discrepantie of inconsistentie bleek te bestaan van 25.8% tussen de spelling van de woorden op het dictee en de door de leerlingen aangekruiste woorden in de meerkeuzetoets. In 16.0% van de gevallen deden zij het goed bij het dictee en fout bij de meerkeuzetoets en 9.8% fout bij het dictee en goed bij de meerkeuzetoets.

De vierde en belangrijkste conclusie uit deze studie was dat de spelfouten die in de meerkeuzetoets stonden voor een belangrijk deel niet de spelfouten waren die leerlingen maakten. Dat betekent dat we er niet van uit kunnen gaan dat een leerling die het fout gespelde woord, bijvoorbeeld SWAK, niet had aangestreept dit woord ook daadwerkelijk fout spelt op het dictee.

Sterker nog, deze spelfout kwam vrijwel niet voor, ondanks dat de meerderheid van de leerlingen het woord gemist had in de meerkeuzeopgave. We gaan hier niet in op de mogelijke redenen voor deze discrepantie. In onze vorige publicaties hebben we daar uitgebreid bij stil gestaan. Onze conclusie luidde dan ook dat de meerkeuzetoets geen valide alternatief is voor een dictee.

Zoals gezegd werd het empirisch bewijs dat we leverden niet aanvaard door het Cito, omdat er slechts 18 leerlingen deel hadden genomen aan het onderzoek. Ook niet nadat eenzelfde studie verricht was bij 23 leerlingen van Groep 7 met dezelfde resultaten en met dezelfde conclusie, namelijk dat het meerkeuzeonderdeel niet valide is (Bosman & J.L.M. Schraven, 2013).

Hoewel wij het argument van de groepsgrootte niet steekhoudend vinden, is ons er alles aan gelegen om het Cito te laten inzien dat de toets inadequaat is en geen onderdeel meer mag vormen van een leerlingvolgsysteem. Als een empirisch bewijs met een grotere groep het Cito wel overtuigt, dan zijn wij graag bereid dat te leveren.

In deze studie worden de spellinggegevens van een groot aantal leerlingen geanalyseerd. We zullen laten zien dat wanneer een onderzoeker slechts naar het gemiddelde kijkt, deze ten onrechte tot de conclusie kan komen dat de toetsen psychometrisch hetzelfde zijn. Aan de hand van gedetailleerde analyses laten we zien, dat het vaststellen van het spellingniveau en het afleiden van specifieke problemen met de spelling op basis van scores op meerkeuzeopgaven niet mogelijk is.

Methode

Aan dit onderzoek nam een groep van 151 leerlingen deel van een basisschool in Hilversum. Het betrof 42 leerlingen uit Groep 4, 47 leerlingen uit Groep 5, 30 Leerlingen uit Groep 7, en 32 leerlingen uit Groep 8. Door een miscommunicatie met de leerkracht uit Groep 6 zijn er geen gegevens van deze groep beschikbaar. In januari 2013 namen de groepsleerkrachten van de deelnemende groepen de M-versies van de Cito-spellingtoetsen af. In alle gevallen maakten de leerlingen eerst Deel 1, het dictee, gevolgd door Deel 2, het meerkeuzeonderdeel van de toets. Een week later kregen alle leerlingen een dictee over de fout gespelde woorden uit het meerkeuzeonderdeel van de toets.

Resultaten

De bevindingen worden in vier delen gepresenteerd. De eerste analyse laat zien of er een discrepantie of inconsistentie is op groepsniveau. Vervolgens wordt naar de inconsistentie op woordniveau gekeken. Anders gezegd, zijn woorden die niet als fout herkend worden op de meerkeuzetoets ook de woorden die problemen opleveren op het dictee.

Daarna wordt de belangrijkste vraag beantwoord in welke mate de antwoorden op de meerkeuzetoets overeenkomen met die op het dictee. Dat wil zeggen, is het zo dat een leerling die een spelfout mist op de meerkeuzetoets, dit woord ook fout spelt op het dictee en daarbij dezelfde spelfout produceert die door het Cito in de meerkeuzetoets is aangebracht.

En andersom, als een leerling correct de spelfout van een opgave aanstreept, spelt deze leerling dit woord dan ook correct op het dictee. Ten slotte bespreken we de variatie aan spelfouten die op het dictee gemaakt wordt.

(In)consistentie op groepsniveau

In Tabel 1 staat een overzicht van de scores op de meerkeuzeopgaven en van dezelfde woorden in het dictee. Op basis van de scores van de totale groep leerlingen bestond er geen verschil tussen de prestaties op de meerkeuzetoets en het dictee. De totale groep leerlingen behaalde op beide toetsen een score van 80% correct.

Een eerste nuancering wordt aangebracht door de scores per groep te bezien. In het geval van Groep 4 bleek de prestatie op het dictee gunstiger dan op de meerkeuzetoets en dit verschil was ook statistisch significant. Deze bevinding repliceert die van de studie van Schraven et al. (2010). Ook daar bleek bij leerlingen uit Groep 4 het dictee significant beter gemaakt te zijn dan de meerkeuzetoets (het verschil was daar 6%-punt en hier is het 8%-punt).

De scores van de Groepen 5 en 7 waren statistisch hetzelfde, het verschil ten gunste van de meerkeuzetoets was niet significant verschillend. In het geval van Groep 8 bleek de prestatie op de meerkeuzetoets wel significant beter dan die op het dictee. Een mogelijke verklaring hiervoor is dat leerlingen in Groep 8 al veel geoefend hebben met meerkeuze-opgaven.

Als een meerkeuzetoets een valide maat oplevert voor spellingvaardigheid zou die hoog moeten correleren met het dictee. Deze correlatie blijkt voor de totale groep laag te zijn. Een correlatie van .54 voor spellingvaardigheidstoetsen is psychometrisch onvoldoende. Dit betekent dat de hoeveelheid gedeelde variantie nog geen 30% bedraagt.

Ook de hoogte van deze samenhang is een replicatie van de bevinding uit het onderzoek van Schraven et al. (2010) waarin een kleinere steekproef participeerde. Uit de correlatiecoëfficiënten van de vier onderscheiden groepen blijkt deze met name heel laag te zijn voor de Groepen 4 en 5, en wat acceptabeler in de Groepen 7 en 8.

Tabel 1. Overzicht van de gemiddelde goedscores (in %) per groep en hun samenhang

Geeft een lage correlatie al aan dat de meerkeuzetoets niet dezelfde score oplevert als het dictee voor eenzelfde leerling dan blijkt dat al helemaal uit Tabel 2. Deze tabel laat zien dat in de totale groep van 151 leerlingen slechts 23 leerlingen (15%) een score hadden op de meerkeuzetoets die hetzelfde is als op het dictee.

Deze percentages binnen de vier onderscheiden groepen liepen daarin niet sterk uiteen. Zoals ook al bleek bij ons eerste onderzoek in Groep 4 (Schraven et al., 2010) en bij een vervolgstudie in groep 7 (Bosman & Schraven, 2013) moet geconstateerd worden dat de meerkeuzetoets geen valide meting oplevert van het spellingniveau.

Dat de prestaties op de twee toetsen dramatisch uiteen kunnen lopen, wordt aangetoond door de (maximale) individuele verschillen tussen scores op de twee toetsen. Dit was met name zichtbaar in Groep 4. Daar was een leerling die 92% correct had op het dictee en slechts 24% op de meerkeuzetoets.

Tabel 2. Percentages leerlingen met betere, slechtere of dezelfde prestaties op de meerkeuzetoets als op het dictee

Om de globale vergelijking op groepsniveau af te sluiten worden in Tabel 3 de consistentiematen gepresenteerd. De scores op een item uit de meerkeuzetoets en het dictee kunnen consistent genoemd worden in het geval de leerling op de meerkeuzetoets het fout gespelde woord aanstreepte en dat woord vervolgens ook correct spelde op het dictee, èn in het geval de leerling op de meerkeuzetoets het fout gespelde woord niet aanstreepte en dat woord dan ook fout spelde op het dictee.

Overigens betekent dit niet dat de leerling het woord verkeerd spelde op de wijze zoals Cito dat bedacht heeft in de meerkeuzetoets (zie hieronder). In alle andere gevallen was er een inconsistentie tussen de prestaties op de meerkeuzetoets en het dictee. Uit de cijfers van Tabel 3 blijkt dat 27% (14 + 13) van de scores over de hele groep genomen inconsistent is.

Dit percentage representeert op redelijke wijze de onderscheiden groepsscores. Opnieuw een bevinding die overeenkomt met die van onze eerdere studie (Schraven et al., 2010). Daar was het percentage inconsistente scores 26%.

Tabel 3. Consistentie tussen de scores op de meerkeuzetoets (MK) en het dictee (in percentages) van het totaal aan de groep aangeboden woorden

(In)consistentie op woordniveau

In de Tabellen 4 en 5 worden de percentages correct van elk item uit de meerkeuzetoets en het dictee gepresenteerd. Gemiddeld genomen, dus over alle woorden, zijn die verschillen klein en voor een aantal woorden liggen de percentages niet erg ver uit elkaar; voor andere woorden liggen die percentages ver uit elkaar.

Zo vertoont in M4 het woord FLOT de grootste discrepantie. Het fout gespelde woord werd slechts in 62% van de gevallen aangemerkt als het fout gespelde woord in de meerkeuzetoets. Op het dictee had echter 90% van de leerlingen het woord correct geschreven. Wat M5 betreft springt met name het woord ALLEBIJ eruit; 79% van de leerlingen streepte dit woord terecht aan als het fout gespelde woord, maar op het dictee had slechts 19% van de leerlingen het woord correct gespeld.

In M7 vertoont het woord WINARES de grootste discrepantie; 93% van de leerlingen uit Groep 7 merkte dit woord aan als het fout gespelde woord, maar op het dictee wist slecht 53% het woord correct op te schrijven. Ten slotte valt in M8 het woord GEZAMELIJK op. In Groep 8 gaf 81% van de leerlingen correct aan dat dit woord fout gespeld is, maar op het dictee wist slechts 28% het woord correct op te schrijven.

Hoewel we hier inderdaad de grootste verschillen tussen de meerkeuzetoets en het dictee hebben besproken en men zou kunnen tegenwerpen dat in veel gevallen de verschillen niet dramatisch groot zijn, is het wel van belang dat men zich realiseert dat het hier niet noodzakelijk dezelfde leerlingen betreft.

Dat wil zeggen, als het woord goed aangemerkt is door een bepaalde leerling op de meerkeuzetoets dan wil dat niet zeggen dat dit woord door dezelfde leerling correct wordt geschreven. De mate waarin de individuele spellingen van leerlingen consistent zijn wordt in de volgende paragraaf onderzocht.

Tabel 4. Itemscores (in % correct) op Meerkeuzetoetsen en het Dictees van M4 en M5.

Tabel 5. Itemscores (in % correct) op Meerkeuzetoetsen en het Dictees van M7 en M8.

(In)consistentie op leerling- en woordniveau

Voor het onderwijs is het van belang dat uit een antwoord van een leerling op de meerkeuzeopgave een juiste conclusie getrokken kan worden over de aan- of afwezige spellingkennis van een leerling. Daarom is de enige relevante consistentiemaat de overeenkomst tussen het antwoord van een leerling op de meerkeuzetoets en het dictee.

Daartoe moest bepaald worden of een leerling die een woord niet als fout herkende in de meerkeuzetoets dit woord ook daadwerkelijk fout spelde op het dictee, maar ook of een leerling die het woord inderdaad aanmerkte als incorrect op de meerkeuzetoets, dit woord vervolgens ook correct spelde op het dictee.

Tevens zal een leerling die het fout gespelde woord niet opmerkt, de foute spelling zoals door het Cito aangebracht in de meerkeuzetoets moeten produceren op het dictee. Dus, een leerling die SWAK mist in de meerkeuzetoets moet dan ook SWAK spellen op het dictee. Heeft een leerling het fout gespelde woord wel opgemerkt, dan moet het vanuit diagnostisch oogpunt zo zijn dat de leerling het woord correct spelt op het dictee. Deze leerling moet dan SWAK aangestreept hebben, en dit woord dan vervolgens als ZWAK spellen op het dictee.

In Tabel 6 staat voor elke groep aangegeven hoeveel fouten er door de leerlingen zijn gemaakt op de meerkeuzetoets, dat wil zeggen hoeveel fout gespelde woorden werden gemist. Voor alle leerlingen betrof dit 19.6%, met enige variatie per groep. Kijken we vervolgens hoe vaak eenzelfde leerling deze gemiste woorden onjuist schrijft dan is dat slechts bij 33,5% het geval.

Dit betekent dus dat in twee derde van de gevallen (66,5%) dat een woord niet als fout wordt herkend op de meerkeuzetoets, datzelfde woord desondanks correct wordt gespeld op het dictee. Als we ten slotte bij deze fout gespelde woorden berekenen in welke mate daarbij op het dictee dezelfde spelfout wordt gemaakt als opgenomen bij de meerkeuzetoets, dan betreft dat slechts iets meer dan de helft (61.2%) van de gevallen.

Dit betekent, dat een onjuist antwoord op de meerkeuzetoets geen goede indicatie is voor de ontbrekende spellingkennis. Dit wordt bevestigd door de mate waarin op het dictee de door Cito veronderstelde spelfout wordt gemaakt, wanneer op de meerkeuzetoets de spelfout niet is herkend: 20.5% (165 Citofouten op het dictee / 803 niet gevonden fouten in de meerkeuzetoets). Uitgesplitst naar groep zijn deze percentages als volgt: 9.4% in Groep 4, 22.1% in Groep 5, 21.3% in Groep 7 en 29.0% in Groep 8.

Tabel 6. Relatie tussen niet gevonden fouten op meerkeuzetoets en fouten op het dictee

Uit Tabel 7 blijkt dat 80.3% van de spelfouten in de meerkeuzetoets door de leerlingen werd opgespoord. De groepen vertoonden hierin genomen nauwelijks variatie. Ondanks de correct gevonden spelfouten in de meerkeuzetoets werd vervolgens hetzelfde woord door eenzelfde leerling toch in 17,5% incorrect gespeld. Hiervan bevatte slechts een derde (36,6%) dezelfde spelfout als die van de meerkeuzetoets. .

Tabel 7. Relatie tussen wel gevonden fouten op meerkeuzetoets en fouten op het dictee

Uit de Tabellen 6 en 7 blijkt dat de foute spelling zoals bedacht door het Cito dus geen favoriet is bij de leerlingen Het percentage foute spellingen op het dictee dat overeenkomt met de foute spelling zoals in de meerkeuzetoets, ongeacht of de leerling de fout gevonden heeft in de meerkeuzetoets bedroeg 32% voor Groep 4, 44% voor Groep 5, 39% voor Groep 7 en 53% voor Groep 8.

Over alle groepen bedroeg die overeenkomst slechts 44%. Dit betekent dat er een grote discrepantie bestaat tussen de door het Cito veronderstelde spelfouten van leerlingen en de spelfouten die daadwerkelijk gemaakt worden.

Variatie en typen spelfouten

Welke fouten maken leerlingen dan wel? En, hoe groot is de variatie aan spelfouten? Om dit te onderzoeken werd van elk item uit de spellingtoetsen bepaald welke spelfouten er werden gemaakt in het dictee. Deze spelfouten geven informatie over de problemen die de leerlingen hebben met het te spellen woord. Uit de informatie in de Bijlage blijkt de enorme diversiteit aan spelfouten. We wijzen voor elke groep op een typisch voorbeeld.

Een woord dat opvalt in Groep 4 is AANRECHT. De spelfout aangebracht door het Cito is AARRECHT. Van de 42 leerlingen streepten 10 leerlingen het woord niet aan in de meerkeuzetoets; van hen spelden 7 leerlingen het woord fout op het dictee, maar geen van hen spelde het woord volgens de foute spelling zoals aangebracht in de meerkeuzetoets.

Van de resterende 32 leerlingen die het woord wel hadden aangestreept op de meerkeuzetoets, schreven desondanks 11 leerlingen het woord fout op het dictee. Ook nu kwam geen enkele spelfout overeen met die in de meerkeuzetoets. De 18 spelfouten op het dictee kenden 9 verschillende variaties, waarvan de spelling AANREGT het meeste voorkwam, namelijk 8 keer.

In Groep 5 valt het woord ALLEBEI op. De spelfout aangebracht door het Cito is ALLEBIJ. Van de 47 leerlingen ontdekten 10 van hen deze foute spelling niet bij de meerkeuze en schreven alle 10 leerlingen het woord fout zoals die voorkomt in de meerkeuzetoets.

Van de resterende 37 leerlingen die het woord wel hadden aangemerkt als fout op de meerkeuzetoets, schreven desondanks 30 leerlingen dit woord fout op het dictee; hiervan spelden 17 leerlingen het woord volgens de foute spelling zoals aangebracht in de meerkeuzetoets; de andere spelfouten die voorkwamen waren 2 keer ALEBEI en 11 keer ALEBIJ.

In Groep 7 was de kampioen van de inconsistentie het woord WINNARES. De spelfout aangebracht door het Cito is WINARES. Van de 30 leerlingen ontdekten slechts 2 leerlingen deze foute spelling niet; een van hen spelde het woord ook fout op het dictee en die spelling was overeenkomstig die van de meerkeuzetoets.

Van de resterende 28 leerlingen die het woord wel hadden aangemerkt als fout op de meerkeuzetoets, schreven desondanks 13 leerlingen dit woord fout op het dictee; waarvan 3 leerlingen het woord volgens de foute spelwijze van het Cito hadden geschreven, de andere 10 leerlingen produceerden vier verschillende soorten spelfouten, met de spelling WINNAARES als de winnaar; 6 leerlingen maakten deze spelfout.

Een woord dat opvalt in Groep 8 is THERMOSFLES. De spelfout aangebracht door het Cito is TERMOSFLES. Van de 32 leerlingen ontdekten 11 leerlingen deze foute spelling niet in de meerkeuzetoets. Hiervan spelden er echter slechts 3 het woord daadwerkelijk fout op het dictee, waarvan slechts één op de wijze zoals in de meerkeuzetoets.

Van de overige 21 leerlingen die het woord wel correct hadden aangemerkt als fout, spelden desondanks 6 leerlingen het woord verkeerd op het dictee, waarbij iedere leerling een unieke spelfout produceerde; een daarvan was de spelfout zoals het Cito die in de meerkeuzetoets heeft aangebracht.

De voorbeelden die hierboven besproken zijn, vormen slechts het topje van de spreekwoordelijke ijsberg. De feiten die gepresenteerd worden in de Bijlage laten overtuigend zien dat een gemiste spellingfout op de meerkeuzetoets geen voorspellende waarde heeft voor de prestaties op het dictee. Ook een correct gevonden spelfout op de meerkeuzetoets is geen garantie dat de leerlingen het woord ook daadwerkelijk kunnen spellen.

Bovendien blijkt dat de veronderstelde moeilijkheid in de woorden van de meerkeuzetoets allerminst de meest voorkomende spelfout is die leerlingen maken. Sterker nog, de variëteit aan spelfouten laat zien dat leerkrachten die zich uitsluitend verlaten op de meerkeuzetoets volstrekt verkeerde conclusies trekken over het type spellingprobleem dat een leerling heeft.

Hiermee wordt de bewering van het Cito dat de meerkeuzevorm van de spellingtoets gebruikt kan worden via ‘de omgekeerde bewijsvoering’ nogmaals weerlegd.

Conclusie

Een oppervlakkige vergelijking van de spellingprestaties op een meerkeuzetoets en een dictee van leerlingen in het regulier onderwijs zou de naïeve onderzoeker tot de conclusie kunnen brengen dat er een behoorlijke overlap zit tussen de beide toetsvormen. In onze eerste analyse lieten we zien dat de score op de meerkeuzetoets sterk overeen lijkt te komen met die van het dictee (over de gehele groep genomen zelfs hetzelfde zijn, namelijk op beide toetsen 80% correct).

Dat een dergelijke conclusie voorbarig en uiteindelijk zelfs helemaal fout blijkt te zijn, wordt al snel duidelijk als de individuele verschillen van leerlingen bekeken worden. Er blijken nogal wat leerlingen te zijn bij wie een grote discrepantie bestaat tussen de prestaties op de meerkeuzetoets en het dictee.

Aan het argument dat deze verschillen uitmiddelen wanneer de totale groep in ogenschouw wordt genomen, heeft een leerkracht niets, omdat de toets bedoeld is om individuele prestaties te meten. Een andere aanwijzing dat de relatie tussen de meerkeuzetoets en het dictee minder sterk is dan gehoopt, werd geleverd door de beperkte hoogte van de correlatiecoëfficiënten. Het feit dat meer dan een kwart van de spellingen inconsistent bleek te zijn, was de volgende aanwijzing dat de overlap tussen de meerkeuzetoets en het dictee betrekkelijk is.

De meest overtuigende analyses werden geleverd door de inconsistenties op individueel niveau te bekijken. Van het totaal aantal foute spellingen dat niet werd gevonden op de meerkeuzetoets werd slechts 33% fout gespeld op het dictee. Hiervan bevatte iets meer dan de helft de spelfout die in de meerkeuzetoets voorkwam. Van het totaal gevonden onjuiste spellingen op de meerkeuzetoets werd toch nog 17% fout geschreven op het dictee, waarvan slechts een derde kwam overeen met de fout uit de meerkeuzetoets.

De veronderstelling van het Cito dat de meerkeuzetoets een valide manier is om de spellingkennis van leerlingen te meten, blijkt opnieuw onjuist. De overeenstemming tussen de gemaakte fouten op het dictee en de fout zoals aangebracht in de meerkeuzetoets bedraagt slechts 44%. Niet alleen is de meerderheid van het aantal spelfouten ongelijk aan die van de meerkeuzetoets, er is bovendien een enorme variatie aan spelfouten..

Opnieuw zien we dezelfde resultaten als in eerdere studies, nu met een grotere onderzoeksgroep, meerdere leeftijdsgroepen, een andere locatie en een ander tijdstip. Het verschil in scores en gemaakte fouten tussen de meerkeuze en het dictee ligt dus niet aan, tijdstip, locatie, omvang en kenmerken van de onderzoeksgroep, maar aan de vorm: de meerkeuze. Het meerkeuzedeel van de Cito-spellingtoets is dus niet valide, diagnostisch onbruikbaar en didactisch nutteloos.

Noot

Wij danken de leerlingen en leerkrachten van de Violenschool te Hilversum voor hun medewerking aan dit onderzoek. Bovendien zijn wij mevrouw L. Peters, intern begeleider van de Violenschool veel dank verschuldigd. Zonder haar inzet en organisatietalent had dit onderzoek niet plaats kunnen vinden. Ten slotte willen we Ben Schraven bedanken voor zijn nauwgezette lezing van en het heldere commentaar op een eerdere versie van dit manuscript.

Geraadpleegde literatuur

Bosman A.M.T., Schraven, J.L.M., & van Eekhout, T. (2010). De Cito-spellingtoets: onze bezwaren nader toegelicht. Een reactie op ‘Kritiek op toetsen spelling steunt op losse gronden’. Orthopedagogiek: Onderzoek en Praktijk, 49, 418-427.
Bosman A.M.T., & Schraven, J.L.M. (2013). Cito-spellingtoets schaadt het spellingonderwijs. Basisschoolmanagement, 01, 4-8.
Schraven, B. (2013). De validiteit van de Cito-spellingtoets gefalsifieerd. Orthopedagogiek: Onderzoek en Praktijk, 52, 459-475.
Schraven, J.L.M., Bosman, A.M.T., & van Eekhout, T. (2010). De nieuwe Cito-spellingtoets ter discussie. Tijdschrift voor Orthopedagogiek (O en A), 49, 75-86.
Wijs, A. de (2010). Kritiek op toetsen spelling steunt op losse gronden. Orthopedagogiek: Onderzoek en Praktijk, 49, 374-381.

Heb je vragen over dit thema? Stel ze in de onderwijs community binnen de Wij-leren.nl Academie!