Ekvivalensstudier – från papper och penna-administrering till Q-interactive

Under en period kommer många av de test som erbjuds på Q-interactive (i sin helhet eller delvis) att ha papper och penna-motsvarigheter, och normer byggda på data insamlade med respektive papper och penna-version. En grundläggande fråga rör huruvida den psykometriska information som finns för respektive papper och penna-test är giltig även för dess digitala version – eller innebär det digitala administreringsformatet en så omfattande gränssnittsförändring att normerna inte längre är tillförlitliga?

Det digitala formatet innebär i princip att administrering av testuppgifterna sker med hjälp av två synkroniserade iPads, där testledaren läser instruktioner, registrerar testpersonens svar och tar tid på sin iPad, och testpersonen exponeras för stimuli och avger svar på sin iPad. Nedan återfinns översatta utdrag ur ekvivalensstudier som genomförts av Pearson i USA i syfte att undersöka huruvida papper och penna-normer kan användas även när administreringsgränssnittet förändras. Ekvivalensstudier har genomförts deltest för deltest, och studiedesignen varierat mellan olika uppgiftstyper. Texten nedan återger, förutom vissa allmänna resonemang, kortfattat resultat av genomförda ekvivalensstudier för WISC-V, WAIS-IV samt vissa deltest ur D-KEFS och NEPSY-II. Dessutom uppmärksammas de problem med deltesten Kodning och Symbolletning som 2019/2020 noterades i WISC-V.

Ett mål för anpassningen till digital administrering på Q-interactive har varit att uppnå samstämmighet mellan råpoäng genererade med papper och penna-versionen av testet och dess digitala motsvarighet; det ska med andra ord inte ska spela någon roll för en testpersons prestation huruvida testningen genomförs med papper och penna-versionen eller på Q-interactive. Om sådan ekvivalens kan visas följer att den psykometriska information som gäller för papper och penna-versionen (som normer, reliabilitet och validitet) också är giltig för resultat erhållna på Q-interactive. Detta är en av orsakerna till att vissa karaktäristika från papper och penna-versionerna av testen (som till exempel klossar i deltestet Blockmönster och vissa svarshäften) behållits i sitt originalformat. Målet är att med tiden, och i nya versioner av testen, ersätta den absoluta merparten fysiskt material med interaktiva digitala gränssnitt. Men den anpassning som skulle krävas för vissa deltest skulle i nuläget hota ekvivalensen i råpoäng, vilket i sin tur skulle få återverkningar på möjligheten att använda normer insamlade med papper och penna-versioner.

Utgångspunkten för alla genomförda ekvivalensstudier har varit antagandet att digitalt assisterad administrering kan påverka testresultatet av flera olika orsaker, som till exempel testpersonens respektive testledarens interaktion med iPad, hur testuppgifter/stimuli presenteras för testpersonen, hur korrekt systemet förmår registrera och poängsätta testpersonens tryck på iPad, och övergripande effekter av den digitala administreringen.

Om en testuppgift inte inledningsvis bedömdes vara ekvivalent mellan de två formaten (det vill säga att det fanns anledning att anta en trolig inverkan på råpoängen som ett resultat av den digitala administreringen) undersöktes den bakomliggande orsaken. I princip gäller att om en effekt är resultatet av att testledaren (till exempel i och med att vissa felkällor automatiskt elimineras) blir mer noggrann i sin administrering eller poängsättning, innebär Q-interactive ett metodmässigt framsteg, och bristen på ekvivalens är inte nödvändigtvis ett problem. Ett rimligt mål för ny teknik är att producera resultat som är ekvivalenta med de som uppnås av testledare som använder papper och penna-formatet korrekt. Det digitala formatet bör inte förväntas kopiera administrerings- eller poängsättningsfel. Å andra sidan, om en digital effekt beror på minskad noggrannhet från antingen testledarens eller testpersonens sida, bör prioriteringen vara att justera Q-interactive så att denna felkälla elimineras. Endast när detta är omöjligt bör effekten hanteras genom normjustering. Under de genomförda ekvivalensstudierna har administrering och poängsättning filmats för att möjliggöra analys av effekter av administreringsformat.

Flera experimentella modeller har använts för att undersöka graden av ekvivalens mellan papper och penna-versionen och Q-interactive. De rapporter (och fler) som nämns nedan kan laddas ner från: www.pearsonassessments.com/professional-assessments/digital-solutions/q-interactive/resources.html?tab=research. I dessa rapporter redogörs de olika tillvägagångssätten, vilka har anpassats till de olika deltestens skilda uppgiftstyper.

WISC-V

I USA har ett antal studier genomförts i syfte att undersöka ekvivalensen mellan papper och penna-versionen av WISC-V och den digitala version som administreras på Q-interactive. Dessa studier har haft olika syften:

Att säkerställa att de två administreringssätten genererar jämförbara resultat – det vill säga att samma uppsättning normer kan användas för såväl papper och penna-versionen som den digitala versionen, i kliniska såväl som icke-kliniska urval. Kodning och Symbolletning ingick inte i dessa studier.

Att säkerställa att de digitala versionerna av Kodning och Symbolletning är likvärdiga med de papper och penna-administrerade motsvarigheterna, trots de förändringar av uppgifter och gränssnitt som genomförts i de digitala versionerna.

I det icke-kliniska urvalet uppvisade endast 3 av de 18 deltesten (den amerikanska versionen av WISC-V har fler deltest än de icke engelskspråkiga) en signifikant effekt av format på 5 %-nivån; Blockmönster, Förståelse och Aritmetik. Ingen av effektstorlekarna överskred emellertid det uppsatta kriteriet på d = 0.2. I kliniska urval har studier genomförts i fyra särskilda grupper; barn med lindrig intellektuell funktionsnedsättning, särskilt begåvade barn, barn med ADHD samt barn med autism. Av dessa studier drogs slutsatsen att resultat från digital administrering på Q-interactive för dessa grupper mäter samma konstrukt som papper och penna-versionen av WISC-V, och i samma utsträckning på ett meningsfullt sätt förmår differentiera mellan barn som tillhör särskilda grupper, och matchade kontroller. Mer information återfinns i Equivalence of Q-interactive and Paper Administrations of Cognitive Tasks: WISC-V, samt Q-interactive Special Group Studies: The WISC -V and Children with Intellectual Giftedness and Intellectual Disability och Q-interactive Special Group Studies: The WISC–V and Children with Autism Spectrum Disorder and Accompanying Language Impairment or Attention-Deficit/Hyperactivity Disorder.

I motsats till övriga deltest har Kodning och Symbolletning på Q-interactive inte varit parallella med papper och penna-versionerna. Anpassning av dessa deltest till ett digitalt format innebar ett nytt gränssnitt mellan uppgifterna och barnet. Exempelvis markerades svar genom att barnet tryckte på iPad, stimuli presenterades automatiskt efter att barnet svarat, kravet på att barnet skulle skriva eliminerades, och ingen möjlighet till självkorrigering av svar gavs. Då de digitala versionerna av dessa deltest inte uppvisade råpoängsekvivalens i förhållande till pappersversionerna, företogs en statistisk konverteringsprocess, skalekvivalering (eng equating), i syfte att anpassa råpoängen från de digitala versionerna så att de blev likvärdiga råpoängen från papper och penna-versionerna; det vill säga att transformering av råpoäng till skalpoäng indikerade samma grad av prestation för de både olika administreringsformaten. Mer information och diskussion om Kodning och Symbolletning återfinns i WISC-V Coding and Symbol Search in Digital format: Reliability, Validity, Special Group Studies, and Interpretation.

Efter en tids användning av de (justerade) skandinaviska normerna, baserade på resultat från de amerikanska ekvivalensstudierna, uppmärksammades emellertid förhöjda skalpoäng för Kodning. Resultatet på den digitala versionen av deltestet var i genomsnitt förhöjt med 2.2 skalpoäng (kliniskt urval) till 3.4 skalpoäng (icke-kliniskt urval), motsvarande .73 till 1.3 standardavvikelser. Denna förhöjning innebar en möjlig ökning av indexpoängen på Snabbhetsindex (SI) med 5–9 standardpoäng och på Hela skalan (HIK) med 2–3 standardpoäng. Detta ledde till att Kodning inaktiverades på Q-interactive 2019. Skälet bakom de föhöjda värdena var vid denna tidpunkt inte helt klarlagt, men senare studier har visat att teknisk prestanda hos den iPad som används har betydelse. Nyare och snabbare iPad-versioner möjliggör presentation av fler uppgifter, vilket i sin tur ledde till att vissa barn gavs möjlighet att genomföra fler uppgifter. I samband med detta fynd – och trots att inga studier visat på förhöjda resultat – inaktiverades också den digitala versionen av Symbolletning i syfte att undvika framtida problem.

WAIS-IV

Resultat från två studier finns presenterade. I dessa användes en design med såväl slumpmässig som icke slumpmässig fördelning av ett urval (för populationen representativa) testpersoner till olika grupper som fick genomföra WAIS-IV antingen med papper och penna-versionen eller på Q-interactive, varefter resultaten analyserades och jämfördes med avseende på ekvivalens. I den första studien uppvisade tolv av 15 deltest effektstyrkor (Cohen's d) relaterade till administreringsformat på mindre än 0.2.

De tre deltest som uppvisade större skillnader än så; Information, Bildkomplettering och Kodning, ingick i en uppföljningsstudie (tillsammans med Symbolletning och Överstrykning). I denna studie förbättrades bildkvalitén i Bildkomplettering, medan de övriga deltesten var formatmässigt oförändrade från den första studien. Analys av resultaten från denna uppföljande studie visade på effektstorlekar på 0.13 (Överstrykning), 0.07 (Kodning), 0.13 (Symbolletning), 0.17 (Bildkomplettering) och 0.12 (Information). Förbättringen i ekvivalens vad gäller Bildkomplettering förklaras av förbättrad bildkvalité samt viss förändring av svarsgränssnittet på testpersonens iPad, medan förklaringen till förbättringen avseende Kodning (och även Överstrykning och Symbolletning), kunde förklaras av ett tidigare tidtagningsfel i Q-interactive. När detta fel kompenserats för, uppnåddes godtagbar ekvivalens. Mer information återfinns i Equivalence of Q-interactive-Administered Cognitive Tasks: WAIS-IV.

D-KEFS

Detta är en av de första ekvivalensstudierna för Q-interactive med fokus enbart på möjliga effekter av att använda det digitala gränssnittet för att registrera och poängsätta svar.

I studien har fyra test ingått; Mönsterflöde, Verbalt flöde, Trail Making Test och Color-Word Interference Test. Denna studie använde sig av en så kallad ”dual-capture”-design. En sådan design lämpar sig för uppgifter för vilka det digitala formatet möjligtvis kan påverka hur testledaren registrerar och poängsätter svaren, men inte testpersonens svarsformat. Varje testperson genomförde testen endast vid ett tillfälle, då hela administreringen filmades. Varje administrering poängsattes sedan av ett team, med antingen papper och penna-versionen eller Q-interactive, och resultaten jämfördes.

Analyserna visade på mycket små effektstorlekar, varierande mellan som högst 0.09 och som lägst 0.02. Mer om studien finns att läsa i Equivalence of Q-interactive-Administered Cognitive Tasks: CVLT-II and Selected D-KEFS Subtests.

NEPSY-II

I denna studie undersöktes tre deltest ur NEPSY-II; Minne för figurer, Inhibition och Bildpussel. De deltest som valdes att ingå i studien innehåller digitala gränssnittsfunktioner som inte tidigare granskats vad gäller möjliga effekter på ekvivalens.

I deltestet Minne för figurer får testpersonen se ett rutmönster med abstrakta figurer i 10 sekunder, och ska sedan välja och placera matchande kort i ett motsvarande tomt rutmönster i de rutor som figurerna presenterades i. I Q-interactive visas stimulusbilden på iPad, men testpersonen använder samma material som i papper och penna-versionen. Testledaren registrerar testpersonens svar genom att på sin skärm ange den abstrakta figuren eller figurens siffra.

I deltestet Inhibition får testpersonen se en serie bestående av svarta och vita former eller pilar och ska benämna form eller riktning, eller ge en alternativ respons beroende på formens eller pilens färg. Deltestet mäter förmågan att inhibera automatiserade responser och följa ett nytt svarsmönster eller att växla mellan olika svarsmönster. Poängsättningen är baserad på tid och antal korrekta svar. I den digitala versionen visar testpersonens skärm exakt samma rader av stimuli som återfinns i stimulusboken, och testledaren registrerar svaren genom att trycka barnets svar på sin egen skärm.

Deltestet Bildpussel slutligen, mäter förmågan till visuell diskriminering och avläsning, spatial lokalisering samt förmågan att förstå förhållandet mellan delar och helhet. Testpersonen får se en stor bild som är uppdelad i ett rutsystem. Ur rutsystemet har fyra bilder lagts utanför, och testpersonens uppgift är att identifiera var i rutsystemet var och en av bilderna återfinns. I den digitala versionen visas bilden på testpersonens skärm, och hans eller hennes svar registreras när han eller hon trycker på skärmen.

I denna studie genomförde alla testpersoner de tre testen både i papper och penna-version och i digital version under ett och samma testtillfälle. Analyserna fokuserade sedan på förändringen i poäng mellan administrering 1 och administrering 2, det vill säga förändringen i poäng mellan digital – papper, och mellan papper – digital (vissa testpersoner administrerades papper och penna-versionen först, andra den digitala versionen först).

Analyser visade att effekten av administreringsformat var – för samtliga tre deltest – lägre än 0.2. För mer detaljerad information hänvisas till Equivalence of Q-interactive-Administered Cognitive Tasks: Selected NEPSY-II and CMS Subtests.

Maj 2022

Anmäl dig till vårt nyhetsbrev

Vill du få aktuell information om våra test och utbildningar? Anmäl dig till vårt nyhetsbrev.

Registrera dig här

Våra produkter

Digitala produkter

Få svar på dina produktfrågor

Våra produkter

Digitala produkter

Få svar på dina produktfrågor

Våra utbildningar

Kunskapsbank

Teman

Forskning

Våra utbildningar

Kunskapsbank

Teman

Forskning

Kontakta oss

Håll dig uppdaterad

Kontoinformation & beställningar

Beställningsinformation

Kontakta oss

Håll dig uppdaterad

Kontoinformation & beställningar

Beställningsinformation

Ekvivalensstudier – från papper och penna-administrering till Q-interactive

Anmäl dig till vårt nyhetsbrev

PRODUKTER

INFORMATION

KONTAKTA OSS

OM PEARSON CLINICAL