Ekvivalensstudier – från papper och penna-administrering till Q-interactive

Under en övergångsperiod kommer många av de test som erbjuds på Q-interactive (i sin helhet eller delvis) att ha papper och penna-motsvarigheter (härefter p/p), och normer byggda på data insamlade med respektive p/p-version. En grundläggande fråga rör huruvida den psykometriska information som finns för respektive p/p-test är giltig även för dess digitala version – eller innebär det digitala administreringsformatet en så omfattande gränssnittsförändring att normerna inte längre är tillförlitliga?

Det digitala formatet innebär i princip att administrering av testuppgifterna sker med hjälp av två synkroniserade iPad, där testledaren läser instruktioner, registrerar testpersonens svar och tar tid på sin iPad, och testpersonen exponeras för stimuli och avger svar på sin iPad. Nedan återfinns översatta utdrag ur de så kallade ekvivalensstudier som kontinuerligt genomförs av Pearson i USA i syfte att undersöka huruvida p/p-normer kan användas även när administreringsgränssnittet förändras. Ekvivalensstudier genomförs deltest för deltest, och studiedesignen varierar mellan olika uppgiftstyper. Texten nedan återger, förutom vissa allmänna resonemang, kortfattat resultat av genomförda ekvivalensstudier för WAIS-IV samt vissa deltest ur D-KEFS och NEPSY-II. En mer omfattande sammanställning av resultat av genomförda ekvivalensstudier gällande WISC-V finns att läsa här ››

För den intresserade finns samtliga nedan refererade studier nedan att tillgå på www.helloq.com/research ››

Ett mål för anpassningen till digital administrering på Q-interactive har varit att uppnå samstämmighet mellan råpoäng genererade med p/p-versionen av testet och dess digitala motsvarighet; med andra ord att det inte ska spela någon roll för en testpersons prestation huruvida testningen genomförs med p/p-versionen eller på Q-interactive. Om sådan ekvivalens kan visas, följer att den psykometriska information som gäller för p/p-versionen (som normer, reliabilitet och validitet) också är giltig för resultat erhållna på Q-interactive. Detta är en av orsakerna till att vissa karaktäristika från p/p-versionerna av testen (som till exempel klossar i deltestet Blockmönster och vissa svarshäften) har behållits i sitt originalformat. Målet är att så småningom ersätta den absoluta merparten fysiskt material med interaktiva digitala gränssnitt, men i detta skede bedömdes att den anpassning vissa deltest skulle kräva, också skulle innebära att ekvivalensen i råpoäng hotades, vilket i sin tur skulle få återverkningar på möjligheten att använda normer insamlade med p/p-versioner.

Utgångspunkten för alla genomförda ekvivalensstudier är antagandet att digitalt assisterad administrering kan påverka testresultatet av flera olika orsaker, som till exempel testpersonens respektive testledarens interaktion med iPad, hur testuppgifter/stimuli presenteras för testpersonen, hur korrekt systemet förmår registrera och poängsätta testpersonens tryck på iPad, och övergripande effekter av den digitala administreringen. Som ett exempel på en sådan effekt kan nämnas tidiga försök med att använda iPads tangentbord, med vars hjälp testledaren förväntades registrera testpersonens muntliga svar. Detta ledde bland annat till att testpersoner började svara långsammare för att testledaren skulle hinna med, vilket – som en bland andra orsaker – resulterade i att detta gränssnitt övergavs.

Om en testuppgift inte inledningsvis bedömdes vara ekvivalent mellan de två formaten (det vill säga att det fanns anledning att anta en trolig inverkan på råpoängen som ett resultat av den digitala administreringen) undersöktes den bakomliggande orsaken. I princip gäller att om en effekt är resultatet av att testledaren (till exempel i och med att vissa felkällor automatiskt elimineras) blir mer noggrann i sin administrering eller poängsättning, innebär Q-interactive ett metodiskt framsteg, och bristen på ekvivalens är inte nödvändigtvis ett problem. Ett rimligt mål för ny teknik är att producera resultat som är ekvivalenta med de som uppnås av testledare som använder p/p-formatet korrekt. Det digitala formatet bör inte förväntas kopiera administrerings- eller poängsättningsfel. Å andra sidan, om en digital effekt beror på minskad noggrannhet från antingen testledarens eller testpersonens sida, bör prioriteringen vara att justera Q-interactive så att denna felkälla elimineras. Endast när detta är omöjligt bör effekten hanteras genom normjustering. Under de genomförda ekvivalensstudierna har administrering och poängsättning filmats för att möjliggöra analys av effekter av administreringsformat.

Flera experimentella modeller har använts för att undersöka graden av ekvivalens mellan p/p och Q-interactive. I de rapporter som kan laddas ner från www.helloq.com/research, redogörs för de olika tillvägagångssätten, vilka anpassats till de olika deltestens skilda uppgiftstyper. Den nivå som sattes för ekvivalens för utfallet från p/p vs digital administrering fick inte överstiga en effektstorlek (Cohen's d) på 0.2.

WAIS-IV

Resultat finns presenterade från två studier (Equivalence of Q-interactive Administered Cognitive Tasks: WAIS-IV). I dessa användes en design med såväl slumpmässig som icke slumpmässig fördelning av ett urval (för populationen representativa) testpersoner till olika grupper som fick genomföra WAIS-IV antingen med p/p-versionen eller på Q-interactive, varefter resultaten analyserades och jämfördes med avseende på ekvivalens. I den första studien uppvisade tolv av 15 deltest effektstyrkor (Cohen's d) relaterade till administreringsformat på mindre än 0.2.

De tre deltest som uppvisade större skillnader än så; Information, Bildkomplettering samt Kodning, ingick i en uppföljningsstudie (tillsammans med Symbolletning och Överstrykning). I denna studie förbättrades bildkvalitén i Bildkomplettering, medan de övriga deltesten var formatmässigt oförändrade från den första studien. Analys av resultaten från denna uppföljande studie visade på effektstorlekar på 0.13 (Överstrykning), 0.07 (Kodning), 0.13 (Symbolletning), 0.17 (Bildkomplettering) och 0.12 (Information). Förbättringen i ekvivalens vad gäller Bildkomplettering förklaras av förbättrad bildkvalité samt viss förändring av svarsgränssnittet på testpersonens iPad, medan förklaringen till förbättringen avseende Kodning (och även Överstrykning och Symbolletning), kunde förklaras av ett tidigare tidtagningsfel i Q-interactive. När detta fel kompenserats för, uppnåddes godtagbar ekvivalens.

D-KEFS

Detta är en av de första ekvivalensstudierna för Q-interactive med fokus enbart på möjliga effekter av att använda det digitala gränssnittet för att registrera och poängsätta svar. 

I studien har fyra test ingått; Mönsterflöde, Verbalt flöde, Trail Making Test och Color-Word Interference Test. Denna studie använde sig av en så kallad ”dual-capture” design. En sådan design lämpar sig för uppgifter för vilka det digitala formatet möjligtvis kan påverka hur testledaren registrerar och poängsätter svaren, men inte testpersonens svarsformat. Varje testperson genomförde testen endast vid ett tillfälle, då hela administreringen filmades. Varje administrering poängsattes sedan av ett team, med antingen p/p eller Q-interactive, och resultaten jämfördes.

Analyserna visade på mycket små effektstorlekar, varierande mellan som högst 0.09 och som lägst 0.02. Mer information om studien finns att läsa i Equivalence of Q-interactive Administered Cognitive Tasks: CVLT-II and Selected D-KEFS Subtests.

NEPSY-II

I denna studie undersöktes tre deltest ur NEPSY-II; Minne för figurer, Inhibition och Bildpussel. De deltest som valdes att ingå i studien innehåller digitala gränssnittsfunktioner som inte tidigare granskats vad gäller möjliga effekter på ekvivalens.

I deltestet Minne för figurer får testpersonen se ett rutmönster med abstrakta figurer i 10 sekunder, och ska sedan välja och placera matchande kort i ett motsvarande tomt rutmönster i de rutor som figurerna presenterades i. I Q-interactive visas stimulusbilden på iPad, men testpersonen använder samma material som i p/p-versionen. Testledaren registrerar testpersonens svar genom att på sin skäm ange den abstrakta figuren eller figurens siffra.

I deltestet Inhibition får testpersonen se en serie bestående av svarta och vita former eller pilar och ska benämna form eller riktning, eller ge en alternativ respons beroende på formens eller pilens färg. Deltestet mäter förmågan att inhibera automatiserade responser och följa ett nytt svarsmönster eller att växla mellan olika svarsmönster. Poängsättningen är baserad på tid och antal korrekta svar. I den digitala versionen visar testpersonens skärm exakt samma rader av stimuli som återfinns i stimulusboken, och testledaren registrerar svaren genom att trycka barnets svar på sin egen skärm.

Deltestet Bildpussel slutligen, mäter förmågan till visuell diskriminering och avläsning, spatial lokalisering samt förmågan att förstå förhållandet mellan delar och helhet. Testpersonen får se en stor bild som är uppdelad i ett rutsystem. Ur rutsystemet har fyra bilder lagts utanför, och testpersonens uppgift är att identifiera var i rutsystemet var och en av bilderna återfinns. I den digitala versionen visas bilden på testpersonens skärm, och hans eller hennes svar registreras när han eller hon trycker på skärmen.

I denna studie genomförde alla testpersoner de tre testen både i p/p-version och i digital version under ett och samma testtillfälle. Analyserna fokuserade sedan på förändringen i poäng mellan administrering 1 och administrering 2, det vill säga förändringen i poäng mellan digital – papper, och mellan papper – digital (vissa testpersoner administrerades p/p-versionen först, andra den digitala versionen först).

Analyser visade att effekten av administreringsformat var – för samtliga tre deltest – lägre än 0.2. För mer detaljerad information hänvisas till Equivalence of Q-interactive Administered Cognitive Tasks: Selected NEPSY-II and CMS Subtests.

DISKUSSION

De slutsatser man kan dra av hittills genomförda ekvivalensstudier är att även om små effekter av administreringsformat kan observeras, är dessa effekter inte - såvitt inte en uppenbar orsak kan upptäckas (t.ex. genom att studera videoinspelningar av testadministreringar) - reproducerbara eller systematiska. Vid flera tillfällen identifierades dock fel som rättades till (t.ex. fel i den ursprungliga tidtagningsfunktionen för deltesten i Snabbhet index i WAIS-IV, liksom problemen med bildkvaliteten i WAIS–IV Bildkomplettering).

Genomförda studier har dessutom visat att det inte förekommer några statistiskt signifikanta skillnader avseende effekt av administreringsformat mellan grupper baserat på ålder, kön, etnicitet, socioekonomisk status eller begåvningsnivå.

Sammantaget kan man konstatera att hittills genomförda studier av olika uppgiftstyper, för vilka olika typer av modifieringar genomförts vid digitaliseringen, visat att den psykometriska information som insamlats med p/p-versioner av deltest är giltig även när administrering sker på Q-interactive.