Psykometri är vetenskapen om hur utvärdering av psykologiska tester ska utföras för att säkerställa ett tests funktion i dess avsedda användningsområde. Med enklare ord är psykometri läran om hur man kan kontrollera att ett test går att lita på.
Psykometrin intresserar sig för reliabilitet och validitet.
Reliabiliteten avser hur pass noggrant testet kan mäta ett värde. Ett test med hög reliabilitet kan liknas vid en digital termometer med två decimaler. Ett test med låg reliabilitet är motsatt en gammal kvicksilvertermometer med en suddig skala. Båda mäter temperatur men gör det med olika reliabilitet.
Validiteten avser om testet mäter det som faktiskt avser mätas. En termometer är exempelvis urusel på att mäta lufttryck, även om den råkar vara digital och ha hög reliabilitet. I mer praktiska termer kan du föreställa dig ett psykologiskt test för ångest vars frågor fokuserar på personens sömnvanor. Även om ångest har överlappning med sömnsvårigheter så finns det många människor utan ångest som sover mindre eller sämre på nätterna, exempelvis de som bor med någon som snarkar högt. Ett sådant test skulle ha lägre validitet för ångest.
De flesta test som presenteras här i fBanken har i olika mån designats och undersökts för att uppnå god reliabilitet och validitet. Dock tillkommer löpande nya forskningsstudier, som utvecklar och förändrar hur test ska brukas och administreras. fBanken försöker hålla informationen kring detta uppdaterad.
Hur mäts reliabilitet? #
Som testbrukare kan det vara bra att känna till hur du själv kan göra en kort analys av de test du tänker använda. Ditt mål är att utröna om testet har tillräckligt goda psykometriska egenskaper. I fBanken samlar vi in och publicerar två mätvärden för respektive tests reliabilitet: Test-retest reliablitet och Cronbachs Alfa.
Test-retest ger ett mått på ett tests reliabilitet som återfinns genom att låta ett antal individer utföra samma test flera gånger vid olika tillfällen. Om testet har hög reliabilitet bör resultatet detsamma vid ”retest” som vid originalmätningen.
Vid mätningar enligt test-retest används inte enskilda individers mätdata separat. Istället används data från större grupper som samtliga utfört testet upprepade gånger. Individer tenderar nämligen att svara något annorlunda vid två testtillfällen, även om det underliggande fenomenet (exempelvis depression) inte ändrats. Eftersom denna typ av individuella varians är helt slumpmässig antar medelvärdet av gruppens svarsresultat samma värde som i samtliga mätningar, givet att testet är reliabelt.
Mätningar av reliabilitet med test-retest ställer stora krav på kontroll av yttre omständigheter. Testen bör tas i samma miljö och under samma förutsättningar vid samtliga tillfällen. Det bör inte gå för lång eller för kort tid mellan testerna. Dessutom måste testet vara sådant att man inte kan lära sig att svara ”rätt” på uppföljningstillfället. Testet får heller inte vara fokuserat på någon föränderlig psykologisk process (exempelvis kortvarig stress eller trötthet). Därför används test-retest mer frekvent i utvärdering av mer stabila psykologiska konstrukt, exempelvis test av personlighet och intelligens.
Vad som är ett bra värde för test-retest reliabilitet är något omdebatterat och beror även på syftet och designen av testet. Ett värde över 0,7 anses dock i många fall visa på god reliabilitet.
Cronbachs Alfa är ett mått på testets interna reliabilitet. Med det menas huruvida frågorna på testet verkar hänga ihop på ett förväntat och enhetligt sätt. Ett bra och högt värde på Cronbachs Alfa indikerar att de olika frågorna i testet tenderar att enhetligt visa på skillnader i en eller flera överliggande faktorer.
För att illustrera med ett fiktivt och förenklat exempel: Ett test med fem frågor avser utröna om en person lider av utmattningssyndrom. Frågorna rör personens självskattning av upplevd ångest, otillfredsställdhet, spändhet, stress och nedstämdhet. Teorin är att en person som är utmattad ska få höga poäng på alla dessa fem frågor. Alla frågor i testet ska alltså mer eller mindre enhetligt variera med varandra, om testet faktiskt testar för en enda faktor (alltså utmattningssyndrom).
En pilotstudie utförs för att utröna reliabiliteten i testet. En stor grupp människor får svara på testets frågor och resultatet sammanställs. Vid uträkningar visar det sig att Cronbachs Alfa blir låg för pilotstudien. Analys visar att faktorerna otillfredsställdhet, ångest, stress och nedstämdhet alla samverkar. Med det menas att personer som fått hög score på en fråga ofta också har hög score på de tre andra frågorna (och tvärtom). Därmed verkar frågorna vara sammankopplade av en gemensam övergripande konstruktion, vilket antas vara utmattning. Däremot visar score på frågan om spändhet inte någon enhetlighet med övriga faktorer. Det framstår som spändhet inte varierar tillsammans med de övriga faktorerna. Frågan är sannolikt därför inte ett bra mått på den överliggande konstruktionen, alltså utmattning. Frågan om spändhet tar därför bort ur testet och Cronbachs Alfa förbättras.
Cronbachs Alfa är en koefficient för testets interna enhetlighet (en. consistency) och därmed dess reliabilitet. Cronbachs Alfa kan anta värden mellan 0 och +1, där 0 indikerar ingen intern enhetlighet och där +1 indikerar total intern enhetlighet (alla frågor har ett perfekt förväntat förhållande till varandra). Värden för reliabla test brukar ligga på 0,7 och över.
Några ord om validitet #
Ett tests validitet bygger främst på analys ur ett vetenskapligt perspektiv. Experter, forskare och psykologer bedömer om ett resultat från ett test kan antas utvärdera det psykologiska konstrukt som avses testas för. Det finns dock ett antal sätt att empiriskt och objektivt bedöma ett testresultats validitet, baserat på dessa vetenskapliga teorier.
Exempelvis kan testets resultat jämföras med tester som antingen utvärderar för samma eller ett enligt teorin sammanlänkat konstrukt. Motsatt kan man utvärdera om testet inte korrelerar med ett annat test som utvärderar ett motsatt konstrukt. I ett förenklat exempel kan ett självförtroendetest förväntas korrelera positivt med ett test som utvärderar livsglädje (så kallad konvergent evidens för validiteten i testet). Motsatt borde självförtroendetestet korrelera negativt med ett depressionstest (så kallad diskriminant evidens för validiteten i testet).
I många fall kan även antalet faktorer i testet skvallra om validiteten i testet. Många psykologiska konstrukt består av en eller flera dimensioner. Om testresultatet uppvisar samma antal dimensioner som det konstrukt som avses testa för, ökar validiteten i testet. Det går även att helt enkelt studera hur pass väl ett testresultat faktiskt förutsäger ett verkligt beteende, exempelvis hur pass många personer med hög IQ som också presterar bättre i akademiska situationer. Om höga poäng korrelerar med höga prestationer (en teoretisk effekt av hög IQ), ökar också validiteten för testresultatets förmåga att mäta IQ.
I dessa ovan nämnda exempel så vilar validitetsanalysen på en vetenskaplig teori om fenomenets interaktion med andra fenomen. Vid testning av psykologiska fenomen som inte kan observeras direkt måste slutsatser dras från korrelationer mellan olika typer av frågor och flera olika test, som enligt psykologisk teori bör ha någon form av association. Exempelvis alltså mellan hög intelligens och akademisk framgång.
I fBanken presenteras validitetsrelaterad information på olika platser i respektive tests löpande beskrivande texter.
Normer, specifitet och sensitivitet #
I fBanken presenteras ibland även tröskelvärden (alternativt gränsvärden) för diagnos. Detta är gränsdragningar i poäng/score som utgör vattendelare mellan sådana individer som anses besitta det underliggande konstruktet, och personer som inte gör det. Tröskelvärdet är ofta framtaget för specifika grupper, exempelvis för svenska vuxna eller barn under 15 år. Flera tröskelvärden kan därför finnas för olika grupper som tar samma test.
Rent psykometriskt bestäms ett tröskelvärde normalt genom att låta grupper av forskningspersoner att ta testet. En grupp besitter då bekräftad förekomst av det underliggande konstrukt som testet avser testa för (exempelvis ADHD), och en annan grupp utgör kontrollgrupp (exempelvis har ej ADHD). Gruppen med bekräftad förekomst bör således ha en högre poäng än kontrollgruppen. Forskarna kontrollerar därefter vid vilket tröskelvärde störst möjliga åtskiljning mellan diagnos och icke-diagnos urskiljs. Grupper som används för att fastställa detta statistiska underlag kallas för normeringsgrupper.
Ett sätt att förklara tröskelvärdets urskiljningsförmåga är att ange specificitet och sensitivitet.
Specifitet är ett mått på hur bra testet urskiljer personer som inte besitter konstruktet. Sensitivitet är ett mått på hur bra testet kan diagnosera personer som faktiskt besitter konstruktet. Vi kan göra det lite tydligare med ett exempel:
Låt oss säga att en testgrupp består av 200 deltagare. 100 av dessa personer har konstaterad ADHD. De övriga 100 är helt friska. Alla personer får göra ett ADHD-test. När resultatet sammanställs visar det sig att 90 av personerna med konstaterad ADHD har diagnoserats av testet och 10 har felaktigt fått diagnosen icke-ADHD. Sensitiviteten i testet för det givna tröskelvärdet är då 0,9 eller 90%. Alltså diagnoseras 9 av 10 individer som faktiskt har ADHD av testet.
Av de friska 100 personerna får 80 personer korrekt diagnosen icke-ADHD och 20 personer får felaktigt diagnosen ADHD. Specificiteten är då 0,8 eller 80%. Med andra ord ställs en friskförklarande diagnos korrekt för 8 av 10 personer som inte har ADHD.
Tröskelvärden, specificitet, sensitivitet samt information om vilka normer som använts för att fastställa dessa värden anges i fBanken när sådan data är publicerad. Ibland anges även medelvärden i poäng för personer före och efter behandling, vilket kan underlätta för klinikern att kontrollera hur framgångsrik en specifik behandling har varit.
Text: Martin Trankell