Normalizacja testu – czy mogę porównywać swoje wyniki z innymi?

normalizacja testu

Zamawiamy diagnozę osobowości, wypełniamy test, omawiamy wyniki i chcemy porównać je z raportami innych i… NIE MOŻEMY?! Wbrew pozorom taki scenariusz dotyczy nie tylko psychozabawy z gazety lub Internetu, ale również narzędzi dostępnych na rynku za kilkaset złotych. Jak się przed tym zabezpieczyć? Co zrobić, aby móc skonfrontować swoje wyniki z innymi?

Za chwilę przedstawię Ci tajemnicę, z której nie zawsze zdają sobie sprawę nawet osoby wykorzystujące testy osobowości w swojej pracy. Wyniki narzędzi psychologicznych są relatywne. Oznacza to, że jeśli chcemy pozyskać z testu wartościowe informacje, to wynik indywidualny zawsze MUSI zostać porównany z wynikami innych osób. O co chodzi?

Zrób eksperyment: spróbuj wytłumaczyć co znaczy, że ktoś jest wysoki bez porównywania jego wzrostu do innych (osób lub rzeczy). Albo, że jest ekstrawertyczny. Niemożliwe! Jesteśmy w stanie rozpoznać zachowania innych, ale aby ocenić czy ktoś mówi dużo lub mało, głośno czy cicho potrzebujemy wiedzieć, co odbiega od średniej w jedną lub w drugą stronę. Na tym właśnie polega relatywizm.

Normy w testach psychologicznych

Z testami psychologicznymi jest podobnie. Bez tzw. norm (czyli wyników innych ludzi) nie jesteśmy w stanie niczego powiedzieć na temat pojedynczej osoby. To, że w teście osobowości w obszarze podejścia do obowiązków uzyskamy np. 10 punktów, nic nam nie powie, jeśli nie mamy podanych przedziałów wyników i nie wiemy jakie rezultaty uzyskały inne osoby. Przykładowo informacja, że Tomek zdobył 50% punktów z testu z fizyki jest bezwartościowa, jeśli nie wiemy jak wypadła reszta uczniów. Może był to najniższy wynik w klasie? A może Tomek jest geniuszem, bo Einstein w tym samym teście zdobył tylko 40%?

Jak się domyślasz, tytułowe normy to jedna z rzeczy, którą musi posiadać test, jeśli jego wyniki chcesz porównywać z innymi. Jakie normy są odpowiednie? Na to pytanie odpowiadamy w dalszej części artykułu.

Normy w testach

Grupa reprezentatywna

Istotną kwestią jest także grupa osób, z którą porównujemy nasze rezultaty. Jeśli określając, czy osoba mierząca 185 cm jest niska czy wysoka, postawimy ją obok koszykarza mierzącego ponad 2 metry, to uznamy ją za niską. Jeśli jednak jest to dziewczyna i weźmiemy pod uwagę płeć, to zestawiając jej wynik ze średnim wzrostem kobiet w Polsce okaże się, że jest ona bardzo wysoka. 

Podobnie będzie z wspomnianym wcześniej Tomkiem. Jeśli porównamy liczbę punktów, które zdobył na sprawdzianie z fizyki do rezultatów innych uczniów z jego klasy, to może on wypaść lepiej niż połowa z nich. Jeśli jednak ten sam wynik porównamy z wynikami jego rówieśników z klasy o profilu matematyczno-fizycznym, to może okazać się on niski (gorszy od większości). Jak widać, wszystko zależy, nie tylko od samych norm, ale również od konkretnej grupy, na której zostały one określone.

Normy, które stanowią punkt odniesienia do osiągniętych przez nas wyników koniecznie muszą dotyczyć osób jednakowej płci oraz znajdujących się w tej samej kategorii wiekowej co my. Dlaczego?

Otóż, wyobraźmy sobie, iż Michał w wieku 20 lat wypełnia kwestionariusz osobowości i na skali mierzącej aktywność uzyskuje 15 punktów. Porównując ten wynik z rezultatami dwudziestoletnich mężczyzn, okazuje się on bardziej aktywny. Pan Michał będąc w wieku 60 lat wykonuje ten sam test, ale nie wykazuje już tyle energii, co kiedyś, więc odpowiada inaczej uzyskując tylko 8 punktów. Mimo to zestawiając jego wynik z mężczyznami w odpowiadającym mu wieku, ta liczba punktów również wskazuje na dużą aktywność.

Wydaje się nam naturalne, że wraz z wiekiem zmienia się charakter naszej aktywności. Jeśli nie uwzględnialibyśmy tego (za pomocą norm) podczas badań psychologicznych moglibyśmy wyciągać nietrafione wnioski i błędnie zestawiać aktywność dwudziestolatka z sześćdziesięciolatkiem.

Ta kwestia dotyczy nie tylko wieku, ale również płci. Kobiety i mężczyźni różnią się nasileniem pewnych cech i własności. Inaczej definiowana jest na przykład wrażliwość na emocje u mężczyzn i u kobiet. Z tego powodu bardzo istotne jest uwzględnianie również tych zmiennych przy wyborze grupy, która stanowi punkt odniesienia dla danego wyniku. Musi ona być też reprezentatywna. Co to znaczy?

Grupa reprezentatywna

Wiemy już, że wynik osobowości i wielu innych własności (inteligencji, temperamentu itd.) musimy porównać do rezultatów osiągniętych przez inne osoby. Jednak czy mogą to być przypadkowi ludzie? Otóż nie! Przedziały punktacji w teście powinny być stworzone, dla określonej grupy odzwierciedlającej społeczeństwo. Grupa ta, stanowi wtedy próbkę populacji, którą badamy. Jest reprezentatywna, to znaczy, że dobrze odzwierciedla jak dane cechy rozkładają się w prawdziwym społeczeństwie.

W Polsce, aby przebadana przez nas grupa była reprezentatywna, trzeba przeprowadzić badania normalizacyjne na grupie ok. 1000 osób (błąd oszacowania jest wtedy bardzo mały). Wybór poszczególnych jednostek do takiej zbiorowości zazwyczaj odbywa się w sposób losowy (przypadkowy) lub poprzez dobór kwotowy, czyli taki gdzie zachowana jest struktura kluczowych cech właściwa dla populacji.

Dla przykładu, chcąc zbadać osobowość pielęgniarek możemy z rejestru zatrudnionych w naszym kraju pielęgniarek wylosować 1000, które poprosimy o wypełnienie testu. Tym sposobem każda z osób pracująca w tym zawodzie ma takie samo prawdopodobieństwo wzięcia udziału w badaniu. Natomiast dokonując próby kwotowej, najpierw należy sprawdzić np. jaki procent mężczyzn pracuje w tym zawodzie, a jaki kobiet; ile z nich pracuje w miastach, a ile w mniejszych miejscowościach i na tej podstawie dobrać jednostki w takiej liczbie, aby odzwierciedlały dane dotyczące populacji. W ten sposób struktura grupy normalizacyjnej będzie zbliżona do grupy wszystkich pielęgniarek pod względem rozkładu cech, jakimi są w tym wypadku – płeć i miejsce zatrudnienia. Tak też tworzyliśmy normy do naszego testu osobowości.

Testy normatywne

Opisane powyżej normy oraz proces doboru odpowiedniej próby, na podstawie której są one określane, dotyczą tzw. testów normatywnych. To one są najczęściej stosowane, gdyż porównywanie wyników w nich osiągniętych ma zastosowanie w wielu dziedzinach takich jak np. diagnoza, pomoc psychologiczna, doradztwo zawodowe czy też selekcja oraz rekrutacja pracowników.

Na pewno wielu z was spotkało się już z typową dla tego typu narzędzi skalą odpowiedzi. Jest to tzw. skala Likerta składająca się zazwyczaj z pięciu pozycji ułożonych w  odpowiednim porządku odzwierciedlającym stopień akceptacji, aż do całkowitego odrzucenia danego stwierdzenia przez badanego. Respondent ma za zadanie określić, w jakim stopniu zgadza się z podanym zdaniem mając do wyboru opcje:

  • zdecydowanie się nie zgadzam,
  • raczej się nie zgadzam,
  • nie mam zdania,
  • raczej się zgadzam,
  • zdecydowanie się zgadzam.

Liczba możliwych do wyboru odpowiedzi jest nieparzysta (najczęściej 5, czasem 7), tak aby środkowe stwierdzenie było neutralne. W ten sposób badany ma możliwość wybrania najbardziej odpowiedniego dla siebie wariantu.

skala Likerta

Ten typ skali pozwala na najlepsze odzwierciedlenie własności badanego. Jego wyniki możemy później zestawiać z normami określonymi dla konkretnej, odpowiednio dobranej do respondenta grupy reprezentatywnej. Tym sposobem jesteśmy w stanie określić, co tak naprawdę oznaczają osiągnięte przez niego wyniki. Czy są one niskie, przeciętne, a może wysokie na tle danej populacji.

Czy każdy test psychometryczny posiada normy?

Problem braku norm bardzo często występuje wśród testów stosowanych w Polsce. Wbrew pozorom nie dotyczy to tylko darmowych narzędzi. Po prostu wiele płatnych testów nie chwali się faktem, że nie posiada norm. Jak więc do licha wyliczają jakiekolwiek wyniki? Z kim je porównują?

Normy

Z nikim innym jak… z samym badanym. Wynik takiego testu dotyczy jedynie tego, które zachowania ZDANIEM BADANEGO są dla niego najbardziej typowe. Nie mówi się nic o natężeniu (sile) danej cechy, nie porównuje się badanego do innych ludzi, nie eliminuje się wpływu np. wieku lub płci na odpowiedzi. Do czego, więc można wykorzystać takie wyniki?

Przede wszystkim do indywidualnego rozwoju, gdzie wynik rozumiany jest jako balans kilku wariantów psychiki badanego. Ze względu na to, że nie można porównywać ze sobą wyników innych osób ciężko naszym zdaniem stosować takie testy w treningach grupowych lub team buildingu. Kategorycznie nie powinno stosować się ich na żadnym etapie zatrudniania (screeningu, selekcji lub rekrutacji).

Testy ipsatywne

Przykładem testów bez norm są tzw. testy ipsatywne. Najczęściej można rozpoznać je po pytaniach, które proszą o wybranie jednej z kilku skrajnych odpowiedzi. Kojarzysz test, w którym zaznaczałeś odpowiedzi, z którymi nie do końca się zgadzasz, ale konieczne było wybranie tzw. “mniejszego zła”? Prawdopodobnie to był właśnie test ipsatywny!

Skala odpowiedzi do pytań jest skonstruowana w taki sposób, by wymusić na nas odpowiedź, mimo że żadna z podanych może nam nie odpowiadać albo zgadzamy się z więcej niż jedną. Badany ma np. za zadanie odpowiedzieć na pytanie, czy zimą woli jeździć na nartach czy czytać przy kominku i musi wybrać jedną z podanych opcji. Podana odpowiedź tak naprawdę nie daje nam rzetelnej informacji, gdyż być może badany wybrał jedną z odpowiedzi z przymusu i może równie dobrze nie znosić żadnej z podanych czynności albo preferować je w takim samym stopniu.

Testy ipsatywne

Test ipsatywny w niejaki sposób zmusza uczestnika do zadeklarowania się czy np. jest się bardzo introwertycznym, czy ekstrawertycznym, kiedy większość z nas tak naprawdę jest ‘trochę tak, a trochę tak’.

Kolejna, istotniejsza różnica została dobrze wyjaśniona w opublikowanym przez Brytyjskie Stowarzyszenie Psychologiczne artykule ‘Assessments & Development Matters’: „Testy ipsatywne porównują balans kompetencji osoby. Test ipsatywny może zidentyfikować kompetencje mocne, ale też i te słabe (do rozwoju). Jednakże test taki nie porówna wyników tej osoby do innych osób, czyli nie wskaże nam jak ta osoba plasuje się względem innych biorąc pod uwagę oceniane kompetencje.”

Podsumowując, testy ipsatywne nie porównują osób do normy lub innych standardów istotnych w momencie jak wyniki z badania potrzebne nam są do rekrutacji, promocji czy zarządzania talentem, ale też i w rozwoju indywidualnym, gdzie osoba ta mierzy się z całym społeczeństwem.

Testy ipsatywne stosowane są w momencie, kiedy chcemy wesprzeć klienta specyficznie dobranymi interwencjami rozwojowymi względem konkretnych wyników, np. w trakcie edukacji zawodowej. Są one jednak mało użyteczne w momencie, gdy chce się porównać osoby względem tych samych kompetencji. Do tego potrzebne są testy normatywne, standaryzowane według norm uzyskanych poprzez przebadanie grupy testowej złożonej z różnych osób. Wówczas uzyskane wyniki klienta porównuje się w odniesieniu do normy przebadanej grupy kontrolnej.

Normy kwestionariusza PERSO.IN®️

Nasz test osobowości PERSO.IN®️ jest standaryzowanym narzędziem, który oprócz wysokiej trafności i rzetelności posiada również aktualne normy. W celu normalizacji w maju 2018 roku przeprowadziliśmy badania na ogólnopolskiej próbie 1063 pełnoletnich osób, dobranych w sposób losowo-kwotowy z zachowaniem odpowiednich kryteriów dla płci, wieku oraz wielkości miejsca zamieszkania. 

Natomiast normalizacja wersji kwestionariusza dla osób w wieku 14-17 lat dokonana została na dodatkowej próbie 240 osób w czerwcu 2019 roku. Więcej o wiarygodności narzędzia przeczytasz tu.

Normy

Przy stosowaniu testów psychologicznych należy pamiętać, w jakim celu się ich używa. Jeśli chcemy określić czyjeś słabe i mocne strony w kontekście ścieżki dalszego rozwoju, to mogą się tutaj sprawdzić testy ipsatywne, nieposiadające norm. Jeśli jednak potrzebujemy określić czyjąś osobowość lub kompetencje np. podczas procesu rekrutacyjnego, to koniecznie musimy użyć testu normatywnego.

Bibliografia:

Anderson, N., Salgado, J., Tauriz, G. (2015). The validity of ipsative and quasi-ipsative forced-choice personality inventories for different occupational groups: A comprehensive meta-analysis. Journal of Occupational and Organizational Psychology, 88(4), 797-834 . DOI: 10.1111/joop.12098.
Baron, H. (1996). Strengths and limitations of ipsative measurement. Journal of Occupational and Organizational Psychology, 69, 49-56.
Brzeziński, J. (2012). Metodologia badań psychologicznych. Warszawa: PWN.
Paluchowski, W. J. (2001). Diagnoza psychologiczna. Podejście ilościowe i jakościowe. Warszawa: Wydawnictwo Naukowe „Scholar”.

Autorstwo: Natalia Oleszczuk, pod redakcją psychologów Patrycji Borowskiej i Daniela Rydla