PROCESO DE
CONSTRUCCIÓN DE UN TEST PSICOMÉTRICO (III)
En los dos artículos anteriores presentados en este blog se expones los
principios que conducen el Proceso de Construcción de un Test Psicométrico (parte
I y parte
II). Continuando con este apasionante tema se desarrolla lo referente a la
cuantificación de las respuestas para posteriormente explicar la forma adecuada
de analizar los ítems, donde se destacan los apartados sobre índices de
dificultad, el índice de homogeneidad y el índice de validez.
Cuantificación de las respuestas
Una vez establecido el formato de respuesta que se considera más
apropiado para el caso, y de cara al estudio psicométrico de la prueba, es
preciso decidir la manera de cuantificar los posibles resultados a las
cuestiones. En general, para los ítems de cuestionarios de rendimiento óptimo
se cuantificará con 1 el acierto y con 0 el error, de tal manera que la puntuación
directa de un sujeto en un cuestionario determinado será igual al número de
ítems que ese sujeto acierta.
La cuantificación de las respuestas a ítems de pruebas de rendimiento
típico requiere ciertos matices. Dado un formato de respuesta determinado
(opción binaria, categorías ordenadas o adjetivos bipolares) es necesario
cuantificar las posibles respuestas a un ítem teniendo en cuenta que la
alternativa con mayor valor sea la que indique mayor nivel de rasgo, aptitud y opinión.
Por ejemplo, para un ítem con formato de respuesta de opción binaria
(acuerdo/desacuerdo) puede cuantificarse el acuerdo como 1 y el desacuerdo como
2, o viceversa. Depende de que el ítem esté planteado para medir de manera
directa o inversa el constructo de interés. Estos pueden ser 2 ítems de un
cuestionario de actitud ante al aborto voluntario:
Ítem A: "Abortar es matar".
De acuerdo ( ) En desacuerdo ( )
Ítem B: “El bienestar de la madre también importa”.
De acuerdo ( ) En desacuerdo ( )
En el ítem A, el acuerdo se puntuaría con 1 y el desacuerdo con 2, ya
que estar en desacuerdo con esa afirmación indica una actitud más positiva
hacia el aborto voluntario. En el ítem B, sin embargo, el acuerdo se puntuaría
con 2 y el desacuerdo con 1, ya que estar de acuerdo con esa afirmación indica
una actitud más positiva hacia el aborto.
Si el formato de respuesta es de “n” categorías ordenadas, las diversas
categorías se cuantificarán normalmente desde 1 hasta n, teniendo en
consideración (como en el caso anterior) la dirección de la afirmación o
cuestión. Por ejemplo, para 5 categorías, las dos posibles cuantificaciones
serán:
También se puede asignar el 0 a la categoría central, valores negativos
a las categorías que se encuentran a la izquierda y positivos a las que se
encuentran ubicada a la derecha.
En estos casos, la puntuación directa de un sujeto en un test (o
subtest) resulta de sumar las cantidades asignadas por el constructor de la
prueba a las diferentes respuestas que el sujeto ha emitido; según esto,
convendría cuantificar las diversas alternativas con valores entre 1 y n para
evitar una puntuación directa negativa.
Análisis de ítems
Los ítems o cuestiones se han formulado de manera lógica para que midan
(y lo hagan bien) el constructo, variable, o rasgo que interesa evaluar con el
cuestionario. Ahora bien, el grado en que cada ítem es un "buen
medidor" del rasgo de interés es algo que se puede comprobar estadísticamente
de manera sencilla si se obtienen tres indicadores para cada ítem:
a) El índice de dificultad.
b) El índice de homogeneidad.
c) El índice de validez.
Para ello, tras aplicar el cuestionario provisional a una muestra de
sujetos representativa de la población a la que va dirigida la prueba (se
aconseja entre 5 y 10 veces más sujetos que ítems), y una vez cuantificadas las
respuestas de cada individuo, se forma una matriz de datos de sujetos x ítems:
Un elemento aij de esta matriz indica el valor asignado a la respuesta
que da el sujeto i al ítem j. Sumando por filas podemos obtener las
puntuaciones directas (X) de los sujetos en el total del test.
Veamos cómo se obtienen (y qué sentido tiene su obtención) los tres
índices citados anteriormente.
Índice de Dificultad
Este primer indicador sirve para cuantificar el grado de dificultad de
cada cuestión, por lo que sólo tiene sentido su cálculo para ítems de tests de
rendimiento óptimo.
El índice de dificultad de un ítem j se define como el cociente entre el
Nº de sujetos que lo han acertado (Aj) y el Nº total de sujetos que lo han intentado
resolver (Nj)
Atendiendo a la disposición de datos en la matriz expuesta más arriba,
el índice de dificultad de un ítem (columna) j será el cociente entre el nº de
unos y el total de unos y ceros que tiene la columna. Los sujetos que han
omitido el ítem (no han contestado) no se contabilizan en Nj.
Ejemplo: Supongamos que la siguiente tabla recoge las respuestas de una
muestra de 10 personas a un test formado por 6 ítems dicotómicos (1 indica
acierto y 0 error):
Con estos resultados puede comprobarse varios aspectos de la
interpretación de Dj:
- El valor mínimo que puede asumir Dj es 0 (ningún sujeto
acierta el ítem) y el valor máximo 1 (todos los sujetos que lo intentan lo
aciertan).
- A medida que Dj se acerca a 0 indica que el ítem ha resultado
muy difícil; si se acerca a 1, que ha resultado muy fácil; y si se acerca a
0,5, que no ha resultado ni fácil ni difícil.
- Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la
varianza es igual a cero; a medida que Dj se acerca a 0,5, la varianza del ítem
aumenta. De nada sirve un ítem con Dj = 0 o Dj = 1, ya que no discriminaría
entre los diferentes sujetos (todos aciertan o todos fallan).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan
los ítems más fáciles (con mayor Dj); en la parte central, los de dificultad
media (entre 0,30 y 0,70); y al final, los más difíciles (con menor Dj). El
número de ítems de cada categoría de dificultad que deben incluirse en el test
depende de los objetivos que quiera conseguir la persona que diseña el cuestionario.
En general, la mayor parte de los ítems deben ser de dificultad media.
Índice de Homogeneidad
El índice de homogeneidad, llamado a veces índice de discriminación, de
un ítem (Hj) se define como la correlación de Pearson entre las puntuaciones de
los N sujetos en el ítem j y las puntuaciones X en el total del test:
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj
de los ítems, debemos calcular la Correlación
Lineal entre las columnas j y la columna X de puntuaciones directas en la
prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta
de categorías ordenadas, que se valoran entre 0 y 5. Después de aplicarse a un
grupo de 5 sujetos se obtienen los siguientes datos:
Puede comprobarse que los índices de homogeneidad de los 3 elementos
son:
H1= r1x= 0,75
H2= r2x= 0,94
H3= r3x= 0,86
El índice de homogeneidad de un ítem nos va a informar del grado en que
dicho ítem está midiendo lo mismo que la prueba globalmente; es decir, del
grado en que contribuye a la homogeneidad o consistencia interna del test. Los
ítems con bajos índices de homogeneidad miden algo diferente a lo que refleja
la prueba en su conjunto.
Si con el test se pretende evaluar un rasgo o constructo unitario,
deberían eliminarse los que tienen un Hj próximo a cero.
En ocasiones, un test está formado por diferentes subtests con
contenidos distintos. En este caso, los Hj deben obtenerse con
relación a las puntuaciones directas del subtest concreto.
Cuando un Hj es negativo y alto, debemos cuestionar el
sistema de cuantificación de las respuestas que se ha seguido en ese ítem. Si
un ítem obtiene una Correlación
Lineal negativa y alta con el total de la prueba, seguramente es debido a
que se ha cuantificado erróneamente el ítem (se ha tomado como directo siendo
inverso, o viceversa).
Cuando un test tiene un número pequeño de ítems, resulta más apropiado
obtener el índice de homogeneidad corregido (rj,x-j). Consiste en correlacionar
las puntuaciones en un ítem con las puntuaciones en el total del test después
de restar de este total las puntuaciones del ítem cuyo índice queremos obtener.
En el ejemplo precedente, el índice de homogeneidad corregido para el ítem 1
será 0.49, resultado de correlacionar la 1ª columna de la tabla (2, 3,
5, 0, 4) con la columna (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3).
Análogamente, los índices de homogeneidad corregidos para los ítems 2 y 3 son,
respectivamente, 0.89 y 0.54.
Como resulta lógico suponer, el Hj corregido de un ítem suele ser
inferior a su Hj sin corregir.
A estas alturas del contenido aquí presentado algunas personas pueden
entrar en pánico por la cantidad de cálculos, matrices, coeficientes y cifras,
sin embargo existen software de fácil acceso que realizan todos estos cálculos.
En particular en Plepso Investigaciones
se acostumbra utilizar para el Procesamiento
de Datos Estadísticos el programa SPSS
Índice de Validez
Las puntuaciones de los N sujetos en un ítem j pueden correlacionarse
también con las que estos sujetos obtienen en un criterio de validación externo
al test (Y); esta Correlación
Lineal define el índice de validez del ítem j:
Vj= rjy
El criterio de validación "Y" es una medida diferente del test
para reflejar el mismo rasgo u otro muy relacionado, de tal manera que si el
test mide lo que se pretende, debería correlacionar de forma elevada con el
criterio. Por ejemplo, un criterio para validar un test de inteligencia verbal
puede ser otro test que incluye cuestiones verbales; los supervisores de unos
trabajadores podrían valorar el grado de motivación de cada uno y utilizar
estas valoraciones como el criterio de validación de un test de motivación
laboral; el total de ventas en pesetas que realizan los vendedores puede ser un
buen criterio para validar un test de aptitud para la venta.
Supongamos que partimos de los datos del ejemplo precedente, y que
conocemos las puntuaciones directas de las 5 personas en un criterio Y:
Sujeto: 1 2 3 4 5
Y: 5 3 6 0 6
Los índices de validez de los tres ítems serán:
V1= r1Y = 0,87
V2= r2Y = 0,88
V3= r3Y = 0,54
Los elementos que tengan una correlación con el criterio próxima a cero
deberían eliminarse de la prueba, en la medida que no contribuyen a evaluar el
rasgo que se pretende medir. Si lo que se pretende es seleccionar los ítems que
más contribuyen a la validez del cuestionario, de entre los ítems de igual
varianza, serían preferibles los que tienen alto Vj y bajo Hj.
Este tema se seguirá desarrollando y explicando en próximas entregas,
por favor haga sus comentarios, críticas constructivas para mejorar este sitio
de discusión y aprendizaje. Suscríbase al blog y comparta este contenido.
Para procesamiento, análisis e interpretación de test psicológicos y
estudios cuantitativos puede contactarnos en el sitio http://www.plepso.com.ve
Hasta una próxima entrega.
OTROS ARTÍCULOS DE INTERÉS
|
||
|
|
|
REFERENCIAS
BIBLIOGRÁFICAS Y DOCUMENTALES
Amón J. (1984).
Estadística para psicólogos. Probabilidad. Estadística Inferencial. Volumen 2.
3ª edición. Madrid: Pirámide.
Hambleton R.K,
Swaminathan H. y H.J. Rogers (1991). Fundamentals of Item Response Theory. MMSS volumen 2. Londres: Sage.
Hambleton R.K. y Swaminathan H. (1985). Item
Response Theory: Principles and applications. Boston: Kluwer.
Kerlinger, F. (1988).
Investigación del Comportamiento. Segunda Edición. México. Editorial McGraw-Hill.
López Pina, José
Antonio (1995). Teoría de la respuesta al ítem: fundamentos. Barcelona: PPU.
Barcelona.
Muñiz Fernández J.
(1997). Introducción a la Teoría de Respuesta a los Items. Madrid: Pirámide.
Olea, J. y Ponsoda,
V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.
Olea, J., Ponsoda,
V. y Prieto, G. (1997). Tests informatizados. Madrid: Pirámide.
Ponsoda V., Olea J.
y Revuelta J. (1994). ADTEST:
A computer adaptive test based on the maximum information principle.
Educational and Psychological Measurement, 57, 2, 210-221.
Reckase M.D. (1979). Unifactor latent trait
models applied to multi-factor tests: Results and implications. Journal
of Educational Statistics, 4, 207-230.
Renom J. (1993).
Tests adaptativos computerizados. Fundamentos y aplicaciones. Barcelona: PPU.
The king casino no deposit bonus, free spins, bitcoin - CommunityKhabar
ResponderEliminarNo casinosites.one deposit communitykhabar bonus, casino-roll.com free spins, bitcoin. No deposits bonus. No withdrawals, herzamanindir.com/ bitcoin no deposit 바카라사이트 bonuses, free spins, bitcoin, 10k followers.