Temas de Psicometría: DESCUBRA QUÉ ES LO QUE REALMENTE SE EVALÚA CON UN TEST PSICOLÓGICO

Una prueba de inteligencia general tendrá un elevado grado de validez si asigna puntuaciones altas a las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y puntuaciones bajas a las personas de poca inteligencia.

Tratando de explicar el comportamiento de las personas, su evaluación y diagnóstico para poder brindar la ayuda necesaria y oportuna, la psicometría ha venido diseñando experimentos y pruebas con esa finalidad, surgiendo interrogantes para quien desconoce o se introduce en el Proceso de Construcción de un Test Psicométrico y lo primero en preguntarse es ¿Qué es lo que realmente se está midiendo con este test?

Por lo tanto, una cosa es que el test mida de manera precisa o estable (esta cualidad se refiere a su fiabilidad), y otra diferente es la cuestión de qué es lo que auténticamente está evaluando.

No obstante, En el ámbito psicosocial, los diferentes constructos resultan difícil operacionalizar de manera indiscutible, y a veces se producen dudas razonables sobre qué mide un determinado test.

Así, una prueba de inteligencia general tendrá un elevado grado de validez si asigna puntuaciones altas a las personas muy inteligentes, puntuaciones medias a las personas medianamente inteligentes y puntuaciones bajas a las personas de poca inteligencia. Igualmente un cuestionario para evaluar el nivel de autoestima tendrá un elevado nivel de validez si se demuestra que mide de forma exhaustiva todos los componentes en que puede manifestarse la autoestima.

En este mismo orden de ideas, la validación es un proceso continuo, que incluye procedimientos diferentes para comprobar si el cuestionario mide realmente lo que dice medir. Dicho de otro modo, tiene que ver con el tipo de conclusiones o inferencias que pueden realizarse a partir de las puntuaciones obtenidas en el test. Las inferencias pueden ser de muy diverso tipo: ¿qué rasgo se está midiendo realmente? ¿Qué puede predecirse sobre el comportamiento de un sujeto que obtiene una determinada puntuación en el test? ¿Qué consecuencias de diverso tipo tiene esa puntuación, en contextos de evaluación o selección?

Aunque cada vez se tiende más a concebir la validez como un proceso unitario que tiene como objetivo aportar pruebas sobre las inferencias que puede realizarse con un test, tradicionalmente se han diferenciado varios procedimientos de validación, alguno de los cuales incluye varios métodos diferentes de comprobación. Los fundamentales procedimientos son denominados como validez de contenido, de constructo y referida al criterio.

Validez de Contenido

Sobre todo en pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc.) y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una materia escolar o en una especialidad temática concreta), tiene sentido justificar que el conjunto de ítems que forman el test conforman una Muestra Representativa del universo de contenidos que interesa evaluar. Un test de conocimientos de Química en 2º año del Ciclo Diversificado de Secundaria, por ejemplo, debería incluir cuestiones representativas de los diferentes núcleos de contenidos que oficialmente deben impartirse en ese nivel de estudios. Sería una prueba poco válida si incluye demasiadas cuestiones de unos temas y muy pocas de otros.

Para justificar, aunque sólo sea racionalmente, que un test posee validez de contenido, debe quedar bien definido el universo o dominio conductual de referencia: especificar claramente cuáles son los contenidos de Química que debe conocer un alumno de 2º año del Diversificado, cuáles son los componentes que interesa considerar en un cuestionario de cultura general, qué tipo de conocimientos y destrezas son las pertinentes para medir el nivel básico de inglés, etc.

En definitiva, se refiere a explicitar claramente los objetivos de la evaluación y la importancia que se quiere dar a cada uno, lo que determinará la cantidad de cuestiones a incluir referidas a cada uno de esos objetivos. En definitiva, la validez de contenido es un tema particular del Muestreo: si se desea realizar inferencias sobre el rendimiento de las personas en una población de contenidos determinada, el test debe incluir una Muestra Representativa de dichos contenidos.

El proceso de validación de contenido es eminentemente lógico, si bien pueden utilizarse el juicio expertos en el tema para valorar la congruencia entre los diversos ítems y los diversos objetivos.

Existen procedimientos cuantitativos diversos para que cada experto valore el grado en que un ítem sirve para evaluar el objetivo al que corresponde. El procedimiento cuantitativo más sencillo sería el siguiente:

- Especificar los diversos objetivos (v.gr. áreas diferentes de contenidos) que se pretenden evaluar.

- Elaborar varios ítems para cada objetivo.

- Seleccionar una muestra de expertos en el contenido del test.

- Pedirles que, según su opinión, asignen cada ítem al objetivo que pretende medir.

- Seleccionar los ítems en los que los expertos manifiestan mayor acuerdo en sus clasificaciones.

Muy en relación con la validez de contenido se encuentra lo que se ha dado en llamar "validez aparente", que se refiere al grado en que un test da la impresión a quienes se evalúa de que mide lo que se pretende. En situaciones aplicadas, es importante que las personas perciban que los ítems del test tienen que ver con la finalidad que se persigue con el proceso de evaluación.

Validez de Constructo

Un constructo es un concepto elaborado por los teóricos de la Psicología para explicar el comportamiento humano. Inteligencia fluida, extroversión, autoconcepto, asertividad, motivación intrínseca son constructos que forman parte de teorías psicológicas y que precisan de indicadores observables para su estudio. En muchas ocasiones, estos indicadores son los ítems de un test, y debe comprobarse empíricamente que resultan adecuados para reflejar el constructo de referencia

Estrategias para la validez de constructo

La validez de constructo incluye la planificación y ejecución de determinados estudios de investigación orientados a comprobar empíricamente que un test mide realmente el constructo o rasgo que se pretende medir.

Aunque los métodos a emplear son sin duda variados, así como la Técnicas Estadísticas para Analizar los Datos, puede encontrarse un común denominador a todos ellos, que se sintetiza en las siguientes fases:

1. Formular hipótesis relevantes (extraídas de deducciones teóricas o del sentidocomún) en las que aparezca el constructo que pretende evaluarse con el test. En definitiva, una hipótesis de trabajo consiste en poner en relación dos o más variables. Pues bien, una de esas variables ha de ser el constructo que pretende medirse con el test.

2. Efectuar en la práctica mediciones oportunas de las variables o constructos involucrados en las hipótesis. La medición del constructo de interés se realizará con la prueba diseñada a tal efecto, que es la que pretendemos validar.

3. Determinar si se verifican o no las hipótesis planteadas. En el caso de que así sea, queda confirmado mediante una investigación que el test mide el constructo de interés ya que, de lo contrario, no habría razones lógicas para que se cumplieran las hipótesis formuladas. Si las hipótesis no se confirman no significa en principio que el test no es válido, ya que puede ser debido a que las hipótesis no estaban planteadas de manera adecuada, lo cual exigiría una revisión de la teoría subyacente.

Imagínese, por ejemplo, que un investigador está interesado en validar una prueba de motivación intrínseca-extrínseca que ha construido. Desde la teoría motivacional de partida se puede deducir que las personas motivadas intrínsecamente (por el mero placer que les supone la ejecución de determinadas tareas) deberían rendir mejor en actividades escolares que las personas motivadas por razones extrínsecas (deseos de alcanzar determinada nota o determinado refuerzo externo).

Para validar su prueba, el investigador tiene que demostrar empíricamente que mide auténticamente el constructo motivacional que se pretende, y podría proceder de la siguiente manera:

a) Aplicar el test a un grupo amplio de alumnos del nivel escolar apropiado.

b) Recoger información de cada alumno sobre su nivel intelectual, su calificación académica media en el último curso y las horas que dedica al estudio.

c) Formar dos grupos diferentes (A y B), de tal manera que ambos tengan un mismo nivel intelectual medio y que ocupen un número similar de horas en el estudio, pero que el grupo A tenga niveles altos de motivación intrínseca y el B niveles altos de motivación extrínseca.

d) Comparar el rendimiento académico de los dos grupos. Si la hipótesis de partida fuera cierta, el grupo A debería rendir significativamente más que el grupo B, con lo cual se aportaría información sobre la validez del test. Desde luego, si el test no midiera motivación, sería improbable que se verificase la hipótesis de trabajo. Pueden ser muy variados los métodos a seguir que, cumpliendo el proceso de ejecución planteado anteriormente, sirvan para poner a prueba la validez de constructo de un test. En cada caso habrá que seguir el que más convenga para contrastar las hipótesis de partida, pero algunos métodos suelen ser más frecuentes. Entre ellos se destacan:

- Obtener las relaciones entre las puntuaciones en el test y en otras variables que deberían relacionarse con el constructo de interés. Si el modelo teórico está bien fundamentado, debe establecer relaciones entre el constructo de interés y otros diferentes, y por tanto debe ser posible establecer diseños de investigación para contrastar las previsiones teóricas. Por ejemplo, Moltó (1988) predice (y comprueba) que la escala de susceptibilidad al castigo (que mide el grado de evitación de situaciones reales aversivas) debe proporcionar puntuaciones relacionadas directamente con neuroticismo e inversamente con estabilidad emocional.

- Evaluar mediante el test a grupos que se supone deben ser diferentes en el constructo, para comprobar si realmente es así. Resulta un enfoque eminentemente diferencial: si el test es válido, debería reflejar las diferencias entre grupos que se predicen desde la teoría psicológica. Por ejemplo, si un Test de Inteligencia General para edades infantiles es válido, debería reflejar el mayor rendimiento de los niños de más edad.

- Utilizar una estrategia experimental para comprobar si el test resulta sensible para detectar los efectos previsibles debidos a la manipulación o selección de los niveles en una o más variables independientes. El ejemplo expuesto anteriormente sobre motivación y rendimiento puede servir para entender esta estrategia.

- Aplicar la Técnica Multivariada del Análisis Factorial (exploratorio o confirmatorio) sobre la Matriz de Correlaciones entre ítems, para descubrir estadísticamente las variables o dimensiones subyacentes (factores) a la covariación entre los elementos.

En este conteto se tiene que para la aplicación de este último método, denominado validez de constructo factorial, requiere alguna precisión que puede ser pertinente por fundamentarse en una técnica estadística relativamente sofisticada y, sobre todo, porque su utilización práctica es muy extensa. Y es por esto que preferimos abordar el tema de Validez de Constructo Factorial como un aparte y será desarrollado posteriormente en un nuevo artículo.

Para procesamiento, análisis e interpretación de test psicológicos y estudios cuantitativos puede contactarnos en el sitio http://www.plepso.com.ve

Hasta una próxima entrega.

OTROS ARTÍCULOS DE INTERÉS

PROCESO DE CONSTRUCCIÓN DE UN TEST PSICOMÉTRICO (I)	PROCESO DE CONSTRUCCIÓN DE UN TEST PSICOMÉTRICO (II)	PROCESO DE CONSTRUCCIÓN DE UN TEST PSICOMÉTRICO (III)

REFERENCIAS BIBLIOGRÁFICAS Y DOCUMENTALES

Amón J. (1984). Estadística para psicólogos. Probabilidad. Estadística Inferencial. Volumen 2. 3ª edición. Madrid: Pirámide.

Hambleton R.K, Swaminathan H. y H.J. Rogers (1991). Fundamentals of Item Response Theory. MMSS volumen 2. Londres: Sage.

Hambleton R.K. y Swaminathan H. (1985). Item Response Theory: Principles and applications. Boston: Kluwer.

Kerlinger, F. (1988). Investigación del Comportamiento. Segunda Edición. México. Editorial McGraw-Hill.

López Pina, José Antonio (1995). Teoría de la respuesta al ítem: fundamentos. Barcelona: PPU. Barcelona.

Muñiz Fernández J. (1997). Introducción a la Teoría de Respuesta a los Items. Madrid: Pirámide.

Olea, J. y Ponsoda, V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.

Olea, J., Ponsoda, V. y Prieto, G. (1997). Tests informatizados. Madrid: Pirámide.

Ponsoda V., Olea J. y Revuelta J. (1994). ADTEST: A computer adaptive test based on the maximum information principle. Educational and Psychological Measurement, 57, 2, 210-221.

Reckase M.D. (1979). Unifactor latent trait models applied to multi-factor tests: Results and implications. Journal of Educational Statistics, 4, 207-230.

Renom J. (1993). Tests adaptativos computerizados. Fundamentos y aplicaciones. Barcelona: PPU.

Temas de Psicometría

viernes, 15 de septiembre de 2017

DESCUBRA QUÉ ES LO QUE REALMENTE SE EVALÚA CON UN TEST PSICOLÓGICO

No hay comentarios:

Publicar un comentario