Una prueba de inteligencia general tendrá un elevado grado de validez
si asigna puntuaciones altas a las personas muy inteligentes, puntuaciones
medias a las personas medianamente inteligentes y puntuaciones bajas a las
personas de poca inteligencia.
Tratando de
explicar el comportamiento de las personas, su evaluación y diagnóstico para poder
brindar la ayuda necesaria y oportuna, la psicometría ha venido diseñando experimentos
y pruebas con esa finalidad, surgiendo interrogantes para quien desconoce o se
introduce en el Proceso
de Construcción de un Test Psicométrico y lo primero en preguntarse es ¿Qué
es lo que realmente se está midiendo con este test?
Por lo tanto, una
cosa es que el test mida de manera precisa o estable (esta cualidad se refiere
a su fiabilidad),
y otra diferente es la cuestión de qué es lo que auténticamente está evaluando.
No obstante, En el ámbito psicosocial, los diferentes
constructos resultan difícil operacionalizar de manera indiscutible, y a veces
se producen dudas razonables sobre qué mide un determinado test.
Así, una prueba
de inteligencia general tendrá un elevado grado de validez si asigna puntuaciones
altas a las personas muy inteligentes, puntuaciones medias a las personas
medianamente inteligentes y puntuaciones bajas a las personas de poca
inteligencia. Igualmente un cuestionario para evaluar el nivel de autoestima
tendrá un elevado nivel de validez si se demuestra que mide de forma exhaustiva
todos los componentes en que puede manifestarse la autoestima.
En este mismo
orden de ideas, la validación es un proceso continuo, que incluye
procedimientos diferentes para comprobar si el cuestionario mide realmente lo
que dice medir. Dicho de otro modo, tiene que ver con el tipo de
conclusiones o inferencias que pueden realizarse a partir de las puntuaciones
obtenidas en el test. Las inferencias pueden ser de muy diverso tipo: ¿qué
rasgo se está midiendo realmente? ¿Qué puede predecirse sobre el comportamiento
de un sujeto que obtiene una determinada puntuación en el test? ¿Qué
consecuencias de diverso tipo tiene esa puntuación, en contextos de evaluación
o selección?
Aunque cada vez
se tiende más a concebir la validez como un proceso unitario que tiene como objetivo
aportar pruebas sobre las inferencias que puede realizarse con un test,
tradicionalmente se han diferenciado varios procedimientos de validación,
alguno de los cuales incluye varios métodos diferentes de comprobación. Los
fundamentales procedimientos son denominados como validez de contenido, de
constructo y referida al criterio.
Validez de Contenido
Sobre todo en
pruebas de rendimiento (por ejemplo, pruebas de inteligencia, de aptitudes, etc.)
y en pruebas de conocimientos (cuestionarios para evaluar el rendimiento en una
materia escolar o en una especialidad temática concreta), tiene sentido
justificar que el conjunto de ítems que forman el test conforman una Muestra
Representativa del universo de contenidos que interesa evaluar. Un test de
conocimientos de Química en 2º año del Ciclo Diversificado de Secundaria, por
ejemplo, debería incluir cuestiones representativas de los diferentes núcleos
de contenidos que oficialmente deben impartirse en ese nivel de estudios. Sería
una prueba poco válida si incluye demasiadas cuestiones de unos temas y muy
pocas de otros.
Para
justificar, aunque sólo sea racionalmente, que un test posee validez de contenido,
debe quedar bien definido el universo o dominio conductual de referencia:
especificar claramente cuáles son los contenidos de Química que debe conocer un
alumno de 2º año del Diversificado, cuáles son los componentes que interesa
considerar en un cuestionario de cultura general, qué tipo de conocimientos y
destrezas son las pertinentes para medir el nivel básico de inglés, etc.
En definitiva, se
refiere a explicitar claramente los objetivos de la evaluación y la importancia
que se quiere dar a cada uno, lo que determinará la cantidad de
cuestiones a incluir referidas a cada uno de esos objetivos. En definitiva, la
validez de contenido es un tema particular del Muestreo:
si se desea realizar inferencias sobre el rendimiento de las personas en una
población de contenidos determinada, el test debe incluir una Muestra
Representativa de dichos contenidos.
El proceso de
validación de contenido es eminentemente lógico, si bien pueden utilizarse el juicio
expertos en el tema para valorar la congruencia entre los diversos ítems
y los diversos objetivos.
Existen procedimientos
cuantitativos diversos para que cada experto valore el grado en que un ítem
sirve para evaluar el objetivo al que corresponde. El procedimiento
cuantitativo más sencillo sería el siguiente:
- Especificar
los diversos objetivos (v.gr. áreas diferentes de contenidos) que se pretenden
evaluar.
- Elaborar
varios ítems para cada objetivo.
- Seleccionar
una muestra de expertos en el contenido del test.
- Pedirles que,
según su opinión, asignen cada ítem al objetivo que pretende medir.
- Seleccionar los
ítems en los que los expertos manifiestan mayor acuerdo en sus clasificaciones.
Muy en relación
con la validez de contenido se encuentra lo que se ha dado en llamar "validez
aparente", que se refiere al grado en que un test da la impresión a
quienes se evalúa de que mide lo que se pretende. En situaciones aplicadas, es
importante que las personas perciban que los ítems del test tienen que ver con
la finalidad que se persigue con el proceso de evaluación.
Validez de Constructo
Un constructo
es un concepto elaborado por los teóricos de la Psicología para explicar el comportamiento
humano. Inteligencia fluida, extroversión, autoconcepto, asertividad, motivación
intrínseca son constructos que forman parte de teorías psicológicas y que
precisan de indicadores observables para su estudio. En muchas ocasiones, estos
indicadores son los ítems de un test, y debe comprobarse empíricamente que
resultan adecuados para reflejar el constructo de referencia
Estrategias
para la validez de constructo
La validez de
constructo incluye la planificación y ejecución de determinados estudios de investigación
orientados a comprobar empíricamente que un test mide realmente el constructo o
rasgo que se pretende medir.
Aunque los
métodos a emplear son sin duda variados, así como la Técnicas
Estadísticas para Analizar los Datos, puede encontrarse un común
denominador a todos ellos, que se sintetiza en las siguientes fases:
1. Formular hipótesis
relevantes (extraídas de deducciones teóricas o del sentidocomún) en las que
aparezca el constructo que pretende evaluarse con el test. En definitiva, una
hipótesis de trabajo consiste en poner en relación dos o más variables. Pues
bien, una de esas variables ha de ser el constructo que pretende medirse con el
test.
2. Efectuar en la práctica
mediciones oportunas de las variables o constructos involucrados en las
hipótesis. La medición del constructo de interés se realizará con la prueba
diseñada a tal efecto, que es la que pretendemos validar.
3. Determinar si se verifican o
no las hipótesis planteadas. En el caso de que así sea, queda confirmado mediante una
investigación que el test mide el constructo de interés ya que, de lo
contrario, no habría razones lógicas para que se cumplieran las hipótesis formuladas.
Si las hipótesis no se confirman no significa en principio que el test no es válido,
ya que puede ser debido a que las hipótesis no estaban planteadas de manera adecuada,
lo cual exigiría una revisión de la teoría subyacente.
Imagínese, por
ejemplo, que un investigador está interesado en validar una prueba de motivación
intrínseca-extrínseca que ha construido. Desde la teoría motivacional de
partida se puede deducir que las personas motivadas intrínsecamente (por el
mero placer que les supone la ejecución de determinadas tareas) deberían rendir
mejor en actividades escolares que las personas motivadas por razones
extrínsecas (deseos de alcanzar determinada nota o determinado refuerzo
externo).
Para validar su
prueba, el investigador tiene que demostrar empíricamente que mide
auténticamente el constructo motivacional que se pretende, y podría proceder de
la siguiente manera:
a) Aplicar el
test a un grupo amplio de alumnos del nivel escolar apropiado.
b) Recoger
información de cada alumno sobre su nivel intelectual, su calificación académica
media en el último curso y las horas que dedica al estudio.
c) Formar dos
grupos diferentes (A y B), de tal manera que ambos tengan un mismo nivel
intelectual medio y que ocupen un número similar de horas en el estudio, pero
que el grupo A tenga niveles altos de motivación intrínseca y el B niveles
altos de motivación extrínseca.
d) Comparar el
rendimiento académico de los dos grupos. Si la hipótesis de partida fuera cierta,
el grupo A debería rendir significativamente más que el grupo B, con lo cual se
aportaría información sobre la validez del test. Desde luego, si el test no
midiera motivación, sería improbable que se verificase la hipótesis de trabajo.
Pueden ser muy variados los métodos a seguir que, cumpliendo el proceso de
ejecución planteado anteriormente, sirvan para poner a prueba la validez de
constructo de un test. En cada caso habrá que seguir el que más convenga para
contrastar las hipótesis de partida, pero algunos métodos suelen ser más
frecuentes. Entre ellos se destacan:
- Obtener las
relaciones entre las puntuaciones en el test y en otras variables que deberían relacionarse
con el constructo de interés. Si el modelo teórico está bien fundamentado, debe
establecer relaciones entre el constructo de interés y otros diferentes, y por
tanto debe ser posible establecer diseños de investigación para contrastar las
previsiones teóricas. Por ejemplo, Moltó
(1988) predice (y comprueba) que la escala de susceptibilidad al castigo (que
mide el grado de evitación de situaciones reales aversivas) debe
proporcionar puntuaciones relacionadas directamente con neuroticismo e inversamente con estabilidad emocional.
- Evaluar
mediante el test a grupos que se supone deben ser diferentes en el constructo, para
comprobar si realmente es así. Resulta un enfoque eminentemente diferencial: si
el test es válido, debería reflejar las diferencias entre grupos que se
predicen desde la teoría psicológica. Por ejemplo, si un Test
de Inteligencia General para edades infantiles es válido, debería reflejar
el mayor rendimiento de los niños de más edad.
- Utilizar una
estrategia experimental para comprobar si el test resulta sensible para detectar
los efectos previsibles debidos a la manipulación o selección de los niveles en
una o más variables independientes. El ejemplo expuesto anteriormente sobre motivación
y rendimiento puede servir para entender esta estrategia.
- Aplicar la Técnica
Multivariada del Análisis
Factorial (exploratorio o confirmatorio) sobre la Matriz
de Correlaciones entre ítems, para descubrir estadísticamente las variables
o dimensiones subyacentes (factores) a la covariación entre los elementos.
En este conteto
se tiene que para la aplicación de este último método, denominado validez de
constructo factorial, requiere alguna precisión que puede ser pertinente por
fundamentarse en una técnica estadística relativamente sofisticada y, sobre
todo, porque su utilización práctica es muy extensa. Y es por esto que
preferimos abordar el tema de Validez de Constructo Factorial como
un aparte y será desarrollado posteriormente en un nuevo artículo.
Para procesamiento, análisis e interpretación de test psicológicos y
estudios cuantitativos puede contactarnos en el sitio http://www.plepso.com.ve
Hasta una próxima entrega.
OTROS ARTÍCULOS DE INTERÉS
|
||
|
|
|
REFERENCIAS
BIBLIOGRÁFICAS Y DOCUMENTALES
Amón J. (1984).
Estadística para psicólogos. Probabilidad. Estadística Inferencial. Volumen 2.
3ª edición. Madrid: Pirámide.
Hambleton R.K, Swaminathan H. y H.J. Rogers
(1991). Fundamentals of Item Response Theory. MMSS volumen 2. Londres: Sage.
Hambleton R.K. y Swaminathan H. (1985). Item
Response Theory: Principles and applications. Boston: Kluwer.
Kerlinger, F.
(1988). Investigación del Comportamiento. Segunda Edición. México.
Editorial McGraw-Hill.
López Pina, José
Antonio (1995). Teoría de la respuesta al ítem: fundamentos. Barcelona: PPU.
Barcelona.
Muñiz Fernández J.
(1997). Introducción a la Teoría de Respuesta a los Items. Madrid: Pirámide.
Olea, J. y Ponsoda,
V. (2003). Tests adaptativos informatizados. Madrid: UNED Ediciones.
Olea, J., Ponsoda,
V. y Prieto, G. (1997). Tests informatizados. Madrid: Pirámide.
Ponsoda V., Olea J.
y Revuelta J. (1994). ADTEST:
A computer adaptive test based on the maximum information principle.
Educational and Psychological Measurement, 57, 2, 210-221.
Reckase M.D. (1979). Unifactor latent trait
models applied to multi-factor tests: Results and implications. Journal
of Educational Statistics, 4, 207-230.
Renom J. (1993).
Tests adaptativos computerizados. Fundamentos y aplicaciones. Barcelona: PPU.
No hay comentarios:
Publicar un comentario