Buenas noches, quiero en primer lugar saludar a los alumnos de educación de Burgos, Soria, Segovia y Palencia. La verdad es que son ciudades muy bonitas y dignas de ver. Yo siempre recuerdo Burgos, donde tengo familia, en Gamonal, en dirección hacia Vitoria, y que tengo muy gratos recuerdos. Soria, aquí al lado de donde estamos, pues también voy bastante por allí. Voy mucho a Burgos de Osma, a Berlanga de Duero, y tiene unos parajes increíbles. Todo lo que tiene que ver al lado con Atienza, con Rello, con toda esa zona, la verdad es que tiene una belleza inigualable. Palencia lo conozco menos y Segovia también está al lado. De vez en cuando hago alguna escapada por allí. Entonces, bueno, pues a todos un saludo cordial y espero que las grabaciones y el foro sea un instrumento útil para ayudaros a superar la asignatura. Vamos a ver hoy el tema 2. El tema 2 lleva como título las características técnicas de los instrumentos de medida. Es un tema que quizás sea de los más engorrosos de todo el temario, porque es el que tiene más fórmulas estadísticas y el que tiene más... ...dificultad a la hora de entenderlo. Entendido este, los demás ya veréis como sin duda alguna os van a parecer mucho más fáciles. Entonces la idea es centrarme en los conceptos más básicos y que luego me podéis hacer cualquier pregunta a través del foro o del correo electrónico. Vamos a ir comenzando viendo una serie de transparencias que nos ayuden a llevar todo a la grabación. Hablamos del concepto de medición. Es importante... ...en educación, como dijimos el primer día, medir. De hecho, muchos científicos no han considerado científica ni la educación, la sociología, la psicología, las ciencias sociales, porque decían que no se podía medir. Evidentemente ya sabéis que tenemos a Stevens. Stevens es un científico que nos dice y nos aporta las escalas de medida. Y dentro de las escalas de medida nos dice que podemos encontrar variables en ciencias sociales. Con un nivel de medida nominal, ordinal, de intervalo o razón. Casi todas las pruebas pedagógicas van a ser de intervalo, dicho ya sea de paso. Sigamos. El medir consiste en aplicar un patrón, una regla, un metro, a un objeto que queramos ver sus dimensiones. Es decir, yo cojo una regla, la aplico a una mesa y digo, esta mesa equivale a tres reglas o a tres metros. La unidad de medida en concreto. Entonces es importante saber a qué nos referimos. Siempre medimos con arreglo a un patrón de referencia. Vamos a ver que en psicología, en pedagogía, en ciencias sociales vamos a medir con encuestas, con escalas y con instrumentos que llamamos test. Entonces muchos test van a estar en el mercado. La mayor parte de ellos hoy día están en el mercado y podemos recurrir a ellos a través de revistas científicas. Las revistas que edita, por ejemplo, TEA. O MEPSA. Pero bueno, de vez en cuando vamos a tener que medir algún rasgo que no exista y tenemos que construir nosotros la prueba, construir nosotros el test. Entonces nos va a ayudar un poquito este tema a entender qué tenemos que tener en cuenta. Y si no, cuando nos enfrentemos a una prueba, ver la calidad que tiene esa prueba, la calidad métrica. En función de lo que vamos a ir dando. Y luego también, pues una vez que apliquemos una prueba, recogemos datos. ¿Qué hacemos con esos datos? Analizarlos, tratarlos. Estas conclusiones y con esas conclusiones al final, pues tomar una decisión. ¿De acuerdo? Vamos a continuar. Vamos a ver, el tema SEBASA tiene como dos partes muy generales. Que se refiere a la medida, como decimos en educación. Por una parte tenemos lo que llamamos la teoría clásica de test. Que es la teoría que nos va a permitir sumar las puntuaciones de los ítems de una prueba y obtener una puntuación final. Y por otra parte tenemos, frente a la teoría clásica de test. La teoría de respuesta al ítem. Vamos a ver que tienen semejanzas y tienen diferencias. Y lo vamos a ir viendo a lo largo del tema. La teoría clásica de test nos dice que tenemos que basarnos en una serie de parámetros a la hora de analizar un test. Entre otros son la dificultad de sus ítems o elementos. Ya sabéis que un ítem es un elemento, una pregunta de un test. Por la dificultad, ahora veremos cómo se halla la dificultad. También tenemos que ver el índice de discriminación. Tenemos que ver si el ítem discrimina entre los que mejor puntúan en el test y los que peor puntúan en el test. Un ítem bueno debe favorecer que elijamos a sujetos que puntúen de forma media en el test. Que lo hagan mal los que puntúen bajo en el test. Y que lo hagan muy bien los que puntúen alto en el test. Entonces vamos a ver que en una prueba tenemos que introducir ítems. Los ítems con diferente grado de discriminación, la mayor parte de ítems que tengamos en la prueba van a ser de discriminación media. Pero tenemos que tener ítems fáciles e ítems difíciles para un poco compensar. Los distractores, ahora veremos lo que son los distractores. En un ítem que solamente sea de escribir, de respuesta libre, no hay distractores. Pero cuando tenemos varias alternativas, varias opciones de respuesta, sí que tenemos distractores. Los distractores son aquellas respuestas... ...aquellas opciones del ítem que no son las correctas, no son válidas y por lo tanto no serían las adecuadas. Entonces vamos a ver qué propiedades tienen que tener. Y luego sumando las puntuaciones de los ítems nos da una puntuación global. Vamos a ver las medidas, las garantías científicas de todo test que son la fiabilidad o precisión. Es decir que si aplicamos dos veces el test nos daría lo mismo y la validez. Es decir que el ítem mide aquello que queremos medir. Y luego la dimensionalidad, cuántas dimensiones tiene. Tiene un test, una prueba. Acordaos que por ejemplo la prueba de personalidad, el EPI de Heysen, tiene tres dimensiones. Extroversión e introversión, que sería una dimensión. También tiene psicoticismo y neuroticismo. Entonces vemos que tiene varias dimensiones. Hay pruebas que tienen una dimensión y otras varias. El Weisler pues tiene varias dimensiones. Tiene todo lo que tiene que ver con la inteligencia verbal. Tiene inteligencia manipulativa. Luego tendríamos dos dimensiones de las que forman parte varias subpruebas. O los test de inteligencia diferencial pues tienen una dimensión que sería la actitud verbal, la actitud numérica, la actitud espacial, la actitud mecánica, etcétera. Entonces vamos a ver que los ítems pueden tener una o varias dimensiones. Cuantas más dimensiones tengan pues va a ser más complejo el test. Continuamos. Vamos a empezar por la dificultad que será el primer parámetro que tenemos que tener en cuenta en un test. La dificultad del ítem. La dificultad se mide pues en función del número de personas que contesten en concreto a ese ítem. Entonces va a depender de la muestra. No es lo mismo una muestra de 500 sujetos que una muestra de 100 sujetos. Ni las características de la propia muestra. El índice de dificultad es una fórmula. Una fórmula que nos dice que tenemos que hallar la proporción entre el número de sujetos que contestan adecuadamente relacionado con el número de sujetos que contestan. Y los números totales que contestan al test. Si fuera un test de elección múltiple, de los que hemos dicho que tienen varias alternativas de respuesta. Por ejemplo de ABC o ABCD. Pues se aplica una fórmula para compensar los efectos o para corregir los efectos del azar. Y esta fórmula sería, aciertos menos errores partido de alternativas menos uno. Si tiene ABCD cuatro alternativas pues sería cuatro menos uno, tres. ¿Vale? Si tiene tres. Si tuviera tres alternativas. Fuera un test que hubiera que elegir entre A, B y C. Pues sería errores partido por tres menos uno, dos. ¿Vale? Bien. La n sería el número de sujetos que se enfrentan al test. Seguimos. El índice de dificultad. ¿Cómo vamos a saber si un ítem es difícil o no? Pues bueno, pues ese índice de dificultad. Si es superior a cero setenta y cinco decimos que es muy fácil. Si está entre cero cincuenta y cinco y cero setenta y cinco. Lo consideramos que es pues un ítem. Podemos decir que es un ítem fácil. Si el test tiene el índice de dificultad fuera cero cuarenta y cinco. A cero cincuenta y cuatro. Decimos que es un ítem normal. Podemos considerar normal. Y bueno, pues sería un ítem que se puede trabajar con él en este sentido. Y si fuera un ítem que estuviera entre cero veinticinco y cero cuarenta y cuatro. Podríamos decir que es un ítem difícil de resolver. Y si fuera menos de cero veinticinco el índice de dificultad. Estaríamos ante un ítem muy difícil. Como decíamos en una prueba. Normalmente lo que yo hago es incluir ítem de dificultad media. Muchos. Y una pequeña cantidad de ítem de dificultad alta y baja. ¿Por qué? Porque si yo quiero que también la prueba me discrimine aquellos sujetos que funcionan muy bien en el rasgo. Tendré que incluir algunos ítems que puedan evaluar la capacidad de esos sujetos que puntúan alto en el rasgo. Igual, o sea, si también quiero que me valga para medir sujetos bajos. Tendré también que incluir aquellos ítems que me permitan determinar. Y seleccionar aquellos sujetos que puntúan bajo en el rasgo. Por lo tanto, también tengo que tener algunos ítems que puedan resolver adecuadamente. Siguiendo, pues vamos a ver, por ejemplo, una serie de ejercicios muy prácticos. Tenemos cuarenta alumnos de una clase. Y nos enfrentamos a un ítem de dos alternativas. A, B o C, ¿no? Que aciertan veinticinco sujetos. Este ítem, ¿qué índice de dificultad tendría? Pues aciertan veinticinco sujetos. Son cuarenta en la clase. Cero es seisciento veinticinco. Sí. Vamos a ver. En la clasificación anterior diríamos que es un ítem fácil. Los mismos cuarenta ítems, pero ese ítem solamente lo aciertan quince alumnos. Bueno, pues quince entre cuarenta, cero trescientos setenta y cinco. Cero treinta y siete es un ítem difícil. Ahora vamos en lugar de dos alternativas, tres alternativas. A, B, C. Aquí si os dais cuenta, esto estaría mal. Aquí tendríamos que poner que aciertan veinticinco en lugar de quince. Y eso estaría bien, ¿vale? Veinticinco aciertan. Quince fallan. Y bueno, pues tendríamos que nos da cero cuarenta y tres. Con cero cuarenta y tres estaríamos ante un ítem difícil, ¿vale? ¿Sabéis por qué? Quiero decir que si fueran quince los que acertaran, pues la fórmula habría que hacerla en el siguiente sentido, ¿vale? Quince menos veinticinco. Tres menos uno. Dos, ¿vale? Y cuarenta que es el... Bueno, pues sería el número de alumnos que hay en la clase. Esto, bueno, pues ¿qué nos daría? Habría que hacer operaciones y veríamos lo que nos daría. No tiene tampoco mayor interés y tampoco vamos a perder el tiempo en esto, ¿no? Vayamos con el siguiente parámetro. El segundo parámetro que hemos dicho que había que valorar es la... El índice de discriminación de un ítem. El índice de discriminación nos sirve para discriminar entre los sujetos con más y con menos aciertos. Y lo que hacemos es, normalmente, correlacionar el ítem con la puntuación del test. De tal manera que un ítem que mida el índice de discriminación sea superior a cero treinta lo consideramos bueno. Y si es cero cuarenta, estupendo. Muy bueno. Tenemos que tener en cuenta cuando vayamos a hacer problemas... Que nos pidan el índice de discriminación, luego haremos alguno... Que la muestra tenemos que coger... Tenemos que coger de la muestra total el 27% de sujetos que... Superior, que responda mejor. Y el 27% de sujetos inferior. Es decir, son colas. Siempre estamos hablando de la teoría clásica del test. Estamos hablando de una... Perdón, vamos a ver... Voy a borrar aquí... A ver, voy a borrar un momentito... Vamos a hacerlo mejor... Vamos a ver si lo hacemos mejor... Vamos a coger aquí un parito... Vale. Hemos dicho que... Bueno, con trazo fino... Y hemos dicho que aquí estamos hablando de la teoría clásica del test. De una curva normal, vale. Entonces tenemos que ver en los extremos. Y aquí consideramos que en los extremos... Es bueno hallar un 27%. De sujetos de la muestra que... Estén aquí... Y que estén aquí. ¿De acuerdo? Bien, pues vamos... Y luego lo que hacemos es... Una diferencia de proporciones. Por ejemplo, imaginaos que tenemos a 300 estudiantes... De un instituto... Y nos dicen que de los 81 que mejor hacen un test... Un ítem concreto, imaginaos el ítem número 5... Que sea pues un problema de matemáticas... Lo aciertan 40. O sea, de los 27% mejores... Lo aciertan... 40, vale. Y de los 27%... Entre los 27% mejores, vale. Y de los 27% peores... En el test... El ítem número 3... Vale. Que puede ser ya como os digo... Un problema o lo que sea... Lo aciertan 12. Este es el 27% peor. ¿Cuál es el índice de discriminación? Pues bueno, el índice de discriminación tendríamos... Que lo calcularíamos... De la siguiente manera, vale. El 27% de 300... Son 81, vale. El 27%, que es el cálculo que siempre que hacemos... Tenemos que hallar el 27% de la muestra. Y el 27% de 300... Es... 81. Ese 81 es el cálculo que nos va a servir... Para... Llevarlo al denominador. Entonces tenemos aquí 40... Que responden del grupo de los buenos... 12 de los malos... Lo dividimos entre 81, que son el número de la clase... Y nos da 0,34. ¿Recuerdas que dijimos que un índice de discriminación... Supera el 0,30? El bueno, por lo tanto, discrimina bien el ítem... No sirve. Continuamos... Y aquí podríamos decir... El tercer parámetro... Que son los distractores. ¿Qué es un distractor hemos dicho? Pues aquellas opciones... De una... De un ítem... Que no son verdad... Y que las metemos... Las incluimos... Pues para comprobar si el sujeto realmente... Bueno, pues conoce... La respuesta adecuada... Y bueno, pues que el azar... No le lleve a... Pues a superar la prueba sin... Sin tener conocimientos suficientes. ¿No? Entonces lo bueno es que... Todas las alternativas que tenga un ítem... Sean equiprobables. Es decir, que el sujeto pueda elegirlas... Con la misma probabilidad... Que la opción A... Pues al sujeto que no sepa... Que le suene igual que... La B o que la C. ¿De acuerdo? Entonces eso... Ahí es importante... Y relevante... El tema de cómo... Seleccionar... Bueno, pues... Cómo... Si realmente son equiprobables o no. Si no son equiprobables... Si no tiene ahí más probabilidad de elección... Los diferentes distractores... Pues habría que anular el ítem... Y diseñar uno nuevo. ¿Y cómo se sabe si los distractores son adecuados? Pues imaginaos... Problema... Vamos a hacerlo con un problema... Tenemos un ítem con cuatro alternativas... A, B, C, D... En este caso la D es la correcta. Entonces... Se lo pasamos el ítem... Del test... Es un test... Forma parte de un test... Y se lo pasamos a los 300 individuos de antes. Y fallan 198. ¿Vale? Entonces... 85 de los 198... Eligen el A... 40 de los 198 eligen el B... Y 73 de los 198 eligen el C. Vamos a ver si este ítem... Los distractores son equiprobables o no. ¿Qué es lo que hacemos? Pues hacemos... Bueno, pues... Hacemos la media... Es decir, si fueran equiprobables... Realmente... ¿Cuántos sujetos tendrían que optar por cada uno de los distractores? Pues si 85 más 40 más 73... Entre 3 nos daría 66. Y ahora lo que hacemos es comparar cada uno de los sujetos... Que fallan en cada uno de los distractores con la media... Que cabría esperar... 85 menos 66... Y esa diferencia la elevamos al cuadrado... 40 menos 66... Y la elevamos al cuadrado... 73 menos 66... La elevamos al cuadrado y nos da... 1645. ¿Y qué hago con esto? Acorda de estadística del año pasado... Que hay una prueba que es la G cuadrada de Pearson... La G cuadrada de Pearson se distribuye... Con K menos 1 categorías... Que son los distractores... En este caso... ¿Cuántos distractores tenemos? 3... Pues K menos 1... 2... Y con el nivel de probabilidad adecuado... En este caso sería... El 95% de probabilidad... ¿Vale? Un nivel de confianza de 0,05... ¿Os acordáis no? Pues a... La G cuadrada que se distribuye con 2 grados de libertad... Y un nivel de confianza de 0,05... Pues nos da... Pues un valor de 599... ¿Esto qué quiere decir? Como 1645 es mayor que 599... Tenemos que rechazar la independencia... Es decir... No son equiprobables los distractores... Tendríamos que modificar el IT... Para mejorar su calidad métrica... Continuamos... Y ahora vamos a ver... Los... Las garantías científicas de un test... Acordar que eran la fiabilidad y la validez... La fiabilidad es... La precisión... ¿Eh? Que dos medidas del mismo test nos darían lo mismo... Y para eso recurrimos a un modelo lineal... La teoría clásica de test tiene un modelo lineal... ¿Qué significa un modelo lineal? Una ecuación de este estilo... Es decir que no es una forma cuadrática... ¿Eh? Que tiene... Sino que... Eh... Se refiere a... Eh... Pues que... A... Es igual... ¿Eh? Eh... Vamos a ver... A es igual a... Eh... B... X más C... ¿Vale? Esto es un modelo lineal... Si aquí pusiéramos un X cuadrado sería un modelo cuadrático... ¿Vale? Entonces un modelo lineal significa que... Eh... Bueno pues... Se podría... Eh... Bueno pues... Representar con una línea... Un modelo cuadrático... Pues... Eh... Con una parábola... ¿Eh? O un modelo exponencial... Pues... Eh... Con... Eh... Con otro tipo de... De curva... ¿Vale? ¿Y qué quiere decir en concreto este modelo lineal? Pues este modelo lineal se refiere a que la puntuación que observemos en un test... Que sería esta de aquí... Es la puntuación verdadera... Que no la conocemos... Y que estimarla... Más... Una vez... El error... El error de medida... Del que hablábamos el otro día... Que los errores siempre nos acompañan... En... Eh... Cualquier tipo de medida... Y... Los supuestos con los que cuenta es que... Si hacemos muchas veces... Si pasamos muchas veces el test... A una muestra... Vamos a obtener la puntuación verdadera... Es decir... La media de las puntuaciones empíricas es la verdadera... Y es decir... La media de las puntuaciones empíricas... El valor esperado de... Eh... La puntuación... Eh... Bueno pues se refiere a que yo lo aplico muchas veces... Tantas veces... Infinitas veces... ¿De acuerdo? También que la correlación entre las puntuaciones empíricas... Es nula... Y que tampoco hay... Correlación entre los errores de medidas... Esto es muy importante eh... Es decir... Hay aleatoriedad de los errores... Y... Eh... Se distribuye... De forma... Independiente la... Eh... La puntuación verdadera y el error... Si hubiera correlación... Pues evidentemente... Eh... No... Eh... Estaríamos juzgando la respuesta... Tenemos que tener en cuenta que la fiabilidad... Es una garantía científica... Pero es una condición necesaria y no suficiente... Y no suficiente... Fijaros... Tendríamos que recurrir también... Para ver la calidad métrica de un test... A lo que llamamos... La validez... Continuando con la fiabilidad... Eh... ¿Cómo se puede calcular? Pues la fiabilidad... Eh... Tenemos... Eh... Con el coeficiente de fiabilidad... Vale... Eh... Normalmente... Eh... Lo que... Se puede hacer... Eh... Es... Ah... Hacer dos formas paralelas del mismo test... Eh... Veis aquí que... El coeficiente de fiabilidad... Eh... Sería... La... Varianza de la puntuación verdadera... Entre... La varianza de... La puntuación que... Observamos... Eh... Que eso también... Eh... Sería... Uno menos... La... Varianza del error... Entre... La varianza de la puntuación... Del test... Si os dais cuenta... Pues bueno... Pues a través de esta fórmula... Estimamos... La puntuación... Eh... Verdadera... Y el error típico de medida... Que sería... El... Bueno... La puntuación del test... La sabemos... Es decir... X... Lo conocemos... La puntuación que saque... Tendríamos que hacer... Eh... La varianza... Entonces... Ya sabéis también... Que la fórmula de... La varianza... Eh... Por si no os acordáis... Es... Eh... X... Menos... El... Su media... Vale... Es la diferencia de esto... Al... Eh... Cuadrado... Vale... A ver... Espera... A ver... Vamos a ponerla bien... A ver... La dife... Vamos a ponerla bien por aquí... Eh... Para que veáis... Cuál es la fórmula de la varianza... Que me imagino que os acordaréis de... La estadística de primero... Bueno... No obstante... Vamos a ponerla... Para que no haya más... Problema... Eh... Vamos a ver... Bien... Decimos que... La varianza... De una... Prueba... Es... Uno... Partido por N... Eh... Por el sumatorio... De una... Prueba... Vale... X... Menos... X... E... Vale... A ver si... Podemos ponerlo mejor... Esto de aquí que... Que... Eh... Se vea bien... Vamos a ver si... Venga... Bien... Eh... Tenemos aquí la media... Eh... Y esto... Aquí... Este sería... Eh... La fórmula de la... Eh... De la varianza... Vale... La derivación típica... Ya sabéis que... Que sería la raíz cuadrada... De la varianza... Bueno... Bien... Tendríamos... Ya os digo... La X... Es posible de hallar... Eh... No hay ningún problema... Eh... Pero... Eh... La puntuación verdadera... Mucho que hay que estimar... La puntuación verdadera... Pero si podemos conocer... El error típico de medida... ¿Cómo conocemos el error típico de medida? Pues... Eh... Simplemente... Acudiendo a... Que el error típico de medida es... El... La... Eh... Desviación típica... De la puntuación del test... Por... Uno menos... El... Coeficiente de... Correlación... Vale... Este es el coeficiente de... Correlación... Es decir... De... Eh... Dos... La medida... De dos formas paralelas... Eh... O sea... Dos formas del test que midan lo mismo... Y si no... Pues también puede ser... Eh... La medida... De... El mismo test... Pasado un intervalo... De veinte días... Por ejemplo... Vamos a ver más... Vamos a ver también... Cómo se sigue midiendo la fiabilidad... La fiabilidad podemos... Eh... La fiabilidad... De tres... Eh... Condiciones... Fiabilidad como estabilidad... Es decir... El test mide lo mismo... Si lo paso... Dos veces... Eh... Pasado un periodo de tiempo... Que puede ser de veinte... Veinticinco días... La... Fiabilidad como equivalencia... Y... La fiabilidad como consistencia interna... La... Fiabilidad como estabilidad... Pues es eso... Dos aplicaciones... Del mismo instrumento... Pasado un intervalo... De veinte... Veinticinco días... Entonces... Lo que hago es el coeficiente de correlación... Entre... Eh... La... Entre aplicaciones... ¿Vale? Y el coeficiente de correlación entre aplicaciones... Pues es el coeficiente de correlación de Pearson... De toda la vida... Hay veces que... El coeficiente de correlación entre dos aplicaciones... Pues... Eh... Se... Tenéis aquí... La fórmula... De cómo... Se consigue... ¿Vale? Sería... Eh... Dos... Multiplicado por la correlación de Pearson... Y... Eh... Dividido entre uno más... La propia correlación de Pearson... Como equivalencia... Se refiere a la fiabilidad como equivalencia... A que... El instrumento... Con el que estamos empleando... Pues... Eh... Tiene una muestra representativa... Del rasgo que queremos medir... Y para eso lo que se hace es... Pues... Eh... Aplicar dos pruebas que midan lo mismo... Y ver... Si realmente... Una... Una contrastada evidentemente... Si no está contrastada... No hacemos nada... Es decir... Una contrastada... Que sea CTEN... Que sea la mejor en esa categoría... Si es personalidad... Pues por ejemplo... El MMPI... ¿No? O el CAQ... ¿No? Y eso... Eh... Lo aplicamos ahí... Si es de inteligencia... Pues por ejemplo... Las DAT... Las escalas DAT... La inteligencia diferencial... El VADIC... O... El IGF... O... El... Las escalas WESLER... ¿No? Y vemos a ver... Si realmente... Mide lo mismo... Y la con... Y... Bueno... Ahora vamos a ver también como equivalencia... Que tenemos que tener en cuenta... Cuando apliquemos como equivalencia... Pues tenemos que tener en cuenta... Que las pruebas tienen que tener el mismo número de elementos... Tienen que estar redactadas de forma similar... Tienen que... Al mismo contenido... Y el objetivo debe ser... Eh... Idéntico... Los índices de dificultad... De estos que hemos hablado antes... Tienen que ser similares... En el test... Es decir... Tienen que tener... Las mismas proporciones... De índices de dificultad... Media... Baja y alta... No puede haber diferencia... Tampoco de estadística... Entre medias... Varianzas... Covarianzas... Que hemos visto antes... Eh... Hay que dar las mismas consignas de presentación... Cuando lo empleemos en la muestra... A los sujetos... Y... La presentación tiene que ser... Idéntica de la prueba... Bueno... No podemos emplear... Perdón... No podemos emplear... Eh... Por ejemplo... Un test por ordenador... Y un test de papel y lápiz... ¿No? Seguimos... Eh... Como consistencia interna... Muchas veces... Eh... Por... Unas veces por tiempo... No podemos aplicar dos pruebas... No nos da tiempo... Y otras veces por dinero... O sea... Hay que hacer la... Aplicación rápida... Lo único que podemos hacer es... El índice de fiabilidad... Como consistencia interna... Que también le llamamos... Alfa de Cronbach... Y lo que hacemos es... Dos mitades... La mitad del test... Es decir... Si tiene cuarenta ítems... Pues los veinte primeros... Y los veinte últimos... O... Eh... También podemos hacer... Eh... Pares impares... Los ítem pares... Con los ítem impares... Y vamos a ver que resultado... Y aquí tenéis... La fórmula de... El alfa de Cronbach... Eh... Esta es la forma de hallar... La consistencia interna... El alfa es... La consistencia interna... De acuerdo... Pues ahí tenéis... Como... Eh... Se puede... Eh... Aplicar... También... Eh... Muchas veces está relacionado... Con el número de ítems... La fiabilidad... Es decir... Cuanto más ítems tenga... Más fiable es la prueba... ¿No?... Y ahora veremos también... Como se halla... Vamos a ir... Al otro concepto científico... Que hemos dicho... Que la fiabilidad... Es una garantía científica... Y es... Condición suficiente... Pe... Condición necesaria... Pero no suficiente... Para que sea condición necesaria... Y suficiente... Tenemos que emplear también... El otro... Eh... Parámetro... Que nos asegura... La garantía científica... La validez... Tenemos cuatro tipos de validez... De contenido... Predictiva... Que también se llama... De criterio... O inferencial... Concurrente... Y de constructo... De contenido... ¿A qué se refiere?... Porque el test... Los elementos que tiene... Miden... El rasgo que pretendemos medir... Es decir... Que es... Son representativos los ítems... De... Por ejemplo... Una prueba de personalidad... De ansiedad... Por los ítems... Mide la ansiedad... Eso es lo que quiere decir... Y que tiene una longitud... Adecuada... Tiene un número de ítems... Adecuado... Predictiva... ¿A qué se refiere?... Se refiere sobre todo... A que... Correlacionamos... La puntuación del test... Con una medida externa... Si estamos empleando una... Una prueba que mide ansiedad... Luego lo que hacemos es... Ver si la puntuación que hace que el sujeto... Se corresponde con la que le daría un médico... A un sujeto que tenga... Una gran ansiedad... O... Por ejemplo una prueba... De... Mecánica... Pues aplico un test... Un test de aptitud mecánica... Y luego... Lo correlacionamos... Con la puntuación que le dé... Un mecánico de un taller... Y veo si... Esa prueba realmente... Pues... Tiene validez predictiva... Si predice éxito... Si la prueba... De papel y lápiz... Predice éxito cuando se vaya a incorporar... A un puesto de trabajo... Eso es la validez predictiva... Y... La validez concurrente sería una variante de la predictiva... Por ejemplo una prueba de solución de problemas... Diseño una prueba de solución de problemas... Y se lo planteo pues... A un grupo de terceros de secundaria... Y lo que hago es... Comparar... Las puntuaciones que me dé en ese... En esa prueba de solución de problemas... Las comparo luego con... La valoración que dé un profesor... O unos profesores expertos en... En matemáticas... La valoración que le den... A... Bueno pues... A los sujetos que yo haya evaluado... Mediante la prueba... En cuanto a competencia... Entonces veo si realmente... Es posible correlacionar... Puntuación de la prueba... Con puntuación de competencia matemática... Otorgada por unos jueces... Que en este caso serían los profesores... De matemáticas... Y de constructo... Se refiere a que... Imaginaos la prueba de personalidad... Que yo decía antes... Que tiene tres dimensiones... Pues lo que hago es... Si mi prueba... Que lo que mida... Yo sé que la personalidad... Tiene que tener... Tres, cuatro, cinco dimensiones... O la inteligencia debe... Si es factorial... Debe tener... Como mínimo... Pues cuatro dimensiones... Lo que hago es... Someter la prueba... A un análisis factorial... Tiene dimensiones... Que dice la teoría... Que tiene que tener... Mi prueba mide lo correcto... No... No tiene las dimensiones... Que tiene que tener... Pues entonces... Algo habrá hecho mal... Y tendré que cambiar algo... Importante... Hay una relación entre la longitud... Y la fiabilidad de la prueba... Ya hemos dicho que... Cuanto más fiable es... Mejor... Y bueno... Pues aquí tenéis... Cuál es la fórmula... Es decir... Cuando variamos... La longitud de la prueba... Conociendo... El... La validez... Y la fiabilidad... Eh... Pues... Eh... Vemos como varía la nueva... Validez... ¿De acuerdo? Conocemos la fiabilidad... Conocemos la validez... Y le cambiamos el número de... Ítems... Hacemos más... Larga... O más corta... Continuamos... Hemos dicho antes que... El tema tiene como... Dos... Teorías... Como dos ámbitos... En los que se basa... ¿No? La medida... En educación... Eh... Sería pues... La teoría... La teoría clásica de test... Y luego tendríamos como alternativa... La teoría de respuesta al ítem... Si la teoría clásica de test... Hemos dicho que parte de... Sumar las puntuaciones de los diferentes ítems... En una global de la prueba... La teoría de respuesta al ítem es de respuesta al ítem... Se basa en el ítem... Eh... Entonces... Lo que no nos interesa... El conjunto de la prueba... Nos interesa que los ítems... Tengan una calidad métrica adecuada... Y que podamos trabajar con ellos... Eh... Entonces... Eh... Para... Para que sea... Más fácil... Pues lo vamos a basar en modelos unidimensionales... Que solamente tengan... Una dimensión... Y... Bueno... Pues igual que en el... En el modelo lineal que tenéis aquí... Del teatro y la clásica de test... Decíamos que la puntuación empírica... Que es la que tenemos en el test... La verdadera más el error... Pues aquí a la puntuación verdadera... Le vamos a dar... El valor de teta... Que es un valor de una letra griega... Vamos a ver... Eh... Más... Bueno pues... La teoría de... Eh... Respuesta de ítem... Pues... Eh... Me habíamos dicho que no es una... No se refiere a una función lineal... Sino que puede ser una función logística... Puede ser una función binomial... Puede ser una función de... De Poisson... De distribu... De distribución de la probabilidad de Poisson... Y es importante que veáis que... La fórmula para hallar la probabilidad... De... Eh... Bueno pues de... Encontrarnos con la puntuación verdadera de un elemento... Eh... Sigue esta fórmula... Simplemente conocer la fórmula... No creo que os pongan problemas de... Eh... De este tipo... No sé si podrían... Si pusieran algún problema... Es muy sencillo... Lo que tenéis que saber es que esta fórmula es... El número E elevado... A una constante... D... D es una constante que además de vale... Eh... Por definición... 1,7... Y... E está elevado... Como he dicho... A la constante... Por... Eh... Bueno pues... Eh... Por un multiplicando que tiene... Una diferencia... Que es la puntuación verdadera menos... Un parámetro... Que es B... ¿Vale? Es el parámetro concreto... Que ese... Ese parámetro se refiere al propio ítem... ¿Vale? Entonces... Eh... Bueno pues para que veáis por ejemplo un ejemplo... Bueno ahora lo veremos a ver el ejemplo... Cuando tiene dos... Dos parámetros... Pues eh... Si os dais cuenta aquí... Introducimos el parámetro A... Y el parámetro B... Eh... Simplemente es eso... El A lo que va multiplicando... ¿De acuerdo? También puede... Podría haber tres parámetros... Cuatro parámetros... En el libro me parece que os ponen la fórmula hasta de tres parámetros... Bueno pues las veis... ¿No? Ya digo que no creo que lo pongan... ¿No? Pero bueno... Eh... Si lo ponen simplemente... Sería pues hacer una operación sencilla... Si pusieran algún problema de este tipo... Por ejemplo... ¿Qué? ¿Cuál es la probabilidad... De que los estudiantes acerten un ítem determinado... Eh... Cuyo índice de dificultad es dos... ¿Vale? Si no en este caso la de uno os dice... Ya veis que os da... Eh... Bueno pues eh... Dos y uno... Bueno pues nada... Pues lo hacemos ¿No? Eh... ¿Cuál es la probabilidad de que acerte el ítem tres? Pues eh... Nada... Lo vamos haciendo... Y bueno pues nos da cero... Unos setenta y tres diez... Eh... Que sería... Eh... Muy alta la probabilidad... Sabéis que la probabilidad va de cero a uno ¿No? Entonces bueno pues eh... Sería bastante alta la probabilidad ¿No? Eh... Más cosas sobre... La teoría de respuesta al ítem... Que siempre... Eh... Bueno se puede utilizar programas informáticos... Y sabéis que siempre hay que utilizarla con una muestra más bien amplia... De unos trescientos sujetos mínimo... Y luego muchas veces lo que hacemos son... Eh... Curvas características ¿Vale? Para ver la presencia de los estudiantes... Para ver la decisión de las estimaciones... También podemos hacer correlación entre los valores simulados y los estimados ¿No? Pero siempre se ponen en curvas estadísticas... En curvas características... Una curva característica del ítem... Es ver cómo responde... Es una cosa así ¿Vale? Pues vemos cómo responde el ítem... Eh... De forma métrica ¿Vale? Más pues... Bueno pues eh... La puntuación del individuo estaría en función del número de ítems del test... Como digo la puntuación del individuo... La curva de... Característica del test... Permite transformar los valores... De las puntuaciones verdaderas teta ¿Eh? Y luego pues bueno pues eh... Eh... Aquí tenéis fórmulas que nos indica... La información ¿Vale? La información como os digo... Pues bueno pues eh... Que nos aporta un ítem determinado ¿Vale? Sería uno partido por... La varianza... Eh... Por la proporción de... La puntuación... De la estimación de la puntuación... Verdadera... Y la eh... Eh... Puntuación empírica que... Que obtengo ¿Vale? Seguimos... Eh... Vale pues bien... Ahí tendríamos lo mismo... Ahí tendría la función de información de un test... Eh... Que... Bueno que es invariante... Al cambio de escala... Entonces podemos eh... Comparar por ejemplo... Puntuaciones de dos test ¿Vale? Viendo la eficacia relativa... Si el sujeto ha alcanzado más puntuación... En el test X que en el test Y... Podemos comparar la puntuación de dos test... En el otro nunca... La teoría clásica de test nunca... A no ser que normalicemos puntuaciones... ¿Vale? Pero aquí si podemos hacerlo... La teoría de respuesta al ítem... Se puede hacer... Porque la función de información ya sabéis que es... Invariante... Ante el cambio de escala... Eh... Que eso también es importante... Siguiendo pues... Las aplicaciones de la teoría de respuesta al ítem... Pues sería crear un banco de ítems con... Propiedad del buena... Eh... También poder... Ver eh... Las puntuaciones de dos test en un mismo sujeto... Que con la teoría clásica no se puede hacer... Sin perder fiabilidad... Y luego pues... Ver eh... Cual es la curva característica de... Los del test pues por diferentes grupos ¿No? Por eso se puede ver como responde un test a diferentes grupos... Y luego también nos sirve pues para hacer test adaptativos informatizados... Es decir para que un sujeto se enfrenta a un ordenador... Y que el ordenador le vaya proporcionando respuestas... En función de... Las contestaciones que vaya dando... Más fáciles o más difíciles... Veamos a ver... Esto es una pregunta de examen... ¿Qué diferencias existen entre la teoría clásica de test y la teoría de respuesta al ítem? Pues en las dos... Sirven para medir... Variables de naturaleza social... En educación, en pedagogía, en sociología... El valor verdadero no se conoce y hay que estimarlo... Eso son las dos... Ahora ¿Qué diferencias hay? La teoría clásica de test... Suma los ítems para dar una respuesta global... Del test en general... ¿Vale? La teoría de respuesta al ítem... Se centra en el ítem... No intenta dar ningún tipo de respuesta global... Sino se centra en el propio ítem... En la teoría clásica de test... Es una relación lineal... El modelo es este de aquí... Puntuación que obtenemos... Es igual a la verdadera... Que la tenemos que estimar... Más el error... ¿Vale? Bien... Mientras que en el otro sitio las relaciones son múltiples... Puede ser logística, puede ser binomial de Poisson, etc... En este caso... En la teoría clásica de test... Las características métricas siempre nos estamos refiriendo a un grupo normativo... Por eso tenemos que calcular el 27% de los ítems... El 27% inferior y el 27% superior... En el otro... Ya sabéis que la información que proporciona el test... Es invariante ante las escalas... ¿Vale? Esa es la información del test... Es invariante ante las escalas... Con lo cual podemos comparar dos tests... Que hace un mismo sujeto... A ver en cuál lo ha hecho mejor... Estas serían las diferencias... Y vamos a hacer un problema... De los que han puesto en un examen anterior... Pues para que veáis que os pueden preguntar aquí... Tenemos el caso de un profesor... Que realiza una prueba de rendimiento de lengua... Y la pasa a la prueba a 200 alumnos... Entonces él sabe que el índice de discriminación... Nos pide que hallamos el índice de discriminación... Discrimina... Un ítem determinado... O no discrimina un ítem determinado... Él no sabe lo que hacer y nos lo pregunta... Él lo único que sabe es que los 27%... Que mejores, aciertan 30... Y de los 27% peores... Aciertan 10... En el universo... El ítem determinado... Bueno, pues lo primero que tenemos que calcular... Es el 27% de esos 200 sujetos... Que contestan a la prueba de rendimiento... Y el 27% de 200 es 54... Y ya con esto lo único que hacemos es... Sabemos que de los 27% que mejor... Responden al test... A la prueba de rendimiento de lengua... Pues aciertan el ítem 30... Mientras que de los peores... Que responden a la prueba de lengua... Aciertan el ítem 10... Con esto yo sé que... El índice... En este caso de discriminación de ese ítem es 0.37... ¿Vale? Entonces tendremos que... Os acordáis que dijimos que... Más de 0.30... Significa que discrimina muy bien... Y si fuera 0.40 ya... Él no va más... ¿Vale? Entonces vamos a continuar... Vamos a continuar viendo el índice de dificultad... El índice de dificultad ya sabéis que... Cuanto más bajo más difícil... De un lado... Un ítem... Que tiene cuatro alternativas A, B, C, D... Y lo aciertan 80 estudiantes... ¿Vale? Ya sabemos que eran 200 estudiantes los que superan la prueba de lengua... Los que se enfrentan a la prueba de lengua... Si son 80 estudiantes los que aciertan... Significa que... Hay 120 que fallan en esta prueba... ¿Vale? En este ítem mejor dicho... Entonces pues bueno... Pues lo que hago es aplicar la fórmula del índice de discriminación del ítem... De las cuatro alternativas... 80 aciertan... 120 fallan... Tenemos cuatro alternativas menos uno... Tres... ¿Cuántos sujetos responden a la prueba? 200... Pues sería 0,2... ¿Y qué nos diría? Que la dificultad es difícil... Seguimos... Distractores... Nos pide que hallemos... Que hagamos un análisis de los distractores... Nos dice que era A, B, C, D... ¿Acordados? Pues si esto fuera... Tiene que elegir el sujeto... ¿Vale? Entonces... Bueno pues... La respuesta correcta en este caso es la A, B... Pero si el sujeto elige el A... O el D... Pues está fallando... Entonces hay 60 sujetos que eligen el A... 20 que eligen el C... Y el D eligen 40... Y nos piden que vayamos con un grado de significación del 5%... Es decir, un nivel de confianza del 95%... Pues igual... Si fueran equiprobables... 60 más 20 más 40 serían 40... Los que tenían que elegir cada opción... Como no sabemos si son equiprobables o no... Vamos a ver... Vamos a verlo estadísticamente... Pues 60 que eligen el A... Menos 40 que deberían elegir... Lo elevó al cuadrado... 20 menos 40... Y 40 menos 40 nos da 20... Eso hay que compararlo con el G cuadrado... Que ya hemos dicho que se distribuye según... Número de categoría menos 1... 4 menos 1, 3... Bueno pues... Perdón, 4 menos 1, 3 no... Aquí estaríamos hablando de distractores... ¿Cuántos distractores hay? 3, que eso es muy importante... No os equivoquéis... Aquí ya se diría... Número de distractores... No número de alternativas... Entonces serían 3 menos 1, 2... Y 0,05 nos va a dar 5,99... ¿Eso qué significa? Que como es mayor 20 que 5,99... Pues tenemos que decir... Que tenemos que rechazar la hipótesis... Y no son independientes... En este caso... No son independientes los distractores... Es decir... Tienen diferente grado de dificultad... Seguimos... Y tendríamos como resumen de este problema... Que el ítem... Que es un ítem difícil... Se discrimina bien... Y las respuestas no son independientes de los distractores... ¿De acuerdo? Bueno pues hasta aquí hemos terminado... Y bueno simplemente... Pues para cualquier cuestión... Deciros también que... Mi correo electrónico... Yo prefiero que las cosas las mandéis al foro... Porque así nos enteramos todos... Y pueden responder otros compañeros... Pero bueno... Por si alguno quiere... Mi correo electrónico es... Tegarcia... Arroba... Guadalajara... Esto es una E... Guadalajara... Punto Unes... Punto Es... ¿Vale? Punto Es... ¿De acuerdo? Bueno pues este sería... Por si alguien quiere ponerse en contacto... Esto es una U... ¿Vale? Bien... Es que esto se escribe fatal con esta... Vamos a ver... A ver si puedo coger aquí el borra... ¿Eh? Vale... Vamos a poner mejor esto... ¿Eh? Bueno, bueno... Bien, bien, bien... Vamos a poner aquí... U... Arroba... Guadalajara... Bueno... Pues... Bien... Y nada, pues deciros que esta semana también seguramente que vamos a grabar el tema cuatro porque va a ser la tutoría que vamos a dar presencial en el centro asociado el próximo jueves y que si alguno quiere asistir al centro asociado pues puede intervenir en directo y nos conocemos, ¿no? Y bueno, pues nada, seguir estudiando y suerte. O sea, suerte y cualquier duda ya sabe dónde estamos. Muchas gracias.