Hola, buenas tardes. Retomamos el tema 3 de análisis de datos paramétricos para diseños de dos grupos o dos muestras. Nos habíamos quedado en la transparencia 77, si recuerdo perfectamente, en el ejemplo 3.3. Recordemos lo de forma rápida, un laboratorio desarrolla un fármaco con el que se pretende reducir la ansiedad. La dirección del efecto está claramente expresada en esa frase, se pretende reducir la ansiedad. Para comprobarlo se trajeron dos muestras aleatorias de 5 observaciones cada una, que suponemos procedentes de poblaciones que se distribuyen normalmente un supuesto, distribución normal, y distinta varianza, otro supuesto. A los sujetos de la primera muestra, van a ser distintos a los de la segunda, por tanto, eso es lo que nos indica que son grupos independientes, muestras independientes, a estos sujetos de la primera muestra se les administró el fármaco. Y a los de la segunda, una sustancia placebo. Ya sabemos lo que es un placebo. Una sustancia que biológicamente no tiene ningún efecto, ni positivo ni negativo, es neutra por completo. pero que puede nos sirve para determinar si las expectativas realmente tienen algún efecto. Las expectativas ya no es un factor biológico, sino que son un factor psicológico. Posteriormente se les midió la ansiedad a todos los sujetos mediante un test. La puntuación del test va a ser la variable dependiente con la que se mide esa ansiedad. En el que cuanto más elevada es la puntuación, mayor es la ansiedad. Con lo cual las puntuaciones del test van en el sentido psicológicamente intuitivo. De que a mayor puntuación, mayor ansiedad. A veces hay algunos test o algunas mediciones que van a la inversa y cuesta psicológicamente adaptarse a esa dirección inversa de que cuanto mayor es la puntuación en el test menor es la puntuación en error. Esto se puede observar en el rasgo, entonces aquí de forma correcta, cuanto mayor puntuación en el test significa que tiene mayor ansiedad. Entonces los resultados de las muestras nos indican de forma directa los resultados. Si nos indican los resultados, claramente lo que nos van a pedir es extraer la información de esos datos, calcular la media, calcular la varianza, la cuesta y dirección típica, etcétera. Si no nos los dan los datos directos, nos tendrán que dar estadísticos de resumen a partir de los que podamos realizar el ejercicio. Pero yo si veo datos directos, inmediatamente sé que voy a tener que calcular sus estadísticos. Entonces vemos que en el grupo 1, el que tenía fármaco, las puntuaciones ya, nada más verlas, son en su mayor parte inferiores a las del grupo 2 sin fármaco. 10, 20, 30, 20 y 5 son puntuaciones inferiores a 30, 50, 30, 60, 20. Lo cual nos indica que parece ser que efectivamente el grupo 1 al que se le administró el fármaco tiene puntuaciones en la ansiedad inferiores a los del grupo sin fármaco. Ahora con un nivel de confianza del 95% los piden afirmar si el fármaco reduce o no reduce la ansiedad. Asumimos que los dos grupos eran inicialmente, antes de darles el fármaco, equivalentes en el rango ansiedad. Entonces comenzamos como siempre indicando condiciones y supuestos. Necesitamos asumir que la variable dependiente, que es la puntuación en el test, está media a nivel de intervalo para poder aplicar este test paramétrico. Intervalo o razón serían suficientes. Y creo que nos lo han dicho en el enunciado que era de intervalo. ¿Lo han dicho o no? No, pero tendríamos que asumirlo. Si no, no podríamos aplicar este test. En cuanto a las poblaciones de las que proceden las varianzas SIRS, nos han dicho que no conocemos las varianzas poblacionales y las suponemos distintas. Necesitamos suponer también que las poblaciones en la población se distribuyen normalmente, porque en este caso el tamaño de las muestras es pequeño. Observen que tenemos en cada uno de los dos grupos cinco puntuaciones. El tamaño, por consiguiente, es muy bajo. O nos indica en el enunciado que la población de estas puntuaciones se distribuye normalmente, o entonces tendríamos problemas si le hacemos ese supuesto. Entonces, asumimos que en la población de las que proceden esas puntuaciones esas puntuaciones se distribuyen normalmente, ya que el tamaño de las muestras que nos han dado es pequeño. Tampoco conocemos las varianzas poblacionales y las suponemos distintas. Esto de que en cuanto a las poblaciones de las que proceden las varianzas me resulta raro. Probablemente sea en cuanto a la porción de las que proceden las puntuaciones. Eso obviamente haya sido un error. Ponemos en el esquema ya clásico todos los datos que tenemos. Tenemos en el apartado población la variable x es ansiedad medida por el test x. Hemos asumido que la distribución de esas puntuaciones x en la población era normal. No sabemos las varianzas y además las suponemos distintas. Esto es todo lo que sabemos sobre la población. Ahora, sobre las muestras sabemos que tenemos dos. Aquellos sujetos que reciben el fármaco, vamos a llamarle grupo 1 y aquellos sujetos que reciben el placebo, grupo 2. Y nos dan las puntuaciones directas en cada uno de los dos grupos. Y luego tendremos la distribución muestral de la diferencia de medias porque vamos a trabajar con la diferencia de medias en este contraste. Vamos a formular las hipótesis. De acuerdo con la hipótesis del laboratorio que ha creado ese fármaco, que lo ha desarrollado, etc. Esperan, obviamente, que la puntuación media sea inferior en el grupo 1 que en el grupo 2 porque eso indicaría que el fármaco reduce la ansiedad de forma significativa que es lo que habrá pensado el laboratorio cuando ha desarrollado el fármaco. ¿Por qué no para aquí? Vemos que esa hipótesis que mantiene el laboratorio sería H1, la hipótesis alternativa. lo que al laboratorio o al investigador que ha desarrollado ese fármaco le gustaría que saliese. En este caso lo que está planteando es que MU SU 1, la media de ansiedad en el grupo de sujetos que ha recibido el fármaco es inferior a la media del grupo de sujetos que ha recibido el placebo. Estamos por consiguiente planteando en H SU 1 la hipótesis que le gustaría ver confirmada al investigador, una hipótesis direccional y en concreto a la izquierda, porque vemos que MU SU 1, la del grupo experimental, la del fármaco en este caso, quedaría a la izquierda con respecto a la del grupo placebo. Ahora para ver H SU 0, la hipótesis nula, solamente tenemos que poner los mismos, los mismos parámetros que hemos puesto anteriormente, las dos medias de ambos grupos y si en la hipótesis alternativa tenemos menor que, ahora en la hipótesis nula invertimos el signo mayor que e incluimos también el signo igual en la hipótesis nula. De tal forma que la hipótesis nula plantea que MU SU 1, la ansiedad del grupo de sujetos, es la hipótesis que ha recibido. el tratamiento de la droga es mayor o, como mínimo, igual a la media del grupo de sujetos que no ha recibido la droga, que ha recibido el placebo. Observemos entonces que estamos poniendo como hipótesis nula, hipótesis que aceptamos sinceramente como verdadera, justamente lo contrario de lo que hemos dicho en la hipótesis alternativa. Una vez visto, esta hipótesis se puede plantear también de la siguiente forma. Vemos que en esta parte del enunciado, lo único que estamos haciendo es replantear las hipótesis anteriores, restando a los dos lados de las desigualdades un mismo factor, que en este caso es musus 2. Es decir, musus 1... Este factor es el mismo enamorado. Enamorado de la desigualdad, por consiguiente, no debería verse afectada. Hemos añadido este factor al sistema de ecuaciones. Como es el mismo enamorado de la desigualdad, no debería variar. Ahora bien, mientras que aquí tenemos musus 1 menos musus 2, que no sabemos cuánto será, en el lado derecho de la desigualdad tenemos musus 2 menos musus 2. Es decir, cero. Musus 2 menos musus 2. Musus 2 menos musus 2, cero. Y en consecuencia la... La hipótesis se puede también plantear como que en la hipótesis alternativa, como que la diferencia entre mu sub 1 y mu sub 2 es inferior a cero, mientras que en la hipótesis nula plantearía justamente lo contrario, que la diferencia entre mu sub 1 menos mu sub 2 es mayor o igual que cero. Lo planteamos de una forma o de otra, pero siempre lo que nos vienen a indicar estos sistemas de ecuaciones o de contrastes de par, hipótesis nula y hipótesis alternativa, es exactamente idéntico en un caso que en el otro. Ahora vemos el estadístico de contraste. En el estadístico de contraste, como siempre, tenemos en el numerador la diferencia de medias entre el primer grupo y el segundo. Y dividido... Esto no existe. Esto nos indica la discrepancia que hay entre esos dos grupos, en términos de medias. Y lo ponemos en letras latinas, porque sabemos que tenemos que trabajar para el estadístico de contraste forzosamente con los datos muestrales. Y lo dividimos por una estimación de la deviación típica de la distribución muestral de la diferencia de medias. Y esta generada no se demuestra. No es necesario tampoco demostrarlo. Como la raíz cuadrada de la suma de estos dos cocientes. Vemos que los dos cocientes son similares, solamente que cada uno de ellos, referido al primer grupo... o al segundo grupo, y es lo que viene reflejado en los subíndices. Este primer cociente tiene como subíndice el 1, porque se indica que nos estamos refiriendo al primer grupo. Este segundo cociente tiene como subíndice el 2, porque nos estamos refiriendo al segundo grupo. El numerador de este primer cociente vemos que es una varianza. S al cuadrado es una varianza. El subíndice 1 es la varianza del primer grupo. Pero se ve que tenemos también el HAT, el acento circunflejo, lo cual nos indica que es la mejor estimación de la varianza que podemos hacer del primer grupo. Y eso viene dado por la cuasi-varianza. He puesto también S al cuadrado y como subíndice N-1 para indicar que es la cuasi-varianza. Partido por N1, que es el tamaño muestral del primer grupo, más el cociente entre lo mismo pero referido al segundo grupo. En el numerador ahora tenemos la cuasi-varianza del segundo grupo, es decir, la varianza incesgada del segundo grupo, partido por el tamaño muestral de ese segundo grupo. Y esto, este cociente, nos va a dar una puntuación que se va a instruir, ya nos lo indica el propio símbolo que hemos utilizado para señalar El cociente se distribuye según una T de Studen. Y ahora, si se distribuye según una T de Studen, lo único que necesitaremos saber es los grados de libertad de esa T de Studen. Bien, los grados de libertad aquí son un poquito más complicados de calcular que en los casos anteriores porque es una aproximación. Luego veremos más adelante qué tan buena es esta aproximación o por qué se utiliza esta aproximación. De momento solamente nos interesa que es un cociente, que aunque parece muy complicado, es sencillo. Veámoslo. Tenemos aquí una suma de cocientes al cuadrado. Esta suma de cocientes, vemos, el primer cociente es similar a lo que hemos visto anteriormente. El mejor estimador de la varianza insasgada del primer grupo partido por el tamaño mostral de ese primer grupo más el tamaño mostral de ese primer grupo más el tamaño mostral de ese primer grupo. El mejor estimador de la varianza poblacional del segundo grupo, es decir, la cuasi-varianza partido por el tamaño mostral de ese segundo grupo. La suma de estos dos cocientes elevado al cuadrado partido por... Ahora tenemos de nuevo una suma de cocientes. En el numerador de cada uno de estos cocientes tenemos lo que hemos visto anteriormente al cuadrado partido por... El tamaño mostral del primer grupo menos uno. Y en el segundo cociente del denominador tenemos algo muy parecido. Vemos la cuasi-varianza muestra del segundo grupo partido por su tamaño de muestra elevado al cuadrado partido por n sub 2 menos 1, el tamaño de muestra del segundo grupo menos 1. Ese cociente nos dará los grados de libertad con que hay que buscar en las tablas la t apropiada. Entonces, me va a permitir que un caramelo, porque si no no voy a poder. Vamos a ver. Ahora hemos introducido de nuevo en el esquema anterior lo que ya sabemos. Sabemos que tenemos un estadístico, el estadístico de contraste. Hemos puesto en pantalla la fórmula. Y hemos puesto en pantalla la fórmula. Hemos sustituido lo único que ahora mismo sabemos de seguro en este estadístico. Y lo único que sabemos es n sub 1 y n sub 2, que vale en los dos casos 5. Tenemos 5 puntuaciones en el primer grupo y 5 puntuaciones en el segundo. Pero no conocemos ni la media del primer grupo, ni la media del segundo grupo, ni sus cuasi-varianzas respectivas. Tendremos que calcularlas. Como tenemos los datos directos, es simplemente una cuestión, una cuestión de un ejercicio de cálculo, que no equivocarse, repasarlo dos veces. como mínimo y vamos a ver la media, yo si no me he equivocado me da para el primer grupo 17 y para el segundo grupo me da una media de 38 la media es lo más fácil de calcular y ahora vendría el cálculo de la cuasi-varianza aunque aquí he puesto del primer grupo aquí lo he calculado para el primero y para el segundo grupo hay varias formas de hacerlo en el texto presentan dos de hecho la forma que presentan en el texto puntuaciones al cuadrado es más rápida que esta pero yo he utilizado una y con eso es suficiente vemos que una cuasi-varianza es el cociente entre un sumatorio del primer dato hasta el último de puntuaciones diferencias, y esas puntuaciones diferencias son las puntuaciones originales directas menos la media del grupo elevado al cuadrado partido por y aquí es en lo que se diferencia con respecto a la varianza partido por el tamaño muestral menos la unidad en la varianza no restamos uno al tamaño muestral por eso este es el mejor estimador de la varianza polacional, ya lo sabemos y por eso le ponemos el hat el acento circunflejo para indicar que es la cuasi-varianza y ya saben que otras veces utilizamos el sn-1 para indicar exactamente lo mismo bien, he realizado los cálculos para el primer grupo en este caso 1 partido por 5 menos 1 multiplicado por vemos que son todas las puntuaciones del primer grupo menos su media 17, 17, 17 elevadas al cuadrado y esto me da 95 como la cuasi varianza del primer grupo haciendo lo mismo para el segundo grupo donde tenemos que la media en el segundo grupo era 38 vemos que todas las puntuaciones de diferencia tienen ese punto de referencia y luego el otro punto estos son los datos directos de cada una de las puntuaciones del segundo grupo y la cuasi varianza de ese segundo grupo me sale 270 ahora volvemos a nuestro esquema inicial e introducimos los datos que hemos calculado los datos para la media del primer grupo así como su cuasi varianza y la media del segundo grupo así como su cuasi varianza, ahora ya de forma directa tenemos todos los datos que necesitamos para aplicar el estereotipo contraste, tenemos las medias si, y tenemos las cuasi varianzas de ambos grupos así como los tamaños muestrales por consiguiente sustituimos en la ecuación lo he puesto aquí en grande para que se vea El numerador, 17 menos 38, 17 era la media del primer grupo, 38 la media del segundo. Partido por la raíz cuadrada de la suma de estos dos cocientes. 95 partido por 5 más 270 partido por 5. Raíz cuadrada y me sale una T de menos 2.45, bueno, 46 aproximadamente. Ahora nos faltarían los dados de libertad. Vemos que para el grado de libertad también tenemos todos los datos que necesitamos. Necesitamos las cuasi-variantes de ambos grupos y los tamaños muestrales. De nuevo, es una cuestión de cálculo y a mí me sale un grado de libertad 6.5. Obviamente los grados de libertad tienen que ser números enteros, no fraccionales. Por consiguiente, redondeamos. Si somos estrictos, bueno, redondeamos a 6. Por consiguiente nos quedamos con el interés. Pero depende de la presión con la que trabajen ustedes. Si trabajan con un calculador y les da solamente estos dígitos 6.50, pues van a redondear a 6. En cambio, si trabajan con un calculador un poquito más preciso y les sale 6.504, pues entonces quizás aproximasen a 7. La diferencia no va a ser mucha. Mucha. En el texto han aproximado a 6, lo vamos a alejar a 6. Entonces, con 6 grados de libertad. Ya tenemos por consiguiente la T empírica que hemos obtenido en nuestro estudio, así como el grado de libertad. Y ahora, la regla de decisión, como siempre, buscamos en las tablas T de estuden aquel valor que deje por debajo de sí un área del 0.05. Es decir, estamos buscando el valor crítico. Y por consiguiente, si deja por debajo de sí el 0.05, que es esta de la rosa que yo he dibujado aquí, dejará el 0.95 por encima, es el área en blanco de esta gráfica. Con 6 grados de libertad, obviamente. Esto se refleja en esta fórmula. La T, y como subíndice, se incluyen dos factores. Los grados de libertad, 6, y alfa. Como si una letra no dividió por dos. Buscamos en las tablas, y nos da menos 1.943. No sé si lo he puesto por aquí. Efectivamente, en la preparación posterior había puesto cómo buscarlo. Es decir, en la tabla T, buscamos 6 grados de libertad, y como no nos dan los valores negativos de la T, tenemos que hacerlo a la inversa. Nos dan todos valores positivos. Entonces, nos da 6 grados de libertad. Entonces, buscamos aquella T, que son los datos centrales del cuerpo de la tabla. Estos datos centrales que deja por debajo de sí el 95% del área y, por tanto, por encima de sí el 5%. Es 1.943. Como esto sería en la parte derecha de la función y estamos en unilateral izquierdo, lo único que tenemos que hacer es cambiarle el signo. Por eso lo hemos puesto negativo. Menos 1.943. Entonces, este valor del eje de afisas, menos 1.943, que casi no se distingue del 2, deja por debajo de sí el 0.05% del área de la distribución. Y por encima de sí el 95%. Este es el valor crítico con el que tenemos que comparar el valor que realmente hemos encontrado en nuestro estudio. Que era... ¿Qué? Menos 2.46. Entonces, contratamos ambos valores. Este sería el menos 2.46. Ese valor, ese punto en el eje de afisas, menos 2.46. Y el área que deja por debajo de sí, que he dibujado aquí en azul, sería el valor P crítico. Vemos, aunque no he calculado aquí cuánto era el valor P crítico, vemos que aún... Que menos 3.46 sería aproximadamente este valor. Esta área es la que he dibujado en el gráfico posterior en azul. Vemos por consiguiente que el área en rosa es mayor que el área en azul. El área en rosa es aquel área compatible con H0. Estos serían los valores de T compatibles con H0, con la hipótesis nula. Y estos serían los valores compatibles con H1. Mientras en comparación de P vemos que el área en rosa es mayor que el área en azul. Alfa es mayor que el valor P crítico. Por consiguiente ya sabemos que vamos a rechazar H0. En esta gráfica que viene el texto se refleja todo este esquema. De forma unida están todos los datos introducidos. Esta es una curva T. Vemos la curva en forma de campana. Parecida a la normal pero no exactamente igual. Vemos el valor del eje de arcisas de la T que deja por debajo de sí el 0.05 del área. Ese valor es menos 1.94 aproximadamente. Y el área en amarillo dibujada aquí es la curva de la T. 0.05, sin embargo la T en pica que hemos obtenido está a la izquierda de menos 1.94, está en el área de rechazo de H sub cero, entonces ya sabemos que vamos a rechazar H sub cero esta flecha que ven aquí se refiere al área en amarillo, que es P0.05, mientras que estas dos flechas en vertical se refieren a puntos concretos del eje X, en un caso menos 2.46 y en otro menos 1.94 vemos claramente que el valor menos 2.46 ha caído en la zona de rechazo de H sub cero y veamos también de la misma forma que el área que queda más extrema, más a la izquierda de la distribución con respecto a menos 2.46 es más pequeña que 0.05 entonces comparemos las tres o comparemos las probabilidades llegamos a la misma conclusión rechazamos H sub cero es decir, el valor del estadístico de contraste es una puntuación más extrema menos 2.46, lo vemos aquí es una puntuación más extrema que el valor crítico que hemos buscado en la tabla T de Student que era menos 1.94 para el alfa que nos han pedido por consiguiente rechazamos H sub cero Es decir, seguimos la misma lógica que en todos los contrastes. En un contraste bilateral izquierdo mantendremos la hipótesis nula cuando se cumpla que la T empírica, la T que hemos obtenido en nuestro estudio sea menor que a la izquierda que la T crítica que hemos buscado en las tablas con los grados de libertad apropiados al estudio y a la alfa que nos se han dicho. En este caso vemos que se cumple esa situación porque menos 2.46 es inferior a menos 1.94. Si no fuese ese el caso, si la T empírica fuese mayor que la T que nos hubieran dado en las tablas el valor crítico, no podríamos rechazar H0. ¿Y cómo sabemos cuánto vale la T crítica? Es decir, la probabilidad asociada al estadístico de contraste empírico de nuestro estudio. Bien, depende si lo... en este caso es difícil porque la tabla, la T de estudi... Bueno, difícil, lo único que significa es que vamos a tener que hacerlo de manera aproximada porque no la vamos a encontrar de forma directa. Es decir, en la tabla de T de estudi con 6 grados de libertad nos cogemos... esta esta fila tenemos que el valor 2.46 la técnica o sea que hemos quitado el signo negativo porque de nuevo repetimos que la tele estudian las tablas solamente no viene a la parte positiva pero tenemos que razonar como si la técnica fuese positiva pero razonamiento por simetría es sencillo esta es la tempilla que hemos obtenido 2.46 si buscamos 2.46 en esta zona en la fila que hemos subrayado el amarillo veamos que no nos aparece el más cercano es por debajo es 2.447 y el siguiente es 3.143 vemos que este este deja por debajo de sí el 0.975 del área y esta puntuación de 3.14 deja por debajo de sí el 0.99 por consiguiente sabemos que la puntuación 2.46 tiene una p entre estas dos no sabemos exactamente cuánto vale pero está entre estas dos ahora bien recuerden que 0.975 y 0.990 que es lo que hemos las probabilidades que hemos asociado a las puntuaciones 2.44 y 3.14 como hemos hecho antes son probabilidades acumuladas la probabilidad que hay por debajo es la que hay por encima para calcular la P crítica solamente tenemos que restar a cada una de las probabilidades anteriores la unidad y entonces al 0.975 deja por encima de sí el 0.25 y 0.990 deja por encima de sí el 0.01 en consecuencia la P crítica se encuentra entre esos dos valores la P crítica es mayor que 0.025 y es menor que 0.01 eso es todo lo que podemos saber con los datos que tenemos con las tablas que nos que podemos utilizar entonces por último para interpretar el resultado que hemos obtenido al nivel de confianza del 95% concluiremos que la media de ansiedad es inferior para el grupo que tomó el fármaco que en relación al grupo que tomó un placebo por lo que concluimos que efectivamente ese fármaco reduce la ansiedad si este estudio fuese real es obvio que a los farmacéuticos tendrían base para comercializarse y obtener un beneficio es decir, la estadística sirve para eso para tomar decisiones en relación a cosas tan importantes por ejemplo A continuación nos aparece una serie de consideraciones sobre el contraste de hipótesis en dos muestras independientes En el primer contraste de hipótesis inculíñamos entre los supuestos el que las varianzas poblacionales son conocidas Bien, obviamente la primera consideración es que en la vida real pocas veces podremos asumir ese supuesto En la vida real no conocemos las definiciones típicas o las varianzas de las poblaciones A veces es posible pero es completamente extraordinario Si pudiéramos conocer las varianzas poblacionales tendríamos esos datos Por lo tanto podríamos conocer lo que necesitáramos de ellos Es decir, si no conocemos las medias poblaciones con las que trabajamos difícilmente podremos considerar que también conocemos sus varianzas Si conociéramos las varianzas conociríamos las medias Si consideramos las medias, quizá la única posibilidad que tendríamos de tenerlas es tener los datos originales de las poblaciones, cosa que normalmente no va a suceder. Por eso dicen que lo más habitual será asumir que las varianzas poblacionales son desconocidas, si no nos indican lo contrario en el resultado del ejercicio, varianzas poblacionales desconocidas. Y en este caso el contraste más utilizado es aquel en que suponemos varianzas poblacionales iguales. Pero todo depende de lo que nos vayan a indicar en el enunciado. Entonces tendremos que justificar estos supuestos. Este supuesto, el supuesto de varianzas poblacionales iguales en ambas poblaciones, se conoce como supuesto de homocedasticidad. Aprendase este palabrajo porque es muy importante. Posteriormente en análisis de varianza se verá muy a menudo. O en análisis de regresión, el último tema. Primero, la homocedasticidad simplemente es el supuesto de que las varianzas poblacionales son iguales en los distintos grupos que tengamos. Es un supuesto y lo más sensato sería ponerlo a prueba. La cuestión estriba en que podamos asumir la normalidad de la distribución muestra de la diferencia de las medias. La normalidad. ¿Podremos garantizar esa normalidad? En la distribución muestra de la diferencia de las medias. Si las muestras que utilizamos son grandes. Ya sabemos que por el tema del límite, las distribuciones tienden a la normal conforme n cada vez es mayor. Por consiguiente, si tenemos una muestra grande, podremos asumir que la distribución muestra de las medias, de la diferencia de las medias... Recuerden, cuando hemos estado trabajando con el estadístico contraste, que la T... era una diferencia de medias estandarizada por lo tanto es la distribución de la diferencia de las medias si la distribución muestra es normal y los tamaños de ambas muestras son iguales podemos despreocuparnos de las varianzas poblacionales y suponer sin más que son iguales ya que si se cumplen estas dos condiciones la variedad de hipótesis que estamos realizando no se ve excesivamente afectada ahora bien, habrá casos en los que la opción más acertada será suponer varianzas poblacionales distintas y por tanto a veces tendremos que utilizar el técnico de contraste apropiado para varianzas poblacionales distintas en su caso no debe preocuparse demasiado porque el enunciado debe expresarlo claramente o en alguna frase debe dar indicaciones sugerencias sobre si las varianzas poblacionales son iguales o distintas en la vida real cuando vean ustedes si tienen esa suerte o esa desgracia depende como se vea de analizar datos reales en un ayuntamiento en un hospital en una cárcel en un laboratorio de investigación en ese caso nadie les va a decir si tienen que suponer varianzas poblacionales iguales o distintas tendrán que justificarse ante la persona que les haya pedido ese análisis En la literatura científica sobre si se asumen varianzas poblacionales iguales o diferentes se han propuesto varios procedimientos para ajustar el grado de libertad que es lo que se suele hacer en la distribución muestral. La fórmula que han visto previamente para el cálculo del grado de libertad es una de las soluciones que se han propuesto en la literatura, en concreto la propuesta por Welch. El procedimiento de Welch nos ofrece un valor inferior para el grado de libertad en relación a si tomamos el clásico n sub 1 más n sub 2 menos 2. ¿Recuerdas en el ejemplo anterior que teníamos dos grupos de cinco sujetos? Si utilizamos el grado de libertad 5 más 5 menos 2 tendríamos 8 grados de libertad pero en cambio por la fórmula anterior escogimos 6 grados de libertad. Vamos a ver que... Por el procedimiento de Welch lo que estamos haciendo realmente es rebajar los grados de libertad que utilizamos a la hora de buscar el valor crítico. ¿Eso qué efecto va a tener en nuestro contraste? Básicamente lo va a hacer más moderado, más conservador en la palabra, no en el sentido político. Vamos a ver en qué sentido es. Observen, aquí tenemos dos distribuciones de función de densidad y probabilidad. Las dos. Estas dos son distribuciones t, pero esta tiene 6 grados de libertad. Sería el caso... en el que hemos ajustado los grados de libertad según el porcentaje de Welch porque no hemos asumido varianzas iguales vemos que las varianzas son más pequeñas, 6 y aquí en el caso de que asumiéramos varianzas iguales en este caso los grados de libertad serían 8 entonces he cogido y he calculado los valores t que en ambas distribuciones me dejan por debajo de sí un mismo alfa, 0.05 en el primer caso serían menos 1.94 y en el segundo la t sería menos 1.86 vemos que la t con 6 grados de libertad me exige un t crítico me plantea un t crítico más extremo que el de la t con 8 grados de libertad si es más extremo este que este está muy claro que me va a resultar más difícil rechazar h sub 0 utilizando 6 grados de libertad a eso es a lo que nos referimos indicando que el test se hace más conservador es decir, es más difícil rechazar h sub 0 eso significa conservador en estadística diferencial muchos investigadores sugieren que ha de realizarse previamente un contraste de hipótesis sobre la igualdad de las varianzas de manera que si aceptamos la hipótesis nula la suponemos iguales y en caso contrario diferentes Esa es la opción. Ponga a prueba el supuesto clave o básico del que va a depender tu estadístico. Si tu estadístico va a depender de forma clara sobre igualdad de varianzas colacionales, ponlas a prueba y en contraste estadístico apropiado. El problema es que, bueno, no es problema, es una cuestión de trabajo. Que haciéndolo así, tendrían que hacer dos contrastes. Primero un contraste para ver si se puede mantener el supuesto de igualdad de varianzas y si este se acepta, se aplicaría entonces el contraste de medias asumiendo igualdad de varianzas. Y si no se acepta, se aplicaría el contraste de medias asumiendo varianzas diferentes. Pasamos ahora al test de Mann-Wiener-Wilkerson. Es un test obviamente no paramétrico. Cuando no podemos asumir los supuestos necesarios para realizar un contraste paramétrico, es decir, lo de siempre, no se cumplen los supuestos paramétricos, pues, ahora no paramétricos. Pero en este caso, el test apropiado se llama test de Mann-Wiener-Wilkerson. Son los señores que lo desarrollaron. En él ponemos a prueba la igualdad o desigualdad de las medianas. No de las medias, estamos en no paramétrico. De las medianas de las poblaciones de las que procede. Las muestras. Recuerden que la mediana es un estadístico de tendencia central que tiene ciertas ventajas con respecto a la media en algunos casos y en este caso es el que se utiliza. Podemos plantear, al igual que en el caso de que sepan todas las medias, contrastes unilaterales o bilaterales. Otra posibilidad en la que podemos utilizar o emplear el test MWWW es para reducir o eliminar el impacto de los valores atípicos, los outliers. Sabemos que la media se ve muy afectada por valores extremos. Por consiguiente, si utilizamos un test paramétrico de medias cuando tenemos valores atípicos, los datos se pueden ver muy afectados. En este caso, una posibilidad sería realizar un test de MWWW. Otra posibilidad, eliminar los datos atípicos y coger otros elementos de la muestra. Otra posibilidad, imputar esos datos atípicos. No hay una única posibilidad aquí, estamos planteando una de las varias que existen. ¿Cuáles son los valores atípicos? Cuando tenemos valores atípicos, si utilizamos contrastes que utilizan la media, la media se ve fuertemente afectada por los mismos. Y eso nos puede afectar gravemente a los resultados. Por consiguiente, utilizaríamos el test de Mann-Whitney-Wilkerson que utiliza las medianas que no se ven afectadas por los valores atípicos, ya que en este tipo de test no paramétricos se utilizan los valores ordinales de los datos, el orden de los datos, no los propios datos, no las puntuaciones originales. Bien, entre los supuestos del test de Mann-Whitney-Wilkerson es que la variable dependiente debe ser de nivel ordinal como mínimo. Obviamente las nominales no pueden utilizarse. Otro supuesto es que las distribuciones subyacentes de unidades poblacionales a partir de las que se han estudiado las muestras deben tener la misma forma. Esta forma no tiene por qué ser normal. No tiene por qué ser la curva normal, la forma de campana. Puede ser cualquier otro tipo de curva, pero las dos iguales en ambas distribuciones. Este supuesto de igualdad conlleva implícito el supuesto de homocelasticidad, de igualdad de varianzas. Aunque se deba asumir esa homocelasticidad, el test M-W-W no se muestra tan afectado, se muestra afectado pero no tan afectado, por la violación del supuesto de homocelasticidad. Como sucedía en el caso del test paramétrico correspondiente que hemos visto en los parágrafos anteriores. Y lo vamos a plantear con un ejemplo, el ejemplo 3.4. Un equipo de psicólogos evolutivos, aquellos que estudian el desarrollo psicológico y físico de las personas desde que nacemos, somos niños, pasamos por la adolescencia, somos adultos, luego adultos mayores, ancianos, etc. Psicólogos evolutivos, con esto quiero decir que lo evolutivo no se refiere a Darwin, se refiere a cómo vemos, cómo contemplamos las funciones psicológicas a lo largo del tiempo de vida de los individuos. Ha estudiado como adquieren los niños la capacidad de empatizar con otros. La empatía es la capacidad que tenemos las personas, algunas, para ponernos empatizados. La empatía es la capacidad de sentir en la piel de otra persona y sentir lo mismo que siente ella. Una madre que haya perdido a su hijo, yo no lo he perdido, pero tengo cierta capacidad para ponerme en su lugar y aunque sea muy moderado, muy matizado, pero sentir un poco como sentiría ella. Un niño pequeño que vea a otro que se ha hecho pupita en el dedo, si es capaz de ponerse en su lugar, podrá sentir empatía. Esa parte es el dolor. podrá saber qué le está sucediendo esa capacidad de empatizar no la tienen todas las personas en concreto es uno de los rasgos que creemos los psicólogos que les falta a un 10% de la población aproximadamente, los psicópatas los psicópatas que están haciendo daño, pueden llegar a hacer daño físico a otras personas no son capaces de ponerse en su lugar de sentir el miedo el dolor que les están haciendo sufrir a esa persona quien esté interesado en esa temática puede ir ahí y puede revisarla psicopatía bien, entonces los psicólogos evolutivos obviamente pueden estar interesados en ver cómo se desarrolla esa capacidad de empatizar con la otra persona para este fin han desarrollado un test como siempre hacemos los psicólogos, que desarrollamos test al menos muchos desarrollantes para medir la empatía en niños pequeños los estudios preliminares han mostrado que los chicos son más lentos en desarrollar esta capacidad como siempre los chicos tenemos muchas más normalmente psicológicamente somos el sexo débil no las chicas bien, son más lentos en desarrollar esta capacidad que las chicas y además las desarrollan en menor cuantía que las chicas bien si los estudios previos nos indican eso Vamos a tratar de realizar un estudio para ponerlo a prueba. En uno de estos estudios se eligieron dos grupos al azar. Obviamente uno va a ser de niños, grupo 1, y otro de niñas, grupo 2. El grupo 1 y el grupo 2 va a ser indistinto que lo pongamos a uno u otros. Pero en este caso hemos elegido niños grupo 1, niñas grupo 2. Las votaciones obtenidas en una escala de intervalo, uno de los supuestos importantes, como el test de Manwini-Wilkerson. Si Manwini-Wilkerson forzosamente tiene que ser una escala ordinal o superior, se puede utilizar. Y nos dan las puntuaciones que hemos tenido una serie de niños y niñas en ese test. Vemos que tenemos 6 puntuaciones en el grupo 1, lo cual tenemos 6 puntuaciones, 6 sujetos, 6 niños en ese primer grupo. Y 7 puntuaciones en el grupo 2. Por lo tanto, tenemos... 7 niñas. Nos piden determinar si estos resultados apoyan la afirmación de que los niños tienen menor empatía que las niñas. En primer lugar, observen. Yo, leyendo esto, ya claramente veo... Creo entrever que es un test unilateral. Alfa 0.05 Unilateral porque nos están diciendo que la afirmación... La afirmación de esos psicólogos y de todos los estudios anteriores es que los niños tienen menor empatía que las chicas. Por consiguiente, unilateral izquierda, si no me equivoco. Aunque la variable dependiente está medida a un nivel de intervalo, ya lo hemos visto anteriormente, no sabemos, no nos lo han dicho en el enunciado, cómo es la forma de la distribución de niños y niñas en la población normal en esa variable. No sabemos si la distribución es una normal, es una T, es una F, es una chide, no lo sabemos. Por otro lado, el tamaño de las muestras es pequeño y por tanto no podemos asumir que la distribución muestral de las diferencias sea normal. Y por todo ello realizamos un contraste no paramétrico, aplicando el test MWWW, que será apropiado para dos muestras independientes. Para utilizar el test de Mangui de Gurunko, básicamente necesitamos que se cumplan las siguientes condiciones. La variable dependiente debe estar medida en una escala al menos ordinal, ya lo hemos dicho. En este caso se cumple. Las distribuciones poblacionales deben tener la misma forma. Estos son los supuestos que vamos a asumir. Y queremos contrastar si los niños, grupo 1, tienen menor empatía que las niñas, grupo 2. Por lo tanto, observen que esto es lo que hemos planteado en la hipótesis alternativa, que es la que nos han planteado los que han realizado el estudio. M aquí significa la mediana. La mediana muestral. ¿No? Si lo planteamos con respecto a la población, esto debe ser la mediana poblacional. Deberíamos haber utilizado este signo, que normalmente en muchos textos refleja a la mediana. Bien, no lo hemos hecho aquí, hemos hecho M y M. Asumamos que M representa la mediana poblacional de los niños grupo 1 y de las niñas grupo 2. Y, asumamos, la hipótesis alternativa es que los niños tienen menor empatía que las niñas. Hipótesis alternativa H1. Por consiguiente, H0 será la misma que la hipótesis alternativa, pero con la desigualdad intercambiada. Si esto era menor que, al tener que utilizar mayor que e incluir en el signo, en la hipótesis nula, añadir también la posibilidad de que sean iguales. Menor o igual. Esta es la hipótesis al completo. Para calcular el estadístico del test MWW, combinamos las dos muestras de puntuaciones y transformamos las observaciones directas que nos han dado en rangos. Calculando luego, a posteriori... La suma de los rangos pertenecientes a cada muestra por separado. Vamos a verlo. Vamos al primero de la lógica. MW. La lógica del estadístico MWWW consiste en que si la mediana de la población, recuerden de nuevo que era una mediana, una mediana es aquella puntuación de mi variable dependiente, o de la variable que estoy utilizando, en este caso es un experimento, es aquella puntuación de la variable que me deja por debajo de sí la mitad de las puntuaciones, considerando las puntuaciones no por su valor sino por la puntuación, valga la redundancia. Si contáramos los datos y no su valor, por debajo de la mediana tendría que estar la mitad de esos datos y por encima la mitad de los otros datos, independientemente de su valor. El número de puntos que habría por debajo sería el mismo que habría por encima. Esa es la mediana de la población. Bien, pues la lógica del estadístico es que si la mediana de la población de la que se ha expedido la primera muestra es inferior a la mediana de la segunda población, es decir, si la hipótesis... ...a que la medida fuese cierta, deberíamos esperar que la suma de los órdenes pertenecientes a la primera muestra fuese inferior a la suma de los órdenes pertenecientes a la segunda muestra. Entonces comenzamos a iniciar dos rangos en todas las puntuaciones. Observemos la tabla. En primer lugar, en la tabla hemos diferenciado el grupo 1 del grupo 2. Hemos incluido también el sujeto. Primero, segundo, tercero, cuarto, quinto y sexto para el grupo 1. Y del 7 al 13 para el grupo 2. El número de sujetos es casi irrelevante. Hemos puesto debajo de cada sujeto la puntuación original de empatía que han obtenido cada uno de esos sujetos en el test X. Y a continuación nos hemos planteado cuál es la puntuación más pequeña. Veamos que 8. Si veo bien, no hay ninguna puntuación más pequeña. Por lo tanto, esta puntuación tendrá el rango 1. ¿Cuál es la siguiente puntuación más pequeña? Pues vemos que sería el valor 13, pero aquí tenemos un empate. Tenemos que 13 hay tres puntuaciones. Una de ellas al azar tendría el rango 2, otra tendría el rango 3 y otra tendría el rango 4. Pero como no podemos dar a la misma puntuación tres rangos distintos, optamos por 6. Vamos a ser salomónicos. Calculamos la media de esas tres puntuaciones. 2 más 3 más 4 dividido entre 3 nos da un rango de 3. Y asignamos el rango 3 a esas tres puntuaciones. Y así iríamos con el resto de puntuaciones. ¿Cuál es la siguiente puntuación más pequeña? Pues tenemos que es el 15. Y este tiene el rango 5. Observemos que nos hemos quedado anteriormente en el 4. El siguiente sería el 5, ese rango. ¿Cuál sería la siguiente puntuación más pequeña? 16. Que tendría el rango 6. ¿Cuál sería la puntuación siguiente más pequeña? La 18. Que tendría el rango 7. ¿Cuál sería la siguiente puntuación por orden? Pues el 21. Pero si vemos aquí, en el 21 de nuevo tenemos el problema de que hay dos puntuaciones iguales. 2, 21. Bien. Que uno tendría que tener el rango 8 y otro tendría que tener el rango 9. Bien, como hemos hecho en el caso anterior, calculamos la media de estos dos rangos. 8 más 9 dividido entre 2 es 8,5. Y así damos ese 8,5, esa media, a la puntuación 21. ¿Cuál es la siguiente puntuación? Pues tenemos que es 23. Como nos hemos quedado en el rango 9, el último, a 23 le damos... Le damos el rango 3, el rango 10. Luego, a 25, que es la siguiente, le daríamos el rango 11. A 27, a la puntuación 27, le damos el rango 12, el siguiente rango. Y por último, a 30, la última puntuación, le damos el rango 13. Y ahora lo más importante de todo. Observemos que lo que nos interesa son... Que las puntuaciones del grupo 1 Habrán obtenido un conjunto de rangos Considerando todas las puntuaciones En conjunto Y las puntuaciones del grupo 2 Habrán obtenido otro conjunto de rangos diferente Entonces lo que vamos a hacer Vamos a sumar estas puntuaciones Y se da la suma de los rangos Del grupo 1 No de las puntuaciones Porque la tercera fila Se le corresponde con los rangos Y lo mismo vamos a hacer con los rangos Que han obtenido las puntuaciones del grupo 2 Y lo vamos a comparar En eso consiste el test de Manguín de Cusco Esto ya lo hemos dicho Lo hemos explicado detenidamente Hay empates En el grupo 1 Habían tres puntuaciones iguales A las que le correspondían los rangos 2, 3 y 4 Y lo que hemos hecho Ha sido calcular la media de esos tres rangos Lo mismo sucedía con las puntuaciones De los sujetos 8 y 10 Que valían 21 Ocupaban los lugares 8 y 9 Que eran sus rangos Las asignamos la media de esos rangos 8.5 Y ahora lo que hacemos es calcular Las S1 y S2 El sumatorio De los rangos Que han obtenido las puntuaciones del grupo 1 Por un lado Y las que han obtenido las puntuaciones del grupo 2 A eso le vamos a llamar S1 y S2 Para el primer grupo vale 28 Y para el segundo me lo ha... estaba aquí y me lo ha chafado. Se ha puesto por encima el libro 6. Está en el texto y creo que estaba bien. Así que no hay ningún problema. Calculan la suma de estos 12 más 8.5 más 5 más 8.5 más 10 más 13 más 6. Cuando he puesto la tabla quizá me ha chafado ese sumatorio. Entonces, a partir, siendo como base, esas dos sumas, S1 y S2, la suma de los rangos para el primer grupo y la suma de rangos para el segundo grupo, cogiendo esas dos puntuaciones como base, calculamos otras dos puntuaciones. Que le vamos a llamar U1 y U2. U2. Recuerden que los subíndices lo único que indican son el grupo al que pertenecen. Es decir, S1 es la puntuación del sumatorio de rangos que hemos visto para el primer grupo y S2 el sumatorio de las puntuaciones... de los rangos, perdón, para el segundo grupo. Y en ambos casos le restamos esta cantidad. Un medio del producto de su tamaño muestral en S1 por su tamaño muestral más 1. Como los tamaños muestrales pueden ser diferentes, ese valor que se le resta a S1 o a S2 puede diferir. En este caso no difiere porque... no, sí, en este caso sí difiere porque los grupos eran diferentes. ¿Por qué le restamos ese valor? Recordemos que estamos trabajando con rangos. Ese es uno y esos dos son sumatorios de rangos. Ahora, dejemos apartado un momento el ejemplo con el que estamos trabajando y pensemos qué pasaría si tuviéramos un grupo con dos puntuaciones nada más. Si teníamos dos puntuaciones en un grupo, estas dos puntuaciones solamente podrían obtener los rangos 1 y 2. De ahí cuál es el orden. Tendríamos el rango 1 y 2. La suma de estos dos rangos da 3. Observemos entonces lo que haría esta expresión aplicada a un grupo con dos puntuaciones. 1 medio por 2, el tamaño del grupo, por 2 más 1. Nos da 3, la suma de esos rangos. Si tuviéramos un grupo con tres puntuaciones, la que fuese, obviamente una de las puntuaciones tendría que tener rango 1 y otra el rango 2 y otra el rango 3. El sumatorio de esos tres rangos nos da 6. Y se puede calcular mediante esta expresión, la misma que hemos visto anteriormente, aplicada a un grupo con esas tres puntuaciones. 1 medio de 3, que es el tamaño del grupo, por 3 más 1 nos da 6. Si tuviéramos un grupo con cuatro puntuaciones, cada una de esas puntuaciones tendría los rangos 1, 2, 3 y 4. Y el sumatorio de esas tres... 4 rangos nos da 10, que de nuevo se puede calcular mediante esa expresión aplicada a un n de 4. Entonces esta expresión, y así sucesivamente, ya no tenemos por qué seguir haciendo más, esa expresión nos da el sumatorio de los rangos para un grupo de tamaño n, n sub i, el que sea. Por tanto, esta expresión nos proporciona el sumatorio de los rangos totales de los elementos de ese grupo, considerado de forma individual, sin considerar el total del grupo. Entonces la diferencia entre los valores s sub i, el s sub 1 es el sub 2 que hemos obtenido anteriormente, y este valor que calculamos en función del tamaño mostrado de cada grupo, es un índice de discrepancia. Igual que en el caso anterior paramétrico, la diferencia de las medias era un índice de esa discrepancia. Entonces para el primer grupo, el sumatorio de... El s sub 1 que se había obtenido anteriormente... El s sub 1 que se había obtenido, el sumatorio de los rangos para el primer grupo era 28. Le restamos ese factor y nos da un valor u sub 1, que le vamos a llamar u sub 1 de 7. Es decir, el sumatorio de los 6 primeros rangos del grupo con 6 puntuaciones daría un total de 21. 21 es un medio de 6 por 7, si consideramos el grupo por sí solo. Mientras que en el grupo total se ha obtenido una puntuación de 28, por lo tanto 28 menos 21 nos da el estadístico de contraste U1, que es el que vamos a utilizar posteriormente en las tablas. Las tablas vienen tabuladas por ese valor. Lo mismo hacemos para el segundo grupo. Ahora para el segundo grupo a ese estadístico le llamamos a llamar U2 por acciones obvias. El valor que no hemos visto antes en la transparencia porque había sido chafado, había sido ocultado por la tabla era 63. Ese U2 varía 63, esa suma de rangos. Por consiguiente el sumatorio de los 7 primeros rangos de un grupo con 7 puntuaciones daría un total de 28. Es decir, este valor está constante, 1 medio 7 por 8 nos da 28. Pero hemos obtenido realmente una suma de rangos en el grupo total de 63. Por consiguiente la diferencia entre 63 y 28 nos da un estadístico de 35, que es U2. Por último ya tenemos los dos valores U1 que vale 7 y U2 que vale 35. De estos dos valores escogemos el más pequeño, que en este caso resulta 7, el mínimo de ese conjunto. Este valor es el que nos va a dar el resultado. Este valor es el estadístico de contraste que vamos a utilizar en las tablas. Igual que en el caso anterior era la T de estudiante. Ahora nos vamos a la tabla de U1 de Wilkerson, nos expresa los valores críticos de U. En función del número de sujetos de cada grupo, del nivel de confianza y del tipo de contraste Ya sea, podemos utilizar bilateral o unilateral Por lo tanto vamos a acudir a esta tabla con alfa 0.05 Era unilateral en el ejemplo que estamos El primer grupo tenía 6.100 y el segundo 7 Y nos da un valor crítico igual a 8 Vamos a verlo en la tabla como calcularlo Vemos en la tabla, N1 es el tamaño muestral del primer grupo y era 6 El tamaño muestral del segundo grupo era 7 Y esto nos da un valor de estrés y contraste, valor crítico 8 Observen, para valores unilaterales al 0.05 La tabla de un magnitud Hay cuatro Hay cuatro tablas En función de lo que ven aquí Unilateral o bilateral Al 0.01 o al 0.05 Esto nos da cuatro tablas Si hubiéramos buscado una tabla distinta a esta Estaríamos equivocándonos Porque en el texto nos están indicando contraste unilateral Por lo tanto alfa 0.05 es esta tabla en concreto 8 es el valor crítico La conclusión es que la significación Recuerden siempre que es Decir Decimos que un test es significativo Si nos permite rechazar H0 Se alcanza si el estadístico de contraste, es decir, el valor u que obtenemos en la muestra, en nuestro caso ha sido 7, es igual o más pequeño que el valor crítico extraído de la tabla, que en este caso es 8, a nivel de significación especificado. Esta es la regla que se utiliza para tomar la decisión. Como 7, el estadístico de contraste que hemos encontrado en nuestros datos, es menor que el valor que hemos obtenido mirando las tablas, el valor crítico, rechazamos la hipótesis nula a nivel de confianza en el 95%. Es decir, 7 es más extremo que el valor 8 que hemos encontrado en las tablas. Y por consiguiente, como interpretación del resultado podemos decir que a un nivel de confianza... ...en el 95% los resultados apoyan la afirmación de que los niños tienen menor empatía que las niñas. Resultado que está de acuerdo, aquí habría que especificar mucho más en términos de edades a las que esto se produce. Es probable que no sea lo mismo a los 6 años que a los 12 y no sea lo mismo a los 12 que a los 20. Resultado que está de acuerdo con los estudios preliminares llevados a cabo por el equipo de psicólogos evolutivos que se cita en el enunciado. Y esto apoyaría... ...la afirmación de esos estudios anteriores. Otra cosa es la explicación. Estos son, digamos, datos. Estos datos parecen, si fuesen ciertos, estar indicando que los niños tienen menor empatía que las niñas en el rango de edades que se haya estudiado. Otra cosa es la explicación de por qué eso se produce y ahí se tendrían que plantear experimentos más complejos. Por último, como siempre, podemos realizar la aproximación a la normal si las muestras son lo suficientemente grandes. En concreto, si n es 1 o n es 2 son superior a 20, podemos utilizar el teorema del límite central. Y en este caso, haríamos todo lo que hemos hecho anteriormente, calcularíamos el estadístico U sui, tal como hemos visto que se calculaba anteriormente, pero ahora aplicaríamos esta fórmula. El valor U sui que hayamos obtenido de nuestra muestra menos el cociente entre el producto de las tamaños muestrales partido por 2, partido por la raíz cuadrada del cociente entre n es 1. Por n es 1 más n es 2 más 1 partido por 12. El caso es que esta fórmula nos daría un valor que se distribuye según una zeta, que es la normal tipificada. En el término n es 1 por n es 2 partido por 2 representa el valor medio esperado en la suma de rangos. Y en la estadística anterior. De U. El valor medido de este estadístico, si h sub 0 es cierta, es decir, si realmente los dos grupos tienen idéntica mediana. Mientras que el denominador de z representa el error típico de la distribución muestral de u sub i, como siempre. Aunque con los datos del ejemplo 3.4 no tenemos suficientes sujetos para utilizar la aproximación a la distribución normal, en el texto se ha realizado para ilustrar el cálculo. Para ello, observamos que en el estadístico z hemos colocado en la fórmula anterior u sub i. No hemos puesto u sub 1 o u sub 2 porque realmente puede utilizarse cualquiera de ellos. En estos dos casos lo vemos que en este caso hemos utilizado el u sub 1 y en este caso hemos utilizado el u sub 2. 7 o 35. Haciendo los cálculos vemos que nos da valores z simétricos con respecto a 0, menos 2 o 2. Y ahora compararíamos ese valor con el que nos viene en las tablas a un valor alfa especificado. A un alfa de 0.05 el valor de z crítica es menos 1.64. Es decir, menos 1.64 que sería... Buscamos aquí 1.60... 1.60... Y el segundo decimal, 0.04. Observamos que tenemos una probabilidad inferior a 0.05, que es este alfa. Por lo tanto vemos que en el interior de la tabla hemos buscado en este caso alfa, la probabilidad, y hemos encontrado que viene dada por la zeta menos 1.64. En la curva normal, menos 1.64 me deja el 0.05 del área por debajo de sí. Sin embargo, la zeta que hemos obtenido es más extrema que menos 1.64. Y esto nos llevaría a rechazar H0, si utilizáramos esta aproximación a la normal en el estadístico de Mann-Winne-Wilkos. Creo que ya ha llegado más de una hora, así que lo vamos a dejar, porque mi garganta tampoco está parada. Más trotes. Vamos a ver el chiste por último. Está en inglés. Las diez grandes razones para convertirse en profesor de estadística. La primera razón. La desviación se considera normal. Nosotros, los profesores de estadística, nos sentimos suficientes y completos. Recuerden el concepto de suficiencia en estadística. Recuerden que la desviación... en la tabla de la curva normal we are mean lovers yo este no lo entendía este raro no lo entendí la primera vez que lo leí porque yo leía somos amantes medianos mean es media hasta que al cabo de un tiempo mi inglés mejora un poco, no mucho pero lo suficiente para saber que mean también significa mediocre mediocre we are mean lovers eso ya no me gusta tanto los estadísticos lo hacen de forma discreta y continua que recuerden distribuciones discretas y continuas, a saber que hacemos y tenemos razón al menos el 95% de las veces el próximo día cuando termine la clase les diré las siguientes 10 razones para convertirse en estadísticos por eso es de estadística a ver si les convenzo