Hola, comenzamos el segundo tema de diseño de investigación y análisis de datos en psicología. El tema trata sobre el contrato de hipótesis en los diseños de una única muestra. Cuando hablamos de una única muestra nos referimos a que tenemos un conjunto de observaciones, de puntuaciones, medidas en una serie de unidades de observación. Normalmente la unidad de observación en psicología será el sujeto, la persona. Pero no siempre. Si por ejemplo nos interesara los ingresos absolutos de una familia, por ejemplo, lo que haríamos sería para cada familia sumar los ingresos del padre, de la madre, de los hijos, de quienes hubieran en esa familia. En ese caso la unidad de observación no sería el individuo, no sería el padre, la madre, sería la familia. Tendríamos una única puntuación. Por familia, no por sujeto. Si nos interesara, por ejemplo, ver el nivel de ruido en una serie de aulas para contrastar si afecta o no afecta al rendimiento de los alumnos, tendríamos una única puntuación por aula. Esto quiere decir que la unidad de observación sería el aula, no sería ni el profesor, no serían los alumnos, sería el aula. Y así podríamos ver que la unidad de observación sería el aula, y así podríamos seguir. Lo más importante de lo que estoy indicando es que para tratar de establecer si estamos ante una o dos muestras, es muy importante saber cuál es la unidad de observación que nos están indicando, que normalmente van a ser las personas, los sujetos, o las ratitas, pero que no necesariamente tiene por qué ser un individuo esa unidad de observación, para establecer si estamos ante una muestra o más de una muestra. Entonces, en este tema vamos a ver que la unidad de observación es el aula, vamos a ver los contrastes paramétricos más usuales, para la media, para la proporción y la varianza, y los contrastes no paramétricos cuando los supuestos de los anteriores no se cumplan. Por consiguiente, las limitaciones que parten del conocimiento proporcionado por los datos recogidos en una muestra, es decir, tenemos una única muestra, hemos obtenido una serie de datos, y eso nos proporciona información. Recuerden que datos y conocimiento no es lo mismo, datos e información no es lo mismo. El caso es que con esa información, con esos datos, queremos inferir lo que sucede, las características o alguna característica concreta de la población de la cual los datos han sido recolectados. Hemos extraído la muestra de ahí, por consiguiente, a partir de lo que sucede en nuestra muestra, vamos a inferir algo sobre esa población. El que aparezca ya en pantalla, en parte subrayadas las palabras, etc., es porque he hecho una prueba previa a esta videoclase, me ha salido mal, se ha producido una desconexión con la red, cuando estaba ya terminando, y por eso aparece ya señalada. En este tipo de investigaciones, la hipótesis de contrastar especifica una característica de la población. Por ejemplo, nos ponen cuatro ejemplos en el texto. Una característica puede ser algún parámetro poblacional, y nos podríamos preguntar si ese parámetro puede tener un valor concreto. Por ejemplo, ¿es posible que en niños hiperactivos el CI fuese de 110? Estamos hablando de un parámetro poblacional, la media, en toda la población de niños hiperactivos, y planteamos esa pregunta. O nos podemos plantear la pregunta si en la población, los valores de la variable con la que estemos trabajando son independientes o no. O nos podemos plantear la forma de la distribución de la variable X. Es decir, si la variable X se distribuye según la curva normal, según la F, según la exponencial, ¿cómo se distribuye X en la población? ¿Qué forma tiene esa variable? ¿Es bimodal, es unimodal? O nos puede interesar si los datos observados en la muestra son independientes, independientes entre sí, sin hacer referencia a lo que sucede en la población. En cualquier caso, es que los dos primeros casos de los ejemplos que hemos puesto se incluyen dentro de lo que se llaman contrastes paramétricos, ya que tratan de investigar un parámetro de la población, una media, una varianza, una proporción, una correlación, y siempre que la variable en estudio, X, sea la que sea, proceda de una población con función de densidad de probabilidad conocida o supuesta. A partir de este momento vamos a hablar de función de densidad de probabilidad como FDP. Son unas siglas muy usuales y como se va a repetir mucho ese término, pues más de una vez vamos a decir simplemente FDP. El caso es que, asumiendo o conociendo la función de densidad de una población en los contrastes paramétricos, vamos a hacer referencia a algún parámetro, de esa población, ya sabemos lo que era un parámetro. Cualquier valor que en una FDP no sea ni una constante, ni la o las variables independientes. Los dos contrastes, los dos últimos contrastes de los ejemplos que hemos puesto anteriormente serían contrastes no paramétricos, ya que o no hablan o no tratan de investigar nada sobre un parámetro poblacional. Pueden hacer referencia a otra característica de la población que no es un parámetro. O bien se encuentran referidas... O bien se encuentran referidas a datos que provienen de una población en la que no conocemos la FDP. En cualquiera de esos dos casos, tenemos que encontrar que es no paramétrico. Y ahora vamos a hablar sobre contrastes paramétricos versus no paramétricos. En términos más específicos, vamos a ver que esa extinción no es unívoca. No va a ser sencillo realizarla en los casos en los que... Pues plantea el texto. Pero que en otros casos a lo mejor nos encontramos con dificultades, porque en esta extinción no existe consenso sobre qué es una técnica paramétrica versus no paramétrica. Las paramétricas están muy claras, las no paramétricas no tanto. La literatura técnica diferencia entre un tipo de técnica paramétrica u otra de formas muy diversas. Vamos a ver algunas de ellas. En principio, comenzamos con la definición de Ross. Ross en el 2004 las define como aquellas pruebas que se aplican cuando los datos proceden de una FDP en la que no especificamos la forma de la misma. Es decir, no asumimos que en la población esa variable se distribuya según la curva normal, o la exponencial, o la binomial. Si no hacemos ese supuesto, para Ross, la técnica sería no paramétrica. Y por ello mismo, por esta definición, algunos autores denominan a las pruebas paramétricas como pruebas sin supuesto. Distribution free, en vez de no paramétricas. Simplemente porque en esta clasificación para Ross, no paramétrico significa que no se asume una forma concreta para la variable dependiente. No obstante, sería equivocado afirmar que los contrastes no paramétricos no realizan ningún tipo de supuesto. Antes hemos dicho, bueno, Ross dice que los contrastes no paramétricos son aquellos en los que no hacemos un supuesto sobre la misma variable. ¿Cómo se distribuye la variable en la población? Pero eso no significa que los contrastes no paramétricos no realicen ningún tipo de supuestos. No son assumption free, que sería libre de supuestos. No, no. Los contrastes no paramétricos también realizan supuestos. Lo único que pasa es que esos supuestos son menos rígidos que los supuestos realizados por los contrastes paramétricos. Por consiguiente, contrariamente a lo que se suele afirmar en algunos textos, los contrastes no paramétricos sí realizan supuestos. Solamente que estos no están referidos a la forma específica de la distribución poblacional de esa variable, de la variable dependiente con la que estemos trabajando. Por ejemplo, un ejemplo muy claro. Uno de los supuestos muy frecuentes en algunas técnicas no paramétricas es el supuesto de distribución simétrica de la variable dependiente. Ahora nos preguntaremos, ¿cuáles son las distribuciones simétricas que conocemos? Pues por ejemplo, aquí tenemos tres. No puedo rehacer los cambios, así que están ya marcadas. Vemos que aquí en el margen izquierdo superior tenemos una distribución rectangular en la que todos estos valores tienen la misma probabilidad de ocurrencia. Es una distribución claramente simétrica en relación al punto medio. Una distribución triangular como esta también es simétrica. O una distribución normal también es simétrica. Sin embargo, esta distribución gamma que vemos aquí a mano izquierda inferior no es simétrica. Por eso la hemos marcado con una X. Observen que la distribución, si la marcamos alrededor de este punto intermedio, si la dobláramos por ese eje, no coincidirían los extremos derecho e izquierdo. Por consiguiente, algunas técnicas no paramétricas pueden realizar el supuesto de distribución simétrica de la variable dependiente. En las pantallas anteriores hemos visto tres distribuciones que son simétricas, pero no necesariamente son normales. Existen muchas distribuciones distintas a la normal que son simétricas y este supuesto no nos obliga a trabajar necesariamente en una distribución normal. Si estuviéramos haciéndonos alguna pregunta sobre la distribución de una variable, en la población, y solamente hacemos el supuesto de distribución simétrica, tendríamos que contemplar que la distribución podría ser rectangular o triangular o normal o muchas otras que son también simétricas. Eso quiere decir que cuando buscamos alguna característica o alguna forma sobre cómo se ha construido nuestra población haciendo simplemente el supuesto de distribución simétrica, solamente vemos eliminados del área de búsqueda las distribuciones asimétricas, la f, el h cuadrado, la gamma y es por eso que algunos autores han introducido otros términos que no son paramétricos y no paramétricos para diferenciar entre estas técnicas. En concreto, algunos autores hablan de técnicas semiparamétricas como una especie de punto intermedio entre paramétricas y no paramétricas. Vale, es una posibilidad. Esta gráfica ya la hemos visto anteriormente. En los resultados no paramétricos, en los que simplemente hiciéramos el supuesto de distribución simétrica, tendríamos que buscar candidatos para cómo se distribuyen nuestras variables dependientes podrían ser estas tres, la rectangular, la triangular y la normal. La gamma no. Y por consiguiente esto nos indica claramente que las pruebas no paramétricas tienen un espacio de búsqueda mucho mayor que las paramétricas porque al ser los supuestos menos restrictivos tienen que buscar de forma más amplia. El estudiante se advierte en el texto que debe diferenciar entre los supuestos que realiza el test de las distribuciones muestrales que puede utilizar. Básicamente, la distinción entre parámetros y no paramétricos depende de los supuestos. Si el supuesto que haga el método de inferencia no incluye una FDP concreta, normalmente va a ser una técnica no paramétrica. Y si le incluye, por ejemplo, asume que debe ser normal la distribución poblacional de la variable dependiente, el método va a ser paramétrico. Pero observemos que estamos haciendo referencia al supuesto del que parte todo el proceso. Sin embargo nos vamos a encontrar que incluso los test no paramétricos van a hacer uso de distribuciones muestrales que pueden ser tanto paramétricas como no paramétricas. Que pueden ser FDPs como la normal o la binomial. Es decir, las estadísticas no paramétricas no incluyen presupuestos a una FDP concreta. No dice mi variable dependiente, voy a asumir que mi variable dependiente se distribuye según la normal... No, no lo asume. Sin embargo los estadísticos que calculamos en nuestras muestras incluso en las no paramétricas sí se pueden distribuir según una distribución paramétrica concreta. Nos podríamos encontrar con un test no paramétrico que no haga supuestos sobre la distribución poblacional de la variable X, la que se esté investigando. Y sin embargo el estadístico que calcula en las infinitas muestras posibles sí se distribuye según la normal. Pero esa distribución todavía es importante. Una cosa es cómo se distribuya la distribución muestral del estadístico y otra los supuestos. Apareció un ejemplo. Cuando veamos la prueba de los signos, que es una prueba no paramétrica claramente, no se hace ningún supuesto sobre cómo se distribuyen los datos en la población. En este sentido es contraste no paramétrico. No hace supuestos sobre la forma de distribución. Sin embargo, cuando calcula en la muestra un estadístico para determinar su probabilidad se va a la distribución binomial. Pero la distribución binomial es una distribución paramétrica. Sí. Es por lo que hemos dicho anteriormente que la distinción entre paramétrico y no paramétrico debe realizarse en términos de los supuestos que hace el test, no de la forma que adopta la distribución muestral del estadístico. La distribución muestral es una distribución paramétrica, tiene parámetros N y P, pero la prueba de signos no lo utiliza como un supuesto. No hace supuestos sobre ello. Solamente lo utiliza como una herramienta para calcular niveles de probabilidad. Volviendo a la distinción entre paramétrico y no paramétrico, otros autores hacen hincapié en que, de forma genérica, los contrastes no paramétricos realizan supuestos menos restrictivos o rígidos que las técnicas paramétricas. En concreto es Daniel quien lo plantea. Él realmente no distingue entre contrastes paramétricos y no paramétricos. Establece simplemente una dimensión continua en la que en los extremos colocados los contrastes paramétricos y los contrastes no paramétricos se dice cualquier técnica se sitúa más cerca o más lejos de uno de estos extremos y se clasificará por consiguiente como paramétrica o no paramétrica en función de su cercanía a esos extremos. En este sentido, para Daniel la distinción entre paramétrico y no paramétrico no es una distinción cualitativa de si no entra en esta categoría o entra en esta otra. Es una distinción cuantitativa y, por tanto, relativa. Para Daniel un test comparado con otro será paramétrico o no paramétrico, en términos de cómo se sitúe dentro de ese continuo. Me parece una distinción bastante razonable pero lo que más me interesa es, personalmente, es esto. Que los contrastes no paramétricos para Daniel utilizan supuestos menos restrictivos o rígidos que los paramétricos. En este sentido, hay procedimientos que se acercan más al extremo paramétrico y otros que se acercan más al extremo no paramétrico. Y otros se encuentran en puntos intermedios que no podrías clasificarlos ni como paramétrico o no paramétrico. Aunque esta clasificación cuantitativa de los contrastes es una distinción más vaga que las anteriores, obviamente es más vaga no es tan precisa como anteriores resulta útil ya que hay técnicas estadísticas entre cuyos objetivos iniciales explícitos se encuentra en realizar los menos supuestos posibles sobre de dónde proceden los datos. Algo me estoy acordando de una de estas técnicas. Uno de mis estudiantes de doctorado va a utilizar una técnica llamada ICA Independent Component Analysis Análisis de componentes independientes. Es una técnica muy bonita de análisis de señales sorprendente, los resultados que produce muchas veces se sorprenden pero el caso es que es una técnica no paramétrica porque las personas que la desarrollaron se plantearon desde el inicio la separación de señales que es el objetivo de esta técnica haciendo el mínimo número posible de supuestos sobre de dónde, cómo proceden esas señales. De hecho es sorprendente con dos o tres supuestos nada más que realiza la técnica consiga lo que consiga. El caso es que las matemáticas a partir de muy pocos supuestos las matemáticas que utiliza son muy avanzadas pueden ser muy avanzadas pero si los supuestos de los que parte son muy poco restrictivos o son muy pocos es una técnica claramente no paramétrica. Por último, una tercera opinión sobre el contraste entre técnicas paramétricas y no paramétricas insiste en lo que caracteriza la técnica no paramétrica es el nivel de medida de los datos. Recordemos que en el primer curso se habló de que toda variable toda medición se encuentra dentro de una categoría del nivel de medida. Se habló de cuatro niveles de medida nominal ordinal, de intervalo o de razón. No vamos a recordar exactamente estas cuatro categorías porque nos iríamos del tema es muy importante que refresque la memoria sobre las mismas. El caso es que si nuestros datos son nominales u ordinales las técnicas apropiadas son no paramétricas. Mientras que si nuestros datos pertenecen a una variable de intervalo o de razón las técnicas apropiadas son paramétricas. Siempre y cuando estos últimos los de intervalo o de razón no hayan sido recodificados en variables de tipo nominal u ordinal. Esto a veces sucede, por ejemplo en los exámenes de puntuación de los exámenes en el sistema español y creo que europeo tenemos una escala de razón entre cero y diez. Es de razón porque el cero significa ausencia de esa variable, ausencia de conocimientos. Pero a veces cuando se entregan las notas, esa variable de razón la traducen a una escala ordinal, que es lo que hacen cuando nos dicen has aprobado has suspendido tienes notable, tienes sobresaliente o tienes matrícula de honor. Han transformado una variable de razón en ordinal y por consiguiente si yo hiciera eso y trabajara con la escala ordinal insuficiente aprobado notable sobresaliente, si yo trabajara con esos datos ordinales tendría que aplicar técnicas no paramétricas. Mientras que si trabajara con los datos originales de razón, trabajaría con técnicas paramétricas. Entonces el nivel de medida es un criterio muy interesante muy importante también a la hora de diferenciar estos dos tipos de técnicas. Estamos de acuerdo con Wasserman en el 2006 cuando subraya que el punto esencial del contraste entre técnicas paramétricas y no paramétricas es que en las no paramétricas los métodos estadísticos desarrollados tratan de mantener los supuestos lo menos rígidos, lo menos restrictivos posibles. Esto tiene dos puntos a favor y en contra. Cuanto menos restrictivos sean más tipos de datos, más situaciones puedo abarcar con ellos. Ese es el aspecto positivo. El aspecto negativo es que al ser más amplias las posibilidades de los contrastes no paramétricos el espacio de búsqueda es mucho más amplio. Yo estoy buscando algo Estoy buscando un índice de tendencia central o una forma de una distribución. Supongamos que busco esto último. Si utilizo un contraste no paramétrico al ser los menos restrictivos, estoy buscando en un área muy amplia que incluye todos los tipos posibles de funciones de densidad de probabilidad. Si yo hago el contraste un poquito más restrictivo por ejemplo, supongo que asumo que mi variable dependiente proviene de una población cuya distribución es simétrica. Ahora, he limitado el rango de posibles fdp en donde tengo que buscar para saber cómo se distribuye la variable en la que estoy interesado porque todas las fdp que no son simétricas han quedado fuera del área de búsqueda. Si somos más restrictivos todavía y ponemos que mi distribución tiene que ser normal hay muchas simetrías que ya no tengo que buscar en ellas. Vemos que cuanto menos restrictivos sean los supuestos tengo que buscar en un espacio mucho más amplio. Es como el clásico ejemplo de se me ha perdido una aguja en el pajar si yo hago el supuesto de que se me perdió la aguja cuando estaba en esta zona pues buscaré en esta zona el espacio de búsqueda es pequeño Si yo no hago el supuesto tendré que buscar en todo el pajar y por consiguiente el área de búsqueda es mucho mayor lo mismo sucede aquí cuanto más restrictivo sean los supuestos el área de búsqueda es más pequeña cuando menos restrictivos el área de búsqueda de lo que esté buscando se amplía y este es un problema en los contrastes no paramétricos. Este espacio de búsqueda puede ser infinito y por eso también algunos autores hablan de las técnicas no paramétricas contradictoriamente como técnicas paramétricas de dimensionalidad infinita Todo esto viene a cuento de que el concepto de no paramétrico no tiene una definición precisa y universalmente aceptada En los casos que vamos a ver en el texto no hay ningún problema pero en los casos en otros casos un poquito más rebuscados si podemos encontrarnos algún problema y ahora ya nos metemos con el primer contraste un contraste paramétrico contraste sobre la media poblacional como la media es un parámetro estamos en contrastes paramétricos y vamos a diferenciar entre cuando conocemos la varianza poblacional versus cuando no conocemos conocida la varianza poblacional esta situación no es frecuente claro que no pero a veces no es frecuente básicamente porque si hemos podido calcular la varianza poblacional crece que tenemos los datos entonces ¿por qué no calcular también la media? bueno, eso es cierto pero a veces se nos puede plantear situaciones como las que vamos a ver en el primer ejemplo en el que ciertos trabajos o cierta información previa nos permiten asumir un determinado valor para la varianza poblacional y entonces la distribución muestral es la media sabemos que es una distribución normal y el estadístico de contraste será z en este caso z vendrá dado por el cociente entre en el numerador pondremos la media muestral barra x menos mu que es la media poblacional la diferencia que existe entre mis datos muestrales y lo que estimo que vale la media poblacional según la hipótesis nula y lo divido por la variación típica sigma del estadístico en el que estoy interesado que sabemos que es la media sigma de barra x o variación típica de la media muestral sabemos que este valor este denominador es sigma partido por raíz cuadrada de n la distribución muestral de la media si conocemos sigma y estamos en esa situación es decir el estadístico de z simplemente nos cuantifica la distancia, es decir la diferencia entre la media de la muestra barra x en relación a la media poblacional que hemos asumido en h sub cero mu sub cero pero esta diferencia la plantea la pone en unidades de error típico de la distribución muestral por eso se divide por sigma partido por raíz cuadrada de n porque cogemos como unidad de medida como vara de medir el error típico de la distribución muestral y por consiguiente la anterior fórmula que también la hemos planteado la hemos dibujado aquí es simplemente una regla de tres si una derivación típica en la distribución muestral vale sigma partido por raíz cuadrada de n hubo una diferencia entre la media muestral y la media planteada en la hipótesis nueva cuanto vale en unidades de derivación típica z entonces es el producto de uno por esta diferencia es decir, esa diferencia partido por la unidad de medida sigma partido por raíz cuadrada de n una vez visto esto vamos a ver el ejemplo 2.2 en estudios previos lo que nos han indicado al comienzo de este apartado nos dicen que conocemos que en la población masculina de la tercera edad en ancianos de una comunidad autónoma se gastan medicamentos 215 euros al año y la derivación típica es de 26 euros y el investigador lo que quiere saber es si la población femenina tiene ese mismo gasto sigue indicando que con esta finalidad se ha excedido una muestra ya no lo dice explícitamente tenemos una única muestra los datos anteriores sobre lo que se gastaban a los varones no se refieren a la muestra es una información de referencia entonces tenemos una única muestra tenemos 324 mujeres n pertenecientes a la misma población que los ancianos y hemos observado que esas 324 mujeres se gastan 220 euros al año en medicamentos las condiciones nos indican que se asume que en la población de esa edad se distribuye normalmente este es un supuesto muy restrictivo por consiguiente estamos trabajando con contraste paramétrico se fija el nivel de confianza al 95% alfa 0.05 y nos planteamos si el gasto a las mujeres es significativamente distinto de 215 euros al año si esos 215 euros al año lo que se gastaban los hombres nos sirve como punto de referencia no es otra muestra se gastan las mujeres más o menos que los hombres en medicamentos al año bueno, no lo sabemos porque estos 220 euros al año es de una muestra de 324 mujeres no sabemos lo que pasa con toda la población de mujeres esa diferencia entre 215 euros al año que se gastan los varones y 220 que se gastan las mujeres en esa muestra podría ser debida al azar podría ser que la población de mujeres se gastara menos que los hombres no lo sabemos y es lo que nos plantea el estudio el estudio no sé si lo habrán extraído de algún estudio real de algunos datos reales creo que no pero tendría sentido teóricamente porque sabemos que las mujeres viven más que los hombres que esa diferencia es no depende de la cultura no depende de la clase social es una diferencia biológica no obstante también sabemos que el nivel de fragilidad en la salud de las mujeres aunque lleven más tiempo tienen mayor fragilidad en su salud es decir viven esos años pero con un poquito más de enfermedades que los hombres si eso es cierto un investigador se podría plantear que el gasto farmacéutico de las mujeres es mayor que el de los hombres y puede tratar de evaluarlo mediante este estudio entonces tendríamos en primer lugar que solamente hay una muestra de las mujeres lo que nos han dicho sobre los varones al inicio del experimento es para establecer un punto de referencia poblacional nos han dicho que en los varones la media de gasto farmacéutico son 215 euros su debilidad científica vale 36 yo siempre planteo sugiero que cuando nos den la variante calculemos la debilidad científica porque luego pueden haber errores eso me sucede bastante a menudo entonces 36 la debilidad científica de gasto farmacéutico en varones y 1.296 su variante y ahora nos dicen hemos extraído una muestra de 324 mujeres y su media de gasto farmacéutico es 220 y muestra y luego como nos están hablando del estadístico media tendremos que hablar también y establecer diferencias estableciendo la distribución muestral de la media y nos dan también que el nivel de confianza del 0.95 por consiguiente alfa es 0.05 nos indican también un supuesto nos han dicho que asumimos en el denunciado que la distribución muestral del gasto sanitario es normal por consiguiente el contraste es paramétrico no sé si se verá bien que aquí he tratado de dibujar un estudio normal ya tenemos todos los datos para realizar el contraste vamos a establecerlo dando los pasos que se han dado siempre que se indicaron en el primer tema el primer paso es establecer condiciones y supuestos las condiciones son las siguientes el estudio utiliza un diseño de una única muestra de mujeres donde se ha medido una variable gasto medio gasto en lo de medio ahora veo un problemilla gasto para cada mujer de esas 324 ancianas se ha medido que gasto ha realizado al cabo del año el gasto es una escala de razón siempre recomiendo al alumno que cuando tenga dudas sobre si una variable es de razón para establecer una escala de razón se plantee si en esa variable el valor 0 que significado tiene vamos a verlo aquí si yo me gasto o encuentro en una anciana que se gasta 0 euros en un año en gastos farmacéuticos significa que para esa anciana esa variable no existe ese 0 es un valor que significa que no hay gasto esa variable no existe eso es una escala de razón por lo tanto el variable gasto de cada anciana es una variable de razón es una variable cuantitativa y eso por consiguiente nos va a llevar a un contraste paramétrico simplemente el criterio en base al nivel de medida de la escala gasto y nos dice también que se distribuye normalmente en la población otro criterio más estamos asumiendo una forma concreta para la variable poblacional que nos lleva a afirmar que el contraste es paramétrico además nos indican que la diversión típica en la población es de 36 euros conocemos la diversión típica poblacional por consiguiente tenemos un contraste paramétrico ya sea por el criterio del nivel de medida o porque hemos asumido una forma para la la variable en la población es un contraste paramétrico además es bilateral porque en el enunciado no me han dicho en ningún momento que exista la posibilidad la creencia o la información de que las mujeres gasten más que los hombres o menos por lo tanto ambas posibilidades están abiertas las mujeres pueden gastar más o menos ninguna de esas posibilidades se nos está cerrando por consiguiente el contraste es bilateral tenemos que asumir según lo que nos han indicado en el enunciado del problema que las mujeres pueden gastar o más de 215 o menos a priori no sabemos si el gasto de las mujeres es mayor o menos que 215 euros esto 215 es el el valor que nos aparece en la hipótesis nula por consiguiente es bilateral solo queremos constatar que el gasto de las mujeres es diferente, si es diferente puede ser mayor o menor sin señalar el sentido de la diferencia no estamos señalando sentido, solamente diferencia ahora el segundo paso es que formulamos la hipótesis la hipótesis de investigación la hipótesis que le interesará exponer a prueba es que las mujeres tienen un gasto distinto de esos 215 euros al año que es la hipótesis alternativa la hipótesis nula por el contra plantearía justamente lo contrario, que no hay diferencia entre el gasto de hombres y mujeres por consiguiente vemos que H0 la hipótesis nula es que la media de gasto en las mujeres es la misma que la de los hombres es de 215 euros la hipótesis alternativa H1 plantea todo lo contrario que la media de gasto de las mujeres ancianas de gasto farmacéutico es distinto de 215 euros al ser distinto no plantea si es mayor o menor cualquiera de las dos opciones sería válida distinto este es entonces el contraste planteado la hipótesis nula y la hipótesis alternativa partimos provisionalmente de que la hipótesis nula es verdadera, igual que en el sistema judicial planteamos que un acusado entra al sistema judicial asumiendo su inocencia aquí asumimos que la hipótesis nula es verdadera que no existe diferencia en el gasto farmacéutico entre hombres y mujeres porque nos queremos proteger contra el error tipo 1 por consiguiente todo este proceso parte de este supuesto la hipótesis nula es verdadera ya veremos los datos que nos dicen y tratamos de encontrar evidencia contraria a esta hipótesis a partir de la información proporcionada en la muestra una muestra representativa es decir, lo que nos planteamos es esa diferencia que hemos encontrado de 5 euros observado en la muestra recordemos que las mujeres en nuestra muestra tenían 220 euros de gasto y hemos planteado en la hipótesis nula que eran 220 pero esa diferencia de 5 euros representa realmente un gasto distinto de las mujeres o es una diferencia que se puede deber a frustraciones aleatorias perfectamente válido vamos a tratar de comprobarlo si rechazamos la hipótesis nula y por consiguiente aceptamos la hipótesis alternativa significará que la diferencia observada es estadísticamente significativa esto nos confirmaría una diferencia real mayor o menor, pero real que no puede producirse al azar o a fluctuaciones debidas al muestreo lo que estableceremos será entonces un estadístico de contraste que será la Z que hemos visto anteriormente donde establecemos la Z esto que ven aquí IN37 olvídalo porque es del programa que utilizo para hacer los cálculos lo importante es este cociente vemos 220 es el valor de la media que he encontrado en mi muestra de mujeres 215 que es el valor que he planteado en la hipótesis nula esa diferencia de 5 puntos la divido por la división típica de la distribución muestra de la media que es sigma 36 la división típica en la población partido por raíz cuadrada de N este cociente nos da 2,5 que es una puntuación Z por lo tanto nos vamos a la curva Z vemos en esta gráfica los valores críticos es decir, aquellos valores de la puntuación Z que nos dejan por debajo de sí y por encima de sí alfa medios que es el error típico perdón, que es alfa el área en blanco que vemos aquí es el nivel de confianza, el 0,95 la suma de estas dos áreas en amarillo nos da alfa por consiguiente vemos que por debajo de este valor que ya adelantamos que es menos 1,96 se encuentra alfa medios un área de alfa medios y por encima de este valor del eje X de Z que ya adelantamos que es 1,96 se encuentra el otro alfa medios para que entre las dos áreas amarillas nos de el 5% 0,05 que es el nivel alfa al que nos han dicho que debemos trabajar con valores críticos vemos por consiguiente que nos delimitan dos zonas la zona interior entre menos 1,96 y 1,96 que es compatible con X sub 0 a un nivel de probabilidad superior a alfa y dos zonas una superior a ver si lo puedo poner en otro color una zona superior con valores más extremos de 1,96 y otra zona con valores más extremos que menos 1,96 que son compatibles con H sub 1 al menos son compatibles probabilisticamente porque tienen probabilidades menores que 0,05 esos son los valores críticos y alfa este gráfico luego nos vamos a ese mismo gráfico pero ahora dibujamos el nivel precrítico en la misma gráfica anterior dibujamos el punto en el eje X que nos deja por encima y por debajo de sí lo voy a poner en otro color en verde por ejemplo por encima y por debajo de sí ¿cuánto? vemos que Z ya nos lo ha dado la ecuación anterior 2,5 graficamos marcamos el 2,5 en el eje X y el menos 2,5 estamos trabajando a nivel bilateral y el área que queda más extrema que esos valores en rojo aquí es el nivel precrítico es una probabilidad y esa probabilidad ya vemos claramente que es inferior a alfa el área aquí de estas dos zonas en rojo es más pequeña que el área de las dos zonas que permitan alfa el nivel precrítico será inferior a 0,05 entonces ya sea comparando la Z empírica 2,5 estaría aquí por lo tanto en relación de rechazo de H0 o comparando los niveles alfa con el nivel precrítico rechazamos H0 y por consiguiente vamos a la regla de decisión los valores críticos representan la máxima diferencia atribuible al azar en la distribución muestral que puede existir entre los datos empíricos y los datos teóricos que planteamos en la hipotesis nula es decir, estos dos valores críticos menos 1,96 y 1,96 nos reflejan la máxima diferencia que podemos atribuir al azar con un alfa de 0,05 como el valor observado en nuestra muestra supera a esos valores críticos son 2,5 de la división entípica de la distribución muestral recordemos que la escala de Z son la división entérnea de la división entípica una división científica de 2,5 o una puntuación Z de 2,5 como se quiera llamar es poco probable si H0 es cierta es menos probable al menos que alfa por consiguiente significa menos probable que el nivel alfa con el que partimos al inicio del experimento en conclusión el valor del estéril con contraste 2,5 sobrepasa el valor máximo más o menos 1,96 en los valores críticos por lo que rechazamos la hipótesis nula con un nivel de confianza del 95% una probabilidad de equivocarnos del 5% dicho de otra forma el valor del estéril con contraste 2,5 le corresponde un P crítico de 0,0124 es decir el área en rojo que hemos visto anteriormente es de 0,0124 esta probabilidad tan pequeña o menos más pequeña que 0,05 indica que suponiendo verdaderamente la hipótesis de que las mujeres obtienen un gasto medio de 215 euros al año la probabilidad de observar un valor tan extremo como el que hemos observado es de 0,0062 0,0062 sería la P crítica extrema en una cola el doble como estamos trabajando a nivel bilateral el doble de 0,062 es 0,0124 este 0,062 se refiere solamente a la probabilidad de que Z sea menor o igual que 2,5 o Z sea mayor o igual que 2,5 lo podemos ver si lo buscamos en las tablas encontraremos que para la Z que nos han dado en la fórmula 2,50 con este 0 obtendríamos una probabilidad de 0,99 38 Z esto está equivocado esto es la P de esa Z recuerden siempre que el interior de la tabla son probabilidades y la columna junto con la extensión desde la primera fila nos indica la Z aquí para una Z de 2,50 que es lo que hemos obtenido en otra fórmula la P es 0,9938 pero esa P se refiere a toda la área acumulada observen aquí no se ve del todo la gráfica que aparece encima de la tabla de la curva Z por consiguiente tenemos que buscar no ese valor de P sino 1 menos ese valor que es 0,0062 como el contraste bilateral lo multiplicamos por 2 nos da 0,0124 este 0,0124 es el nivel P crítico asociado a una Z de 2,5 y como es inferior a nivel alfa 0,05 es decir 0,0124 es menor que 0,05 que es no sale muy grande pero bueno que es el nivel alfa en consecuencia rechazamos H0 y por último interpretación y conclusión la interpretación es a la lista de los cálculos realizados podemos decir con un nivel del 95% que el gasto a las mujeres difiere significativamente de 215€ al año que es el que realizan los hombres no estamos afirmando si es mayor o menor difiere si hubiéramos utilizado un nivel de confianza del 99% y eso es importante con un alfa de 0,001 no habría evidencia suficiente para rechazar la hipótesis nula ya que el nivel P crítico que hemos obtenido habría evidencia para rechazar la hipótesis nula con esa misma muestra ya que ahora 0,01 es mayor que el nivel de circunstancias 0,01 es decir que si aceptamos o rechazamos H0 depende mucho del el alfa con el que estamos trabajando vemos que con un alfa de 0,05 y esta muestra y estos resultados habríamos rechazado H0 pero si somos más efectivos tenemos más cuidado para no cometer el error tipo 1 y trabajamos a un 0,01 esos mismos datos nos habrían impedido rechazar H0 porque ahora vamos a trabajar de nuevo con esto tenemos que 0,01 124 que es el nivel P crítico es mayor que 0,01 y por consiguiente a ese nivel no habríamos podido rechazar H0 estas conclusiones pondrían de manifiesto que la importancia de la replicación de la investigación claro teniendo en cuenta que nos podemos equivocar que todas las informaciones que realizamos son probabilísticas aunque con un nivel de probabilidad elevado 0,95 o 0,99 es muy alto no obstante la replicación añade evidencia a favor o en contra de las hipótesis con lo cual replicar las investigaciones es útil no sé si para muchas revistas aceptan una replicación pero son fundamentales en ciencia normalmente desde mi punto de vista una replicación debería verse suplementada con experimentos adicionales una replicación por sí sola es importante pero si por sí sola las revistas no la aceptan así como así y necesitamos informar el valor tanto del efectivo de contraste que hemos obtenido como el nivel crítico para que otros investigadores sepan a qué niveles nos estamos moviendo con nuestros resultados por último tenemos lo mismo contraste sobre la media poblacional pero ahora desconocida la varianza poblacional si desconocemos la varianza poblacional tendremos que estimarla y para ello ahora tendremos que utilizar la T de Studen el efecto de contraste no se va a distribuir según la Z sino según la T esto será cierto recordemos que la T de Studen se aproxima a la normal cuando se utilizan muestras grandes cuando tenemos más de 30 elementos podemos utilizar la Z cuando tenemos elementos se refiere al tamaño muestral cuando tenemos menos tendremos que utilizar las tablas de la T de Studen en este caso observemos que la fórmula es muy parecida a la que hemos visto anteriormente para la Z sin embargo ahora para diferenciarla el estadístico no le vamos a llamar T sino Z esto es exactamente lo mismo lo único que cambia es esto como no tenemos sigma lo desconocemos estamos asumiendo que no conocemos la varianza poblacional la tendremos que estimar y eso es lo que significa este acento circunflejo el acento circunflejo en la estadística de influencia significa estimador ¿cuál es el mejor estimador? o un estimador de sigma bien sabemos por el primer tema que el mejor estimador es la cuasi variación típica muestral ahora bien la cuasi variación típica muestral la podemos calcular o estimada a partir de la varianza o de la cuasi variación de la muestra vamos a verlo vamos a recordar algunas cosas que deberían ser importantes o triviales en el segundo curso recordemos que esta es la fórmula de la varianza que es una simple media entre N de deviaciones elevadas al cuadrado la varianza es una media elevada al cuadrado la cuasi varianza es casi lo mismo excepto que dividimos por N-1 ya hemos visto en algún tema anterior porque restamos una unidad al denominador pero ahora lo único que nos importa es observar que el numerador de estas dos fórmulas es exactamente el mismo por consiguiente podemos pasar N que está aquí dividiendo al otro término de la igualdad multiplicando y N-1 que está aquí dividiendo lo pasamos también al otro término de la igualdad multiplicando y nos quedarían estas dos ecuaciones si este término es el mismo que este significa obviamente que podemos igualar estas dos partes de esas dos ecuaciones recordemos que son dos ecuaciones distintas son idénticas por consiguiente las otras partes de la igualdad también lo son que es lo que hemos hecho aquí la varianza multiplicada por N es igual que la cuasi varianza multiplicado por N-1 esto nos da pie a que si conocemos N y conocemos algunos de los términos varianza, cuasi varianza podamos calcular el otro término como vemos aquí en pantalla que queremos calcular la varianza y conocemos la cuasi varianza y el tamaño muestral aplicamos esta fórmula en donde N la hemos pasado dividiendo que conocemos la cuasi varianza desconocemos la cuasi varianza pero conocemos la varianza y N despejamos N-1 y podemos calcular la cuasi varianza aunque podamos calcular el estadístico utilizando la cuasi varianza recuerden que el mejor estimador de la varianza por la escenaria es la cuasi varianza muestral y por lo tanto el estadístico podríamos utilizar las dos columnas son la misma simplemente que hemos utilizado en un caso la división típica y por lo tanto dividimos por N-1 pero si utilizamos la cuasi división típica la raíz cuadrada es de N estos dos términos deben dar el mismo valor es decir nos deben producir la misma T con la que vamos a realizar el contraste por ello se nos indica que podemos utilizar cualquiera de ellos pero el mejor estimador de la varianza por la escenaria es la cuasi varianza muestral y ya el ejemplo 2.1 no lo puedo finalizar así que lo vemos el próximo día como chiste de hoy viene a pelo porque hemos estado viendo muchos ejemplos de contraste paramétrico y no paramétrico hemos hecho supuestos, etc pues el chiste más claro es el de un físico o un químico y un profesor de estadística que se han quedado en una isla desierta tienen hambre y lo único que les ha quedado del barco es una lata enorme de alubias y quieren abrirla entonces el químico aplicando sus conocimientos lo que hace es decir tenemos aquí maderas podemos hacer un fuego, calentamos la lata y por la presión del incremento de temperatura la lata va a saltar se va a romper y vamos a poder comernos las alubias a lo que responde el físico quita, quita eso es muy complicado es mucho más sencillo lo siguiente mira, aquí hay muchas piedras me subo a ese cocotero una piedra dejamos la lata debajo del cocotero tiro la piedra y por la energía cinética que adquiere la piedra va a golpear la lata la va a romper y no vamos a poder comer las alubias a lo que responde el profesor de estadística quita, quita eso es muy complicado yo tengo un método mucho mejor asumamos que tenemos un abrelatas bien por último aparte del chiste les voy a comentar hace poco he estado leyendo un artículo de Richard Duncan Luther voy a probar una herramienta de Inteka a ver si funciona que es mostrar el escritorio voy a mostrarles a un señor no se lo puedo mostrar un señor llamado Richard Duncan Luther este señor tengo por aquí su fotografía lo que estoy tratando de abrir Richard Duncan Luther donde estás aquí está lo vamos a poner en grande espero que estén ustedes viendo esto esta imagen es simplemente la fotografía de este caballero es un psicólogo matemático del 97 algunos problemas conceptuales no resueltos en la psicología matemática dice lo siguiente los departamentos hacen unas demandas matemáticas muy limitadas sobre sus estudiantes de carrera dejando a lado unos pocos departamentos con un fuerte énfasis en la psicología matemática o en la psicometría las únicas excepciones a estas afirmaciones son las de otros pocos departamentos la audición o la visión donde el análisis complejo se da por supuesto el campo en sí mismo se está refiriendo a la psicología matemática parece respetarse pero no está siendo incorporado a la vida cotidiana de la psicología por desgracia opino lo mismo que Richard Duncan Luther absolutamente lo mismo estamos haciendo muy pocos muy pocas demandas matemáticas sobre nuestros estudiantes es mi opinión ustedes supongo que no estarán de acuerdo pero como yo lo estoy me sorprendió esta afirmación de Richard Duncan Luther es uno de los psicólogos matemáticos más importantes que existen actualmente es muy anciano ya pero es de los mejores que hay y como es mi opinión pues me he visto tentado a comentársela ustedes obviamente pueden discrepar