Hola, retomamos el tema 1 en la parte sexta, donde nos habíamos quedado el último día. Nos habíamos quedado viendo el intervalo de confianza para la varianza. Habíamos visto el intervalo de confianza para la media, ahora vamos a ver para la varianza y para la proporción. El concepto es el mismo. Buscamos dos valores, en este caso de varianza, de la variable varianza, alrededor de las cuales podamos afirmar con un nivel de confianza determinado, el que nos elijamos, aunque normalmente está prefijado por la normativa, mínimo tiene que ser un nivel de confianza de 0,95, que podamos decir con esa probabilidad que se encuentra el verdadero valor de la varianza en la población. Tenemos entonces que encontrar dos valores que cumplan ese requisito por término medio. Entonces ya vimos previamente que... cuando trabajamos con la varianza, debíamos utilizar la variable aleatoria que vemos en pantalla. Podemos utilizar cualquiera de las dos. Tenemos en este caso dos variables aleatorias distintas, pero... distintas en términos de cálculo, pero no en términos de resultado. Tenemos esta primera variable, que es n-1, de color, el trazo, n-1, que es 1 menos el tamaño muestral, multiplicado por la cuasi-varianza, ustedes ven que ese al cuadrado es varianza, pero como es n-1, significa que el denominador de esa varianza no es el de la varianza usual, esto es la cuasi-varianza, partido por la varianza poblacional. Si nos cogemos ese estadístico y lo calculamos en la primera variable, en la primera muestra que podamos obtener de nuestra población, en la segunda, en la tercera, en la cuarta, etcétera, lo que conseguiremos será una serie de variables aleatorias y su distribución va a ser chi-cuadrado. La distribución muestra de la varianza era chi-cuadrado con n-1 grado de libertad. Lo mismo sucedería si nos cogemos la variable aleatoria n por la varianza, observen que ahora es varianza realmente porque el subíndice es n, por tanto en cada muestra cuando realicemos este cálculo dividimos por n, partido por la varianza poblacional. Cualquiera de estas dos fórmulas nos da el mismo valor, una variable aleatoria, y en cualquiera de ellas la distribución es chi-cuadrado con n-1 grado de libertad. Sabiendo esto, sabiendo cómo se distribuye muestralmente esta variable aleatoria, podemos calcular un intervalo de confianza alrededor del cual se encuentre la varianza poblacional con el nivel de confianza n-c, que será 1 menos alfa. Si trabajamos a un alfa del 0.05, 1 menos alfa será el 0.95, el 95% de probabilidad de que mi intervalo incluya el verdadero valor de la varianza poblacional. Para ello necesitamos calcular dos valores en la distribución chi-cuadrado que me delimiten un intervalo que incluya ese 0.95%, si estamos trabajando a ese nivel de confianza. Para ello vemos que este valor de chi-cuadrado, con n-1 grado de libertad, me debe dejar por debajo de chi este área que estamos dibujando en verde, o que ya está dibujada aquí en el gráfico en gris, me debe dejar por debajo de chi alfa medios del área total de esta distribución. Mientras que este otro valor de chi-cuadrado, con n-1 grado de libertad, me debe dejar por encima de chi otro alfa medios de todo el área de la distribución, de tal forma que entre medias tengamos el 1 menos alfa que pretendíamos. Recuerden una cosa y observen que la distribución chi-cuadrado normalmente no es simétrica, mientras que la curva t o la z eran simétricas si podíamos utilizar esta característica para facilitar una tarea a la hora de buscar valores de z, aquí no sucede así. Observen que la distribución no es simétrica. Mientras la z y la t pueden adoptar valores positivos y valores negativos, chi-cuadrado solamente puede adoptar valores positivos, de tal forma que este valor de aquí, el inferior que puede adoptar es cero. Vamos a utilizar la herramienta texto. La primera vez que la utilizamos... Ah vaya, me lo ha dicho fuera. No me gusta como lo ha hecho. Bueno, cero sería este valor. No tiene valor máximo. El valor máximo sería infinito. El caso es que queremos encontrar esos dos valores de chi-cuadrado que nos dejan por debajo y por encima de chi alfa medios y por tanto entre medias, 1 menos alfa. De tal forma que la probabilidad de que el estadístico que hemos calculado previamente en este caso hemos puesto simplemente n por la varianza muestral partido por la varianza poblacional sea mayor o igual que el chi-cuadrado inferior y menor o igual que el chi-cuadrado superior. Si ponemos flecha, este valor se correspondería con ese... Lo vamos a poner con otro color. Este valor sería el chi-cuadrado superior. Este valor sería el chi-cuadrado inferior. Y queremos que... El valor muestral n por varianza partido por la varianza poblacional se encuentre en tres otros valores con una probabilidad de 1 menos alfa. Por consiguiente, si despejamos en esta desigualdad lo que nos interesa que es la varianza poblacional por simple álgebra nos encontramos con que la varianza poblacional va a estar... Podemos calcular ese intervalo multiplicando n por la varianza muestral partido por el chi-cuadrado inferior. Esto nos va a dar Esto nos va a dar el valor superior del límite de confianza para la varianza. Vemos que el límite inferior de la varianza va a venir dado por n por la varianza muestral partido por el chi-cuadrado superior. El cálculo de estos dos valores nos garantiza que la varianza poblacional la probabilidad de que en nuestra muestra encontremos una varianza entre estos dos valores será de 1 menos alfa, que es lo que pretendíamos inicialmente. Por consiguiente, el cálculo del límite inferior y del límite superior de la varianza se consigue simplemente límite inferior multiplicando n por la varianza de la muestra la única que normalmente vamos a tener recuerden que todos los pasos anteriores se han dado mediante simulaciones haciendo muchas repeticiones del experimento muestral coger una muestra, sacar la varianza, etc. pero cuando tenemos una única muestra entonces tenemos que hacer esta estimación y confiar en los datos de esa muestra de la única que tenemos. Multiplicamos n, el tamaño de la muestra por la varianza en esa muestra partido por el valor extraído de las tablas de chi-cuadrado con n menos un grado de libertad y que deja por encima de sí 1 menos alfa medios 0.95 1 es el área total de la distribución recuerden que toda distribución de polaridad cuando se integra es decir, el área que queda por debajo de ella y en el eje x es la unidad entonces, 1 menos alfa medios que normalmente va a ser 0.05 o 0.01 si trabajamos siempre a 0.05 que es el más usual 1 menos 0.05 será 0.95 ante esto vemos que el chi-cuadrado que deja por debajo de sí es 0.975 porque esto es alfa medios alfa es 0.05 dividido entre 2 0.025 1 menos 0.025 0.975 este es el chi-cuadrado que deja por debajo de sí 0.975 del área de la distribución y tenemos que el límite superior es exactamente lo mismo en el numerador tenemos los mismos factores n y varianza y en el denominador tenemos un chi-cuadrado pero que deja por debajo de sí alfa medios 0.025 si trabajamos a 0.05 por referencia obviamente de la misma distribución del chi-cuadrado con n menos 1 grado de libertad cuando el tamaño de la muestra está por encima de 100 sujetos lo que sucede es que la distribución del chi-cuadrado es lo suficientemente cercana a la distribución normal que en vez de utilizar el estadístico chi-cuadrado utilizamos el estadístico z haciendo lo mismo que hemos visto con la media pero ahora como el estadístico que estamos calculando es varianza entonces cogemos la varianza muestral para calcular el límite inferior cogemos siempre la varianza o se ve en los dos casos varianza menos más para establecer como punto intermedio la varianza sumamos y restamos un determinado valor y ese valor viene dado por el producto de dos factores el valor absoluto de z con alfa medios por raíz cuadrada de 2 partido por n y aquí sumamos ese mismo valor, valor absoluto de alfa medios de z por raíz cuadrada de 2 partido por n solamente en el caso de que tengamos más de 100 sujetos vamos a ver un ejemplo tenemos un grupo de 30 alumnos de secundaria seleccionados al azar de una determinada comunidad aquí lo único que nos interesa es que son 30 alumnos realizan un test de comprensión verbal de la lengua de su comunidad autónoma es decir, la variable que se está midiendo es comprensión verbal mediante algún test varemado y al uso la puntuación obtenida se distribuye normalmente con media 120 y varianza 36 inicialmente yo diría que estas puntuaciones son las de toda la población por lo tanto son los valores poblacionales no, no he leído lo siguiente la puntuación obtenida se distribuye normalmente con media 120 y varianza 36 una probabilidad de 0,90 esto es el nivel de confianza entre qué valores se encontrará la varianza en comprensión verbal en esa misma variable de todos los alumnos de secundaria de toda significa de la población por lo tanto estos valores deben referirse a la muestra efectivamente entonces, los valores que hemos extraído es que tenemos 30 sujetos tenemos población muestra y distribución muestra de la varianza son como tres casillas donde van a ir los valores que nos proporcionen en el enunciado del ejercicio se trata de un test de comprensión verbal, la variable que se está midiendo comprensión verbal hemos obtenido una muestra de 30 sujetos inferior por consiguiente a 100 no podemos utilizar la aproximación y nos dicen que la media en esa muestra vale 120 y la varianza en esa muestra vale 36 trabajando a un alfa de 0,10 nos piden tarda un poco en aparecer entre que valores se encontrará la varianza de comprensión verbal entre que valores, intervalo de confianza nos piden dos valores, no uno y nos están pidiendo el estadístico de varianza un intervalo de confianza para la varianza por consiguiente vemos que tenemos que utilizar una distribución chi cuadrado con n-1 grados de libertad como tenemos 30 sujetos nuestra muestra será 29 grados de libertad buscamos en este caso en la tabla aquellos valores de chi cuadrado vamos a señalarlos en rojo en el eje de acisas estos dos valores que nos dejan debajo de sí y por encima de sí alfa medios como estamos trabajando al 0,90 quiere decir que tenemos que tener el 0,10 en global por lo tanto lo dividimos por la mitad 0,05 por la parte inferior 0,05 por la parte superior y si buscamos en las tablas tenemos que el valor de 17,71 para la distribución chi cuadrado con 29 grados de libertad es el que nos deja por debajo de sí el 0,05 de la distribución y el valor con el 22,56 es el que nos deja por encima de sí el 0,05 de esa distribución aquí vemos como obtenerlo en la distribución de chi cuadrado nos cogemos vemos claramente aquí los grados de libertad en la primera columna señalada en marrón tenemos los grados de libertad buscamos 29 y luego buscamos la probabilidad aquí vemos que tenemos la probabilidad 0,05 en el punto en que intersectan los grados de libertad y la probabilidad tenemos el valor de chi cuadrado que nos deja por debajo de sí esa probabilidad 0,05 para calcular el otro valor tenemos ahora que considerar que en la tabla en la tabla de chi cuadrado nos proporcionan la distribución acumulativa por consiguiente ahora tenemos que buscar con los mismos grados de libertad que antes 29 pero ahora este valor de la tabla de chi cuadrado tenemos que buscar cuando nos deja por debajo porque es lo que viene triangulado en la tabla entonces si tenemos 0,90 como nivel de confianza y 0,05 la suma de estos dos valores es lo que nos deja ese valor de chi cuadrado por debajo es decir 0,90 y 0,05 nos da una probabilidad de 0,95 la intersección entre esa probabilidad y los grados de libertad nos da un chi cuadrado de 42,56 que nos deja efectivamente nos dejan por encima de sí el 0,05 ya que hay por debajo de sí una vez que hemos obtenido los valores de chi cuadrado que buscábamos 17,71 y 42,56 ya solamente es cuestión de aplicar la fórmula entonces tenemos para el límite inferior n 30 sujetos la varianza muestral nos la habían dado en el enunciado 36 y el chi cuadrado superior 56 hacemos este cálculo y nos da un límite inferior de 25,37 y para el límite superior el numerador es el mismo n por varianza 30 por 36 y el denominador el chi cuadrado inferior 17,71 hacemos este cálculo y nos da un límite superior de 60,98 por consiguiente si eso lo hubiéramos reflejado la estimación puntual de la varianza 36 el límite inferior y el límite superior observen que en este intervalo de confianza no es simétrico lo que habíamos visto para la media si lo era pero no necesariamente es así y eso viene dado nada más ni nada menos que porque la distribución muestral de chi cuadrado no es simétrica y por consiguiente el intervalo de confianza tampoco lo es el caso es que podemos afirmar con un 90% de seguridad que la varianza poblacional se encuentra entre 25 y 60 con una estimación puntual de 36 recuerden el intervalo de confianza es asimétrico porque la distribución muestral de la varianza es asimétrica y ahora vamos a hacer lo mismo para la proporción que es el tercer estadístico más utilizado en la literatura establecer dos valores de la variable proporción entre los cuales podemos asegurar con un determinado nivel de confianza que se encuentra la proporción poblacional que no conocemos aquí tenemos las fórmulas iniciales que son bastante engorrosas pero se reducen básicamente cuando n aumenta un poquito de hecho en casi todos los textos lo que viene es sin más esta fórmula porque es muy similar a la que hemos visto anteriormente es siempre la estimación puntual en este caso de la proporción p sería proporción más menos el error máximo y el error máximo viene dado por el producto entre dos factores uno que depende de alfa es decir, del nivel de confianza y otro que depende de n la proporción muestral el límite inferior la proporción muestral la que hemos obtenido en nuestra muestra en nuestro experimento menos el valor absoluto de z alfa medios estamos utilizando por consiguiente la distribución multiplicado por la raíz cuadrada de p por 1 menos p partido por el tamaño muestral para el límite superior es exactamente lo mismo pero en vez de restar este producto lo sumamos para tener en este caso volverá a ser simétrico y esta expresión es muy parecida a la que hemos visto cuando veíamos los intervalos de confianza para la media y para la varianza un ejemplo para cimentar este este caso para dejar constancia real de las preferencias de los padres sobre la lengua vehicular en la que prefieren que se dediquen sus hijos una determinada asociación de padres realiza una encuesta el procedimiento que hemos utilizado es una encuesta sobre una muestra de 800 familias ya conocemos n n es muy elevado por lo tanto vamos a poder utilizar z la distribución normal 800 familias residentes en una determinada autonomía bilingüe encontrando que 800 familias son partidarias de que todas las asignaturas se enseñen en castellano por lo tanto 800 menos 280 no son partidarias de que todas las asignaturas se enseñen en castellano eso que quiere decir que nos están diciendo que la variable dependiente es dicotómica por lo tanto tenemos que utilizar la proporción no podemos utilizar la media de dos categorías en la variable dependiente soy partidario de que todas las asignaturas se enseñen en castellano y ahí ya nos han dicho la proporción de éxitos considerando éxito de forma relativamente arbitraria es importante considerar eso de forma arbitraria considerando éxito decir que soy partidario de que las asignaturas se enseñen en castellano por lo tanto alfa también lo sabemos que será del 5% como va a ser bilateral alfa medios entre qué valores encontrará la proporción de padres ya nos lo han dicho explícitamente se trata de un contrato de proporción que en esta comunidad autónoma son partidarios de que todas las asignaturas se impactan en castellano la proporción de padres es decir, en la población la información del ejemplo lo podemos poner en nuestro diagrama particular en donde diferenciamos lo que nos han informado sobre la población lo que nos ha informado sobre la muestra y lo que nos ha informado sobre la distribución muestral obviamente se trata de la distribución muestral de la proporción con un alfa del 0.05 el nivel de confianza 95% la variable x ya sabemos que es dicotónica eres partidario sí o no de que tus hijos todas las asignaturas las tengan en castellano en esa variable dicotónica lo que nos interesa es pi la proporción de éxitos como lo ponemos en letra griega porque es el parámetro poblacional que caracteriza a la variable x y desconocemos cuánto vale la muestra que hemos obtenido la única que podemos obtener claramente tenemos 800 familias el total y de ellas 280 son partidarias del castellano de que se asigne en castellano vale el próximo día seguimos porque me había quedado con la resolución de este problema y no lo he terminado bien pensé que lo había terminado vale entonces el próximo día terminamos este ejercicio lo dejamos ahora simplemente planteado y nos metemos ya en contraste de hipótesis y por consiguiente por último vamos a contar el chiste particular de hoy que tiene que ver con lo que estamos viendo de estadísticos estadísticos aseados, etc cuando un estadístico está clavando un clavo con un martillo pero falla el clavo y golpea su dedo ¿cómo lo llamamos? qué pasa cuando un estadístico está clavando un clavo con un martillo y no da al clavo sino a su dedo diez veces consecutivas, ¿cómo llamamos a esa situación? un estadístico sesgado ¿y cómo corregimos el sesgo? pues le decimos al estadístico que coloque el dedo justamente sobre la cabeza del clavo y golpee con todas sus fuerzas su dedo, es un chiste malo pero tiene relación con el error menstrual estadísticos aseados, etc