Vamos a ver el tema 8, las muestras estadísticas, teorías y cifras. Bien, bueno, evidentemente la gran cantidad de datos que se manejarían en una investigación sociológica de grandes colectivos, por lo mejor toda la población de un país o números muy grandes, pues haría imposible su tratamiento de una forma ágil. Entonces en la práctica, ya se ha comentado en el curso, la investigación sociológica se realiza mediante la adaptación de muestras. Mediante la adaptación de muestras y ese procedimiento requiere algunas operaciones que hay que hacer. Entonces la primera es definir el universo, es decir, el conjunto o la población a la que nos referimos. Hay que estar bien claro sobre qué población se va a realizar el estudio. Hay que definir el universo. Después delimitar el nivel de representatividad de la muestra, especificando criterios de error y de confianza, que eso lo veremos en este tema. ¿A qué se refiere? Que evidentemente al elegir una muestra vamos a cometer errores y hay que delimitar también el nivel de la muestra, que la muestra sea más o menos representativa. Después determinar un método para seleccionar la muestra. Hay varios. A determinar un método, pues ¿a por qué método lo haremos? Y finalmente, lo más importante, una vez obtenidos los resultados de la muestra tenemos que traspasar, lo que iba a decir, generalizarlos a la población e inferir, eso es la inferencia estadística, inferir los resultados para el universo. Bien, ¿qué es el error estadístico? Pues procede del hecho de utilizar observaciones muestrales y puede ser conocido, pero obviamente si yo calculo la media de una muestra no va a coincidir con la media de la población, ahí habrá un error, pues ese error puede ser conocido Bien, hay también errores no estadísticos que proceden de los instrumentos de medida o, bueno, muchas encuestas, la mayoría quizás se hacen a través de encuestas o de, o sea, muchas muestras se hacen a través de encuestas, pues claro, hay condiciones de la entrevista, pues hay muchísimas, son muchas las entrevistas que no se encuentran etcétera, hay muchos errores que proceden por eso, errores en la transmisión de los datos etcétera, que ya no son errores estadísticos y hay también lo que se llama el sesgo, que se produce al obtener muestras no representativas de la población, ahí pues si una muestra no representa bien a la población, porque no ha sido bien elegida, pues luego los datos van a producir unos errores, un sesgo Bien, ¿qué llamaremos muestreo aleatorio? Pues es la extracción de una muestra utilizando procedimientos probabilísticos nosotros actualmente nos referimos al caso en que la probabilidad de aumento de la población es la misma, consideramos que todos los elementos de la población son igualmente probables de aparecer en una muestra, claro. Bien nosotros llamamos parámetro a una medida referida a la población y es una constante por ejemplo, un parámetro es la media, en la media que la representamos por la media de la población o la varianza de la población, etcétera, son parámetros y generalmente se desconocen, generalmente los desconocemos Es precisamente, pueden ser precisamente el objeto de nuestro estudio, el conocer el valor de esos parámetros. Por ejemplo, ¿cuál es la media de los alumnos matriculados en la UNED este año? Bueno, pues eso lo podríamos hacer a través de una muestra. Eso lo desconocemos. Entonces, ya digo, lo podríamos hacer a través de una muestra y eso es lo que se pretende, conocer esos parámetros. ¿Y qué es un estadístico? Pues un estadístico es una medida, pero referida a la muestra, como por ejemplo media muestral o varianza muestral, etcétera, que son variables. Pues claro, la media muestral depende, su valor depende de la muestra que hayamos cogido. Yo puedo coger una muestra de 100 individuos, ¿vale? Cojo una muestra de 100 individuos, pero puede ser esta, o esta otra, o esta otra, o esta otra. En una población, pongamos, de 100.000 individuos, puedo coger muchísimas muestras de 100. Cada una tendrá... Cada una tendrá su media. Por tanto, la media muestral, en general, es una variable. Eso se refiere a eso. Un estadístico, por lo tanto, es una variable, pero es que un parámetro es una constante. Bien, vamos a ver un ejercicio sencillo sobre esta cuestión. Tenemos una población, la población completa es de 80.000, es una población bastante pequeñita, ¿no? Y aquí tenemos los valores de esa población, ¿eh? Puede ser por lo que sea, ¿no? Números, tipo que sea. Bien, entonces... Calcular la media de la población. Bueno, eso, evidentemente, lo vamos a hacer fácilmente, claro. Y después, construir la distribución muestral de medias para el igualador. Lo vamos a hacer también. Y representarla gráficamente. Bueno, vamos entonces al primer apartado, ¿no? Y la media de la población, pues, simplemente, pues, que hay 8. Sumamos sus valores, los dividimos por 8 y obtenemos un resultado de 11. Bueno, pues ya está. Ahora, vamos al apartado B. Vamos a construir la distribución muestral de... De medias. Entonces, para el igualador, o sea, tamaño 2. Por tanto, ¿cuántas muestras de tamaño 2 hay en esa población de 8 individuos? Bueno, pues eso es por combinatoria, es 8 sobre 2, combinaciones de 8 elementos, de 8 sobre 2, que lo calculamos y se dan 28 muestras. El tamaño 2 dentro de ahí, tomamos 28 parejas, ¿no? Y vamos a escribirlas. Empezamos por orden, ¿no? El 4 con el 6, el 4 con el 8, el 4 con el 10, bueno, etcétera. Aquí están escritas, ¿eh? Las 28. No se nos escapa ninguna, ¿eh? Las vamos haciendo por orden, bueno, y ahí están escritas, ¿eh? 28 parejitas. Y calculamos sus medias. Luego tenemos 28 medias y aquí están. O sea, por ejemplo, el 4 y el 6, la media es 10. El 4 y el 8, pues la media es 6. El 4 y el 10, la media es 10. La media es 7, etcétera. Y las tenemos aquí escritas, ¿no? Observamos que algunas de ellas, claro, se repiten. 5, 6, 7, 8, 9, 10, 11, luego 7, 8, 9, 10, 11, luego 12, 9, 10, 11, etcétera. Vemos que algunas coinciden con la media de la población, ¿eh? El 11 concretamente, pues aparece varias veces, otras no coinciden y tal. O sea, que una media muestral, por supuesto, no tiene por qué coincidir con la media de la población. Bueno, y aquí la tenemos representada. Hemos escrito nuestras muestras, ¿no? Eso en total son 28. Lo que ocurre es que esto es una distribución de frecuencias, ¿no? Bueno, y escribimos los valores que hemos obtenido de esas medias y el número de veces que se presentan las frecuencias. Algunas se presentan solo una vez, pues frecuencia 1, el 6, el 5 frecuencia 1, el 6 frecuencia 1, el 7 frecuencia 2, el 8 frecuencia 2, bueno, etcétera, ¿no? Y para calcular la media, la media de las medias muestrales, pues lo que hacemos aquí simplemente multiplicamos cada una de las medias por su frecuencia, lo que hacíamos para hacer las tablas de frecuencia, y aquí tenemos esto de esta columna, productos de la variable por su frecuencia, nos da 308. Entonces 308 dividido entre 28 es la media y es 11. Coincide, la media de las medias muestrales coincide con la media de la población, eso siempre va a ocurrir. Y aquí ya tenemos representado, en el que vemos el 5 y el 6, etcétera, que solamente se repetía una vez, luego este más, etcétera, y el 11 en el que más se repite, x, y, b, es la moda. Bien, entonces en la práctica, claro, generalmente desconocemos. Desconocemos los valores de los individuos de la población y trabajamos solamente con una muestra, solamente con una muestra, o sea que no podemos calcular todas las muestras. Aparte, si pudiéramos calcular todas las muestras sería absurdo hacerlo porque entonces si podemos calcular todas las muestras lo tenemos más fácil haciendo los cálculos con la población. Claro, no hace falta irse a calcular con todas las muestras. Pero claro, o sea que en la práctica trabajamos sólo con una muestra, sólo con una muestra, entonces claro, ahí es donde ya sí que tenemos que ir al futuro. Afino con el tema de los valores, etcétera. Entonces, en el ejemplo anterior observamos que hay cuatro muestras de las 28 posibles cuya media coincide con la población. Es decir, que al elegir una muestra de las 28 que hay, tenemos una probabilidad de 4 entre 28. Cuatro casos favorables de 28 posibles, 4 partido por 28, que sería 0,1429. Es decir, el 14,21% de acertar con la media poblacional. Elegimos una muestra aleatoriamente y podría ser una de las que tenga media 11 o no, pero tenemos esa probabilidad, 14,21. Entonces, a esa probabilidad de acertar es la que llamamos nivel de confianza. Bien, si admitimos un error en la estimación de la media, es decir, si no pretendemos que la muestra que obtenemos tenga exactamente la media que buscamos, sino que nos conformamos con que la media haya un error de más o menos uno, es decir, uno arriba, uno abajo, puede ser nueve, diez o nueve, o sea, diez, once o doce. Entonces, ya ampliamos, hay más muestras, hay más muestras ahí, concretamente hay diez muestras cuya media muestra es diez, once o doce. Entonces, claro, el nivel de confianza aumenta si admitimos un error, si admitimos un error aumentamos el nivel de confianza, entonces sería diez partido por veintiocho, y el típico por cien sería, pues, un porcentaje. Un treinta y cinco coma setenta y uno de nivel de confianza. Si el error fuese más o menos dos, pues todavía más, ¿eh? El nivel de confianza, entonces, bueno, aquí hay un error, son diez, ¿no? Son más, ¿no? Bueno, podríamos contar, pero bueno, aquí está el resultado, el resultado sí que está correcto, sería cincuenta y siete coma catorce por ciento, etcétera. Si en el ejemplo anterior hubiésemos tomado las cincuenta... cincuenta y cuatro muestras de tamaño tres, serían ocho sobre tres, cincuenta y cuatro. Entonces, claro, ahí nos encontraríamos veinticuatro muestras con una media en el intervalo diez, doce. Claro, o sea, es decir, si tomamos las muestras más grandes, con el mismo error, el nivel de confianza es mayor, que antes teníamos un nivel de confianza menor que el que tenemos ahora, ¿no? Para muestras de tamaño dos, claro, con muestras de tamaño tres aumentamos el nivel de confianza para el mismo nivel de error. Y encontraríamos 34 muestras con una media en el intervalo que va desde 9.33 a 12.67, es decir, con un error de más o menos 2 y con ese nivel de confianza del 60,71%. Es decir, observamos que por lo tanto para un mismo error al aumentar el tamaño muestral, cosa que por otra parte es bastante lógica, pues aumenta el nivel de confianza. Bien. Bueno, un teorema fundamental e importantísimo en este tema, ¿no? Es lo que se conoce como teorema central del límite y dice lo siguiente, que en una población con media mu y desviación típica, sí, la media mu y la desviación típica de la población, por tanto parámetros. Entonces si aumentamos el tamaño de una muestra, al aumentar el tamaño de una muestra, la media muestral... ...va variando, tiende a distribuirse de forma aproximadamente normal con media mu y desviación típica sigma partido por raíz de n. Bueno, vamos, vamos. O sea, esto, de hecho, antes, cuando hemos hecho la representación gráfica, el ejercicio este de antes, observamos que la gráfica, el perfil que tiene, es un perfil simétrico que recuerda a la normal. Aunque esta era discreta, pero bueno, recuerda a la normal. Es decir, pues eso precisamente porque es una representación de las medias muestrales. Desde luego, la distribución dada, el conjunto de números, estos ocho números, no se distribuyen normal, ni por asomo, ni parecido. No tienen por qué distribuirse de forma normal. Pero sus medias siempre, ¿eh? Siempre. Eso es lo que dice el teorema, ¿no? El teorema... Y desde luego... Entonces, cada vez que, o sea, cuanto mayor sea n, más aproximada a la normal está la distribución de las medias muestrales. Claro, esto es muy interesante porque nos va a permitir trabajar con medias conociendo su distribución. Y ya sabemos que si conocemos su distribución, podemos calcular probabilidades. Sobre todo si es normal, podemos ya calcular probabilidades. Entonces, para una población infinita, nosotros aquí, pues infinito va a ser mayor que 100.000. Al pasar de 100.000 ya consideramos que es infinito, ¿no? Y valores grandes del tamaño muestral n, si tomamos muestras grandes, lo más grande que podamos, también sabemos que tomar muestras grandes, cuanto más grandes, pues también es más dificultoso el cálculo de los parámetros, de los estadísticos, ¿no?, que necesitamos. Bueno, pues entonces se cumplirá, ya digo, para poblaciones infinitas y muestras grandes, que de acuerdo con la tabla normal 0-1, que la media muestral de 0-mu partido por signo, o sea, mu y sigma, son los parámetros de la población, ¿eh? Por tanto, la media muestral se distribuye con esa media, con esa misma media mu, y con desviación típica signo partido raíz de n, por tanto. Si la tipificamos, si tipificamos la media muestral, si atravesamos su media y dividimos por su desviación típica, entonces nos quedaría media menos mu partido por signo. Si la tipificamos y multiplicamos por raíz de n, esa variable que será normal 0-1, es una variable normal tipificada, se encuentra entre menos 1,96 y 1,96 con probabilidad 0,95. Recordamos que, bueno, de acuerdo con las tablas, desde menos 1,96, la probabilidad de que una normal 0-1 esté entre menos 1,96 y más 1,96 es 0,95. Bueno, por tanto, esta variable normal 0-1 se encontraría ahí con esa probabilidad. Y de aquí podemos despejar mu. Es decir, de alguna manera multiplicamos, multiplicamos por sigma los tres miembros, le restamos a los tres miembros la media muestral y cambiamos de signo todas las desigualdades y lo que hemos hecho es colocar un 0. Así que nos quedaría un intervalo que va desde la media muestral menos 1,96 sigma partido raíz de n hasta la media muestral más 1,96 sigma partido raíz de n. Entonces ahí en ese intervalo se encontraría un con probabilidad 0,95 que sería el nivel de confianza. O bien, o bien, o bien, también recortando, alejando las tablas, entre, ahora en vez de menos 1,96 ampliamos, ampliamos el intervalo de menos 2 a 2. Entonces hay que no simplificar poniéndola muy en el centro, sería media muestral menos 2 sigma partido raíz. O bien, menor que 1, menor que media muestral más 2 sigma partido raíz de n con probabilidad 0,9545, esto lo proporcionan las tablas, etc. Así pues, si x minúscula con barra es una media muestral concreta, concreta, o sea que aquí antes estábamos representando x mayúscula que significaba la variable media muestral, la variable media muestral. Pero bueno, si ya cogemos una muestra concreta, entonces... Entonces hay una probabilidad 0,95 de que la media se encuentre en el intervalo concreto de esa media muestral menos 1,96 sigma partido raíz de n y media muestral más 1,96 sigma partido raíz de n. Claro, puede ocurrir, puede ocurrir que la media no esté en ese intervalo o puede ocurrir que sí. Y claro, puede ocurrir que sí con esa probabilidad 0,95. Puesto que sabemos que es la... eso, que ese intervalo es la probabilidad de que la media poblacional esté. Bien, en ese intervalo pues es de 0,95. Entonces decimos que este intervalo va desde la media menos 1,26 sigma partido de BDN a la media más 1,26 sigma partido de BDN es un intervalo de confianza con nivel 0, 95%. Bueno, claramente media muestral menos 2 sigma partido de BDN y media muestral más 2 sigma partido de BDN es un intervalo del 95,45% de confianza, etc. Entonces, en general, el intervalo de confianza adoptará esta fórmula que tenemos aquí, que sería siempre media muestral menos zeta sigma partido de BDN y media muestral más zeta sigma partido de BDN. El zeta será el valor, la cisa concreta entre la que limitamos la probabilidad, bueno, lo que sea, lo que consideremos. Bien, esta tablita que hay aquí es precisamente donde, bueno, aparecen los... niveles de confianza y los valores, las cisas quizás más importantes, que más se manejan, ¿no? Y que, bueno, si conviene recordarlo, concretamente el 95%, ya lo hemos estado manejando, es más menos 1,96, o sea, eso aquí está representado y es lo que significa, ¿no? Es decir, que entre menos 1,96 y más 1,96 está el 95% de probabilidad de la normal, 0,1, ¿eh? Ahí está. Sí. Sombreado esto, ¿no? Entre el más menos 2, o sea, entre el 2 y el menos 2, se encuentra el 95,45 de probabilidad. Entre el más menos 2, 58, se encuentra el 99%, ya prácticamente. Bueno, y entre el más menos 3, pues el 99,7%, que eso es prácticamente decir que está toda la probabilidad ahí. Bien, entonces, de las desigualdades anteriores, pues también podemos obtener, en vez de despejarse... ...de despejarse mu, despejamos x menos mu, pues nos quedarían precisamente los extremos, ¿eh? O sea, bueno, el menos 1,96 sigma partido por raíz de n y el 1,96 sigma partido por raíz de n. Claro, o sea, eso sería la diferencia entre la media muestra al menos mu. O, si lo ponemos en valor absoluto, significa que la diferencia, o la distancia, la distancia entre la media amostral y la media poblacional será menor que 1,96 y otra que podría ser, pongamos, el radio del intervalo. Bueno, eso, para el 1,96 será con probabilidad 0,95, o sea que depende, por lo tanto, el valor que pongamos según la tabla anterior. Ahora bien, ¿quién es la media menos mu? Pues es el error de estimación, claro. Es el error que cometemos si tomamos la media amostral en lugar de la media poblacional, que no la conocemos, que es la que queremos averiguar, claro. O sea que, al tomar la media amostral, cometemos un error de estimación, que se llama el máximo valor del error, es precisamente el radio del intervalo, que es 1,96 sigma. Partido por raíz de n, el radio de ese intervalo. 1,96 sigma partido por raíz de n para la probabilidad 0,95. Estamos trabajando siempre con ese ejemplo concreto. Desde luego, por ejemplo, 2 sigma partido por raíz de n para una probabilidad 0,9545, etc. O sea que eso sería el error máximo a cometer, ¿no? El error típico de la muestra. Entonces, si se desea conocer el tamaño de la muestra para un error. Y un nivel de confianza prefijado. Claro, si tenemos el nivel de confianza prefijado, tenemos el valor de z, ¿eh? Eso lo tenemos aquí, ¿eh? El nivel de confianza prefijado nos determina el valor de z. Y si tenemos el error prefijado, pues entonces tenemos el tamaño del intervalo. Tenemos el tamaño del intervalo. Entonces, de ahí, de la fórmula, o sea que sería el error de esta fórmula, de esta fórmula que hay aquí, ¿eh? En general, pues tenemos e igual a z. Sigma partido por raíz de n. De ahí despejamos n como elevado al cuadrado. Y lo pasamos al primer miembro y el error al cuadrado pasaría al denominador cuando quedaría esta expresión de aquí. O sea que n igual z cuadrado, sigma cuadrado, ecuativo por el cuadrado será el tamaño de la muestra que tenemos que elegir con un error y un nivel de confianza prefijados. Recordemos el ejemplo anterior, con el nivel de confianza que nos conformamos y el error con el que nos conformamos. Evidentemente nos interesa que el nivel de confianza sea lo máximo posible y el error lo mínimo posible, lógicamente. Bien, vamos a ver un ejemplo, voy a hacer un caso particular de estimación de la proporción. Entonces, ¿cómo estimamos la proporción? Una proporción poblacional, tenemos una determinada población y sea P la proporción poblacional y Q igual o menos P, la ponemos con mayúsculas, ¿no? Son constantes que desconocemos, yo desconozco P, que es la proporción de la población. Bien, entonces, el número X de veces que aparezca dicho valor en una muestra del tamaño n, esto ya lo hemos visto también en otros temas, se distribuye como una binomial BNP y con una definición típica raíz cuadrada BNP. Esto lo conocemos desde el estudio de la distribución binomial. Luego, la proporción en una muestra, que será X partido por n, el número X de veces que aparece el valor, número de éxitos podríamos decir, partido por n, el tamaño de la muestra es la proporción, eso es P minúscula, claro. Es una variable, claro, que tendrá como desviación típica. Bueno, la varianza de esta P minúscula sería la varianza de X partido por n cuadrado. La varianza de X es NPQ partido por n cuadrado. Luego, la desviación típica sería, simplificando, sería NP partido por, o sea, PQ partido por n, es cuadrada, porque otra vez son PQ. Partido por L. Eso sería la desviación típica de la P minúscula, que depende de la P mayúscula, claro. La Q es 1 menos P. Claro, P y Q se desconocen. Claro, si se conocieran no hay que hacer ninguna estimación ni ninguna muestra. Si ya conozco la proporción poblacional, pues no tengo que hacer nada para calcularlo, claro. Y estamos suponiendo que eso se desconoce y estamos ingeniándonos para investigar, para estimar, para hacer una estimación de ese parámetro. Ahora bien, en ocasiones se puede tener cierta información de su valor, o bien por estimaciones anteriores, eso ocurre, por ejemplo, cuando se van haciendo encuestas que se hacen cada año y siempre se pueden utilizar datos del año anterior. Hay estimaciones anteriores que se pueden utilizar. Y, pero si no tenemos ningún dato, nos podemos poner en el caso más desfavorable de varianza máxima. Es decir, que P sea igual a Q igual a 0,5. Por ejemplo, para estimar una proporción, bueno, porque si P y Q son 0,5, el producto es lo máximo posible. El producto de P por Q es lo máximo posible en el caso de que sean 0,5 al más. Ya digo a ti. Claro, si nos ponemos en el caso de máxima desviación típica, bueno, pues por lo menos procuramos no pisarnos los dedos con los errores, porque nos ponemos en el peor de los casos. Entonces, por ejemplo, para estimar una proporción con un error del 3%, es decir, un error del 0,03, y un nivel de confianza del 95%, el tamaño muestrado, ya sabemos, es Z cuadrado por PQ. ¿Por qué por cuadrado? Porque aquí la... O sea, la desviación típica sería raíz cuadrada de PQ partido por N. Entonces elevamos al cuadrado, o sea, que eso era la sigma. La sigma, luego aquí el PQ partido por N será la sigma al cuadrado. Bueno, despejamos N de esa expresión y lo mismo que antes. Tenemos lo mismo que antes. Nos quedaría que n es z cuadrado por tq partido por e al cuadrado y, puesto que nosotros hemos elegido el nivel de confianza y el error, pues ponemos 1,96 al cuadrado por 0,25. Aquí es donde nos estamos colocando en el caso más desfavorable. O sea, que tq no los conocemos pero seguro que su producto es menor que 0,25. Menor como mucho puede ser 0,25. No hay un par de números, o sea, el tipo p por 1 menos p que su producto dé más de 0,25. Si p está entre 0 y 1, lógicamente. Bueno, pues entonces esto sería 1,96 al cuadrado por 0,25 partido por 0,03 al cuadrado. Lo calculamos y da esta cantidad. O sea, 1067,11 que aproximaremos a 1068. Bueno, son un poco más de 1067. Bien, y estamos tomando muestras, pues, aunque sea, redondearse puede alrededor de 1067, pero bueno, estamos tomando muestras. A ver, más de 1067, pues, más de 1067, pues, 1068. Bien, pues de esa manera calcularíamos para estimar una proporción. Bien, vamos a ver un ejercicio del texto, ¿no? El ejercicio 3, de calcular el tamaño muestral necesario para estimar con un error del 5% el porcentaje. El porcentaje de votantes que apoyan el sí en un referéndum nacional para un nivel de confianza del 95%. Entonces, claro, dejémonos que aquí carecemos de datos. No tengo ningún dato. De hecho, los únicos datos que hay los hemos puesto nosotros, porque queremos estimar con un error del 5% y con un nivel de confianza que lo ponemos nosotros también. entonces, bueno, pues eso ya sabemos que para el 95% el valor de z es 1,96 y la, bueno, la misma fórmula de antes, claro, o sea que n es igual a z al cuadrado por pq partido por el cuadrado, como no conocemos, no tenemos ninguna información acerca de pq, de pi de q, nos ponemos en el caso desfavorable del 0,25 y, bueno, esto sería lo calculamos y lo da 384 con 16 y tomaremos el tamaño mostral 385 385 para hacer ese estudio y con ese tamaño, pues ya digo, tenemos garantizado ese error y ese nivel de confianza bien, otro ejercicio del texto calcular el tamaño mostral necesario para estimar con un valor del 5% el porcentaje anterior para un nivel de confianza del 99%, bueno pues aquí en la tabla anterior, pues ya la abscisa ya no es 1,96, ahora es 2,58, lo demás hace igual, sería 2,58 al cuadrado por 0,25 partido por 0,02 y en fin, eso nos da 4.160 individuos, claro, aquí como hemos aumentado el nivel de confianza, ha aumentado el tamaño mostral y eso, pues son bastantes más, ¿eh? son bastantes más bien bueno, pues aquí tenemos un cuadro resumen de errores típicos y fórmula del tamaño mostral para los estadísticos de la media y de la proporción el parámetro mu en el caso de la media o sea, la media poblacional y entonces el error estándar que sería sigma partido raíz de n sigma partido raíz de n es la desviación típica, el error mostral o sea, la desviación típica mostral entonces la distribución puede considerarse normal cuando n es mayor que 30, o sea, nosotros hemos visto en el teorema central del límite que cuando n aumenta, cuanto mayor sea n más se parece a la normal, o sea, podemos considerar que el normal 100 ya es mayor que 30 Y, claro, esto normalmente va a ocurrir, porque nosotros las muestras, pues eso no las tomaremos más de 30, pero son muestras de cientos o incluso de mil, o individuos. Pasar de 30 es fácil, quiero decir, por tanto, generalmente será menor. Siempre aplicaremos el teorema central del límite, claro. Bueno, y el valor del tamaño muestral lo tenemos aquí, en z cuadrado por sigma cuadrado partido por el error al cuadrado. En el caso de la media, y en el caso de la proporción, pues ya hemos visto ejemplos, ¿no? La desviación típica muestra, que sería raíz cuadrada de pq partido por n, p y q mayúsculas, o sea, que son las poblacionales. Lo mismo si n es mayor que 30, pues ya se puede considerar normal, y el tamaño muestral, pues hemos hecho ya ejemplos de eso. Bueno, y también, bueno, hay teorema y se puede utilizar, si n es menor que 30, podemos utilizar las fórmulas anteriores, pero en vez de con la normal 0, 1, con la T de Studen. La T de Studen se puede utilizar cuando no se pueda aplicar el teorema central del límite. Y también hay un ajuste que hacer en estas fórmulas en el caso de que las poblaciones sean finitas. Estábamos hablando del caso de poblaciones infinitas. En el caso de poblaciones que sean finitas, o sea, que no sean un número muy grande de elementos, ¿no? Menor que 100.000, o sea, poblaciones de algunos ricos. Pocos miles se pueden usar finitas. Claro que significa que la probabilidad de extraer elementos, un elemento, otro elemento, de forma consecutiva, sin reemplazamiento, va variando. Varía también aunque la población sea infinita, pero lo que pasa es que no se aprecia. Es inapreciable. Pero aquí sí que se puede apreciar, claro, si el número de elementos es menor. Bien, de ahí que las fórmulas hay que corregirlas y ponerles un factor de corrección, que es este numerito de aquí, n mayúscula menos n minúscula de mayúscula de la población y n minúscula del tamaño de la muestra. n menos 1, pues la población menos 1. Y todo el cuadro anterior queda de esta manera. O sea, si tenemos que estimar la media poblacional, el error típico ahora es sigma partido r de n igual que antes, pero ahora va multiplicado por este factor de corrección, que es la raíz cuadrada de n menos n partido por n menos 1. Y el valor de la n, pues también se modifica de acuerdo a esta, cambia, en la fórmula sería esta. Y en el caso de la proporción lo mismo, teníamos el error estándar, el error típico, que era raíz de pq partido por n y aquí ahora hay que multiplicarlo por la raíz de n menos n partido por n menos 1. Y lo mismo. Con el error, o sea, con el valor del tamaño de la muestra. Bueno, otro ejercicio, otro ejercicio del texto, ¿no? En una ciudad de 100.000 habitantes queremos conocer la proporción de habitantes que tienen licencia para conducir automóviles, ¿de acuerdo? Entonces, bueno, desconocemos. Eso es un dato que se desconoce, ¿no? Queremos hacerlo a través de una muestra, ¿eh? No vamos a preguntar a los 100.000, claro. Bueno, pues entonces, eh... Para un error del 5.000, ¿no? Y un nivel de confianza del 95, ¿cuál es el típico? Calcular. El tamaño muestral, suponiendo que la población es finita, estamos en el límite, ¿no? Y el tamaño muestral suponiendo que es infinita, estamos ahí en el límite, podemos considerarlo de una forma o de otra. Bueno, en el caso de que sea finita, ahora simplemente es aplicar la fórmula anterior de la n, ¿no? O sea, que n sería z cuadrado npq partido por e cuadrado por n menos 1 más z cuadrado por pq cuadrado. Entonces, vamos a ver. Como no tenemos datos anteriores acerca de la proporción que queremos averiguar, es cuando nos ponemos en el caso desfavorable, o sea, PQ 0.25. Por lo tanto, aquí el Z al cuadrado lo conocemos porque depende de nuestro nivel de confianza, o sea, 95.45 lo correspondía a una abscisa de 2, por lo tanto sería 2 al cuadrado por 100.000 por 0.25, si ya simplemente sustituir en la fórmula, partido por el error al cuadrado, que es 0.05 al cuadrado, por n-1, que será 99.999, más el Z al cuadrado, que sería 0 al cuadrado, por PQ 0.25. Bueno, todo eso se calcula y nos da 398. 441, que tomaremos 399. Mientras que si supusiéramos que es infinita, las fórmulas son más sencillas, ¿no? Entonces, n es Z al cuadrado PQ partido por el cuadrado. Estamos igual que antes, nos colocamos en el caso desfavorable, PQ es 0.25, pues sería 2 al cuadrado por 0.25 partido por 0.05, eso es 400, o sea, prácticamente es igual, prácticamente es el tamaño muestral de una forma o de otra. Bien, veamos otro. Paro de ejercicio en una determinada comunidad autónoma, queremos estimar la proporción de parados con un error del 2.5% y un nivel de confianza del 95%. Bien. Sabemos que en el trimestre anterior, aquí tenemos datos, el paro era un 12% de la población activa. Calcule el tamaño muestral necesario. Bien, pues aquí vamos a utilizar ese dato anterior. Es decir, por lo menos es una aproximación. Es una aproximación, no sabemos si seguirá siendo ese dato, pero bueno, es una aproximación que podemos usar y ya no necesitamos poner el P por Q igual a 0.25, que era el caso desfavorable. Bueno, pues el tamaño muestral sería Z al cuadrado por PQ partido por el cuadrado y ahora ponemos 0.12 por 0.88 en el P por 1 menos P. Y el 1,96 por el nivel de confianza del 95%, claro. Y el error, pues era un 2,5%, pues 0,025 al cuadrado. Bueno, entonces sale 640,08, pues tomaremos 650. Otro ejercicio, en una determinada comunidad autónoma estamos interesados en conocer el tiempo medio en el que los parados encuentran empleo. Entonces el error está establecido en 3 meses y el nivel de confianza el 95,45%. Entonces antes de hacer el estudio realizamos 90 entrevistas aleatorias y obtenemos una definición típica del tiempo de espera de 4 meses. Bueno, entonces calcular el tamaño muestral supuesta la proporción infinita. Bueno, pues vamos a ver aquí. Y puesto que el nivel de confianza es 95,45%, el valor de Z sería de 2. Entonces sí, aquí tenemos datos, tenemos datos anteriores, podríamos decir. Entonces la desviación típica que vamos a utilizar es de 4 meses, es de un resultado anterior. Por lo tanto lo vamos a utilizar, ¿no? Podríamos, sigma al cuadrado serían 16. Y el error... Son 3 meses, ¿no? Pues el error 3 meses, ¿no? Aquí estamos... O sea que eso, estamos manejando la sigma, por ejemplo, el tiempo de espera, la desviación típica también la estamos manejando en meses, ¿no? Por tanto, eso pues aquí abajo también. El error 3 meses, 3 al cuadrado, bueno, será 7,1 aproximadamente 8. Bien. Bueno, vamos a ver... Continuar entonces, pero ahora una segunda parte del tema que es el diseño de muestras. Habíamos hablado de cómo se calcula el tamaño muestral y ahora vamos a ver cómo se diseña una muestra. Pero luego lo primero que hay que tener en cuenta es lo que se llama el marco. El marco es el registro físico de los elementos de la población. Por ejemplo, todos los habitantes de una determinada ciudad, la lista de esos habitantes sería el marco. Por eso tener el marco es muy también complicado. Es de obtención generalmente difícil. Claro, lo que implica a su vez es dificultad para obtener la muestra. Si no tenemos el marco, ¿cómo vamos a obtener la muestra? Si no tengo la lista de la población, ¿cómo voy a obtener la muestra? Bueno, son dificultades. Entonces en la práctica, para soltar este problema, se utilizan unos procedimientos de muestreo. Que son procedimiento estratificado. O sea, procedimiento por conglomerados o procedimiento por cuotas. Vamos a revisarlos un poquito, ¿no? He explicado un poco. Vamos entonces a ver el procedimiento de muestreo estratificado. Bueno, se llama estratificado porque llamamos estratos a subconjuntos del universo, de la población, de forma que todos los elementos pertenecen a un solo estrato. Por ejemplo, estratos son provincias de una comunidad autónoma. El individuo pertenece... El individuo pertenece a una sola provincia. O campus de una universidad, o departamentos de una empresa. Cada individuo está en un departamento. Bien. Bueno, aquí esta gráfica, pues si tenemos el universo, esta sería la población diversa, ¿no? Universo, pues podemos... Aquí está una descomposición esquemática en estratos. O sea, que aquí por acá todos los circulitos formarían un estrato. Todos los triangulitos formarían otro estrato. Todos... Estrellitas formarían... Bueno, otro estrato, etc. Entonces, el número de estratos lo denominaremos N mayúscula, por hacer una fórmula. Llamaremos N mayúscula sub i a la población del estrato iésimo. Si hay varios estratos los numeramos, cualquiera de ellos, N sub i. Entonces la suma de los N sub i será N, que será la población. La suma de las poblaciones de cada estrato es la población total. Llamaremos N mayúscula sub i a la proporción de la población en el estrato i o el peso del estrato i. O sea, que VL sub i va a ser N sub i partido por N. Esa es la proporción de la población de cada estrato. N sub i partido por N va a ser un número menor que 1. Es la proporción. Si multiplicamos por 100 nos dará el tanto por ciento. N minúscula sub i va a ser... Va a ser el tamaño de la muestra en el estrato i. Pensemos que lo que vamos es a definir cómo obtener una muestra en una población estratificada. Eso es lo que estamos haciendo. Entonces vamos a llamar N minúscula sub i al tamaño de la muestra en el estrato i. Entonces el tamaño de la muestra es N minúscula. Luego, si cada estrato es N sub i, la suma de los N sub i va a ser N. Y VL sub i vamos a llamar a la proporción de la muestra en el estrato i. O sea, que VL sub i va a ser N sub i. Es decir, el número de elementos de la muestra. Y ese estrato partido por el número de elementos de la muestra. Bien. Vamos con estos datos. Resulta que las poblaciones si están estratificadas, si están estratificadas, se reduce la varianza. Si nosotros estratificamos una población para elegir la muestra, elegimos por estratos, elegimos de cada estrato unos cuantos individuos, la varianza se reduce, lo que permite obtener muestras más pequeñas. Muestras más pequeñas. Veamos una ejemplo. Supongamos una provincia en la que podemos diferenciar tres comarcas, la zona norte con importantes centros mineros y pequeña industria asociada a la explotación minera, la zona litoral muy vinculada al turismo y la capital, donde residen los centros administrativos. Bueno, entonces los resultados para el partido de izquierdas en las últimas elecciones fueron lo que tenemos en la comarca minera, que tiene una población de 150.000 individuos, el número de votantes para el partido de izquierdas fueron 97.500, la proporción de votos para el partido de izquierdas son 0,65, ¿de dónde lo hemos obtenido? Pues la proporción de votos es 97.500 dividido por 150.000. Eso sería 0,65. Y P sub i por Q sub i por N sub i, o sea, P sub i por Q sub i multiplicado por N sub i, que sería la desviación típica, o sea, sería la varianza, P sub i por Q sub i es la varianza, multiplicado por N sub i, que es el total de la población. Bueno, pues claro, P sub i es 0,65 por Q sub i, que es 1 menos 0,65, y eso multiplicado. Multiplicado por N sub i nos daría 341.000, o sea, perdón, 34.125. Bueno, eso lo hacemos tanto para la zona minera como para la capital como para la zona turística. Y nos da aquí tres valores, ¿eh? Y los sumamos y nos da 139.875. Entonces, en la población no estratificada, el producto de P por Q sería la varianza. Bien, claro, en la población no estratificada, ¿eh? O sea, que ya prescindimos de los estratos, luego tenemos que manejar, o sea, el total de votos de la izquierda sería 262.500 dividido por la población, 650.000. Eso sería P. Y la proporción, ¿no? Y después, 1 menos P, que sería Q. Eso lo calculamos a este valor de aquí, que da este resultado. 0,241. Ahora, en la correlación estratificada, si lo hacemos por estratos, entonces tenemos P sub i por Q sub i, lo multiplicamos por su E sub i, es decir, lo que teníamos aquí ya calculado en esta columna, ¿no? Lo sumamos, ¿eh? Lo sumamos, lo hemos sumado ya, el 139.895 y dividimos por el total de la población. Y entonces obtenemos otro valor, 0,215, sensiblemente más pequeño. Sensiblemente más pequeño. Entonces, por ejemplo, para un error del 5% y un nivel de confianza del 95,45, el tamaño muestral sería, recordad lo anterior, sería Z cuadrado PQ, partido por E4. Z cuadrado, entonces sería, puesto que a este nivel de confianza, en el 95,45, por lo tanto una abscisa de 2, sería 2 al cuadrado, por 0,241. Eso en el caso de que, por muestreo aleatorio simple, sin estratos, ¿no? Partió por 0,05 al cuadrado y nos sale 386 individuos. Mientras que, hecho por el muestreo estratificado, la varianza estratificada sería 0,215. Sensiblemente, más pequeña, claro. Por tanto, el tamaño de la muestra sale más pequeño, sale 344, que es una reducción de algo más de un 10%. Bien. Entonces, el reparto de los elementos de la muestra entre los distintos estratos se denomina fijación. Y hay tres procedimientos. ¿Cómo elegimos de cada estrato el número de elementos para construir? Para construir la muestra, ¿eh? ¿Cómo elegimos de cada estrato el número de elementos correspondientes para construir la muestra, la fijación? Entonces, hay varios, bueno, hay tres modelos que vamos a estudiar. Afijación uniforme, todos iguales. Es decir, que n sub i va a ser n partido por l. L era el número de estratos, entonces, de cada estrato vamos a extraer el mismo número de elementos. Entonces, la muestra es sumar ese número de elementos de cada estrato. O bien, proporcional al tamaño. Bueno, resulta que cada estrato tiene un determinado tamaño. Lo hemos visto antes en el ejemplo, ¿no? No son todos los estratos del mismo número de población, del mismo número de individuos. Por tanto, podemos hacer una elección de cada estrato distinta. De forma que sea proporcional a su tamaño. O sea, que el número de entrevistas se reparte respetando el peso que tiene el estrato de la población. O bien, hay otro procedimiento que es lo que se llama de mínima varianza, o de Neyman. Que es hacerlo proporcional a la varianza de cada estrato. O sea, que sería n sub i por la raíz de p sub i q sub i partido por la suma de todas las varianzas. Y multiplicado por n. O sea, esto sería una proporción. O sea, este cociente de aquí sería una proporción. Multiplicado por n, que es el tamaño de la muestra. Eso nos va a dar el tamaño de la muestra. En el estrato. Bien. Bueno, pues vamos entonces a ver con los datos del ejemplo anterior. Cómo sería, que nos salía una muestra de 340, el tamaño de la muestra nos salía 344. En el caso de que hiciéramos la fijación uniforme de cada estrato, que había tres estratos. La comarca minera, la población y la turística. Tenemos la fijación uniforme. De cada estrato, 344 partido por 3 son 114,7. O sea, que tendremos 115 individuos de cada estrato. Si hubiéramos hecho, o sea, si hiciéramos una fijación proporcional al tamaño, entonces, el peso del estrato lo hemos calculado antes de la comarca minera, teníamos un 0,2308, o sea, el 23% de individuos pertenecen a la comarca minera. El 46,15% de individuos pertenecían a la capital y el 30,77% pertenecían a la zona turística. Lógicamente, estas proporciones suman uno, ¿no? Entonces, lo que hacemos es multiplicar el 344 por estas dos proporciones respectivamente. Entonces, si multiplicamos 344 por 0,2308 nos da 79,4, si lo multiplicamos por 0,415 nos da 158,8, etc. Y claro, estos numeritos también suman 344 y aquí tenemos un reparto que no es uniforme, ¿de acuerdo? Entonces, este es reparto proporcional. Proporcional al tamaño del estrato. Y luego, finalmente, el de la fijación de Neyman, bueno, pues, tenemos aquí la población de cada uno de los estratos, el P sub i por Q sub i, aquí ya están calculados los productos P sub i por Q sub i, calculamos ahora aquí la raíz de P sub i por Q sub i por la población del estrato y calculamos el cociente este que teníamos antes, ¿no? Que sería dividir, bueno, la suma la tenemos aquí, los 300.000 estos y pico, sería la suma de los productos N sub i por la raíz de P sub i, y ahora para cada estrato, pues, por ejemplo, este primer, este numerito, ¿de dónde sale? De dividir 71.545,4401 por 300.000, por el total este, ¿no? Nos da estas proporciones que también sumarán uno, lógicamente. Luego, entonces, el tamaño de cada estrato, ¿cuál será? Pues basta multiplicar N, los 4, los 344, multiplicarlos por cada uno, pues cada uno su fijador, la fijadora de Neyman correspondiente. Luego, entonces, aquí en el primero sería 81,8, o 148,5, o 13,7, suma lo mismo, claro. Bueno, evidentemente, también es diferente al caso anterior, al caso de la opinación proporcional, pero aunque se parecen algo, se parecen algo. Bueno, y aquí sería un poco el resumen, ¿no? Es decir, que en el caso de uniforme, los 3 igual, entonces sería 115 cada uno. En el caso de proporcional, claro, hay que redondear, ¿eh? Sería 80 o 101, tiene que ser 106. O en el caso de Neyman, pues sería esta otra la fijación. Bien, vamos entonces a ver un ejemplo, o algunos ejemplos del diseño estratificado uniforme. Vamos a ver un ejemplo, vamos a discutir un poquito más, ¿no? Bueno, pues por lo general, cuando se utiliza la fijación, el tamaño muestral lo calculamos no a partir del conjunto de la muestra, sino fijándonos en la situación de los estratos cuya varianza sea mayor, ¿eh? Vamos a ver, vamos a ver un ejemplo. Bien, estamos, hacemos estratificación uniforme. O sea que todos los estratos, la muestra en cada estatus va a tener el mismo tamaño. Bueno, entonces en una investigación sobre las condiciones de trabajo femenino en la comunidad de Castilla-La Mancha, se quieren tener datos detallados para cada una de las provincias. Entonces, el nivel de confianza se establece en el 95% y el error en el 3%. Bien. Entonces, como aproximación a la varianza, se... Se deciden datos de la actividad femenina del último censo de población. Aquí tenemos, o sea que de cada una de las provincias, la proporción de mujeres activas, ¿no? Bien. Pues es esta que tenemos aquí, ¿no? Bien. La situación de mayor varianza se encuentra en Guadalajara. Porque, claro, ya sabemos el valor de estas proporciones, estas proporciones que hay aquí, el valor más cercano a 0,5. Recordemos que, bueno, aquí está representado lo que hemos comentado antes, ¿no? Que 0,5 por 0,5 es el 0,25, ¿no? El máximo valor del p por q. Bueno, entonces aquí el máximo valor, que concretamente es el de Guadalajara, que es 0,347, pues la situación de mayor varianza se encuentra en Guadalajara. Porque proporciona el producto p por q mayor, ¿no? Así es que utilizando los datos de dicha provincia, calcularemos el tamaño muestral, que será z cuadrado por pq partido por e cuadrado. Y desde aquí podemos utilizar datos... Los datos anteriores, ya digo, si nos hubiéramos puesto en el caso desfavorable, como usábamos en los ejercicios anteriores de poner pq igual a 0,25, todavía la muestra saldría más grande, ¿no? Bueno, aquí podemos usar un valor que sale algo más pequeño. 0,347 por 1 menos ese valor, que sería 0,653, pues sale menos que 0,25. Bueno, pues es 1,96 al cuadrado, que da el 25%, y 0,03, bueno, eso sale... ...esto de aquí, y sale 967,19, entonces la muestra sería 968. La muestra del total de Castilla-La Mancha que vamos a utilizar. Y como vamos a hacerlo uniformemente y tenemos 5 provincias, pues simplemente dividiremos esto entre 5, bueno, perdón, perdón... perdón, multiplicaremos por 5 porque estamos diciendo solamente de la provincia de Guadalajara, solamente para la provincia de Guadalajara, entonces lo hemos puesto en el caso más desfavorable de los datos que teníamos que era la provincia de Guadalajara entonces para esa provincia nos saldría 968 como queremos hacer para toda la comunidad de Castilla-La Mancha, pues multiplicamos por 5, pues se trata de una estratificación uniforme de cada provincia vamos a sacar 968 individuos, en total, la muestra el tamaño de la muestra sería 4840 bueno, aquí se puede hacer una corrección una vez hecho el estudio se puede hacer a la hora de presentar los datos, ya digo, una vez hecho el estudio el muestreo, se hace muestreo uniforme se puede hacer una corrección de una ponderación que vamos a explicar entonces en un diseño no proporcional al tamaño del estrato en el diseño uniforme claro, en el que estamos conviene introducir unos coeficientes de ponderación para corregir el resultado obtenido por el conjunto total, entonces vamos a ver un ejemplo supongamos que la comunidad autónoma vasca se encuentra haciendo una encuesta electoral y utilizamos en cada una de las tres provincias una muestra de 800 entrevistas, el mismo tamaño en cada estrato dado que nos interesa tener resultados concretos para cada una de las provincias entonces la población de cada provincia y los resultados de la encuesta han sido los siguientes a la vacía en esta población hemos realizado 800 entrevistas en cada una de las provincias y los entrevistados que votan al partido TETA y X, pues en cada una de las provincias aquí tenemos los resultados y tenemos también la proporción de votantes es decir, que este 0,481 que es 385 partido por 800 de los entrevistados de esa provincia los que han votado a ese partido es la proporción de votantes de cada uno de la muestra Bueno, aquí tenemos la población total, el total de la muestra, el total de los entrevistados que votaron al partido ZX y aquí también, si sumamos, aquí lo que hemos hecho no es que hemos sumado estas proporciones, sino que lo que tenemos es globalmente la proporción en las tres provincias. O sea, que sería 675, pues vamos a votar al partido ZX, partió por el total de la muestra, el tamaño de la muestra, los 1.400, entonces nos da esa proporción de votantes total. Bueno, entonces vamos a construir un coeficiente de ponderación para cada estrato, que lo hacemos de la siguiente manera. Cogemos y dividimos la población de cada estrato por la población total. O sea, que aquí 309 en el caso de Alba, ¿no? 309.635 dividido por el total, por 2.157.112, eso nos da 0, todo esto de aquí, ¿no? 143, 5, 4, 1, 1, 4, 6, vale. Hacemos lo mismo para Gepuzkoa, hacemos lo mismo para Vizcaya. Claro, puesto que hemos dividido por N cada uno de ellos y sumamos, nos da un 1, lógicamente. Cada una de estas tres proporciones en total sumamos. Ahora, dividimos el tamaño del estrato por el tamaño de la muestra. O sea, perdón, el tamaño de la muestra en cada estrato por el tamaño de la muestra. Claro, puesto que todos los tamaños son iguales en cada estrato, pues nos queda 800. 800 partido por 1.400 es un tercio, claro. Pues sería 0,3 periódico igual a 1. Obviamente también suma 1. Y construimos un coeficiente de ponderación para cada estrato. ¿De qué manera? Pues la proporción de individuos que teníamos la dividimos por la proporción de votantes, que lógicamente es la misma. Claro, como es dividido... Sí, por un tercio equivale a multiplicar por 3. O sea, si cada una de las proporciones de la población de cada estrato la multiplicamos por 3, nos saldrán estos numeritos de aquí. Son coeficientes de ponderación para cada estrato que vamos a utilizar, le llamamos UCI. O sea, que son la proporción de la población dividida por la proporción del estrato, del tamaño del estrato. Bien. Entonces, desde luego, se cumple que si el U sub i es menor que 1, entonces el estrato es que está sobre representado aquí, sí. Si el coeficiente, donde lo llevamos a volver, ¿no? Aquí, por ejemplo, este coeficiente U sub i es menor que 1, es 0,43, es el menor que 1, ¿no? Entonces, ¿eso qué significa? Que álava, pues es la que menos, tiene más pequeño el coeficiente de ponderación, por lo tanto está sobre representado porque nosotros hemos elegido todas las muestras del mismo tamaño. Luego, si álava sale ese coeficiente más pequeño, claro, lógicamente este coeficiente es más pequeño porque el W sub i es más pequeño, porque tenía la población menor, claro, también, ¿no? Y la proporción de población menor. Luego, entonces está sobre representado. Por ejemplo, hemos elegido las mismas, el mismo número de encuestas en álava que en mizcayá. Por lo tanto, álava está sobre representado. Si es igual a 1, si el U sub i es más igual, el estrato está correctamente representado y si U sub i es mayor que 1, el estrato estará infrarrepresentado. Entonces, bueno, apliquemos todos los coeficientes de ponderación al ejemplo. Bueno, pues tenemos eso, las 800 entrevistas, los que han votado el partido en cada entrevista, el tamaño de la muestra ponderado, o sea que aquí ahora lo que hacemos es que multiplicamos los 800 por cada coeficiente, por cada, el U sub i, por cada U sub i de los que hemos leído. Entonces multiplicamos por los coeficientes U sub i y nos aparece esto. Lógicamente, lógicamente eso tiene que ser el tamaño, el tamaño de la muestra total, puesto que los U sub i suman 1, suman 1, por lo tanto si multiplicamos 800 por cada uno de los UY sumamos, sumará los 2.000, perdón, los UY suman 3, porque lo hemos multiplicado por, dividido por un tercio, luego nos saldrá 800 multiplicado por 3, claro que aquí tenemos el resultado, son los 2.400, pero es el tamaño de la muestra. Entonces, el número de votantes al partido de Davis ponderado, pues, o sea que ahora aquí multiplicamos el coeficiente de ponderación, los coeficientes de ponderación por los P subidos, ahora lo multiplicamos por los P subidos, luego nos dará, bueno, pues esto de aquí, entonces nos dará, pues eso, 563 suma, suma son 563,1255. Entonces, entonces, la proporción de votantes ahora, si de cada, o sea, cada U subi P subi lo dividimos por U subi N subi, que era el tamaño de la muestra ponderado, entonces nos dará, o sea, que aquí sería 165 y pico dividido por el 344, esto de aquí nos da 0,481, ¿no? En el segundo caso, para mi cúzculo, 0,131 y para Vizcaya, 0,231. Entonces, si sumamos, ¿eh?, hacemos la suma de esos 3, bueno, no la suma de estos 3, perdón, sino si dividimos la suma, o sea, el 563, ¿eh?, la suma de U subi P subi, lo dividimos por el 2400, que era la suma de U subi N subi, nos dará 0,235. Entonces, ¿vale? Observemos que el total de votantes al partido será el 23,5%, que aunque es una cifra diferente a la anterior 28,1%, sin embargo, la ponderación no afecta al resultado de cada estrato, únicamente al total, que ahora sería el correcto. Es decir, que antes, claro, antes es que estaba sin corregir. Entonces, de esta manera, pues lo corregimos. Este sería el resultado corregido. Bien, vamos a ver un ejercicio del texto. Teniendo en cuenta que la población femenina mayor de 10 años de Castilla-La Mancha es la siguiente, aquí la tenemos, y que los resultados de una encuesta realizada de fijación uniforme han ofrecido los siguientes resultados. Resultados, bueno, aquí tenemos, este sería el resultado de activas, de inactivas y el total, claro, tiene que sumar 968, puesto que se trata de una fijación uniforme, de una encuesta realizada de fijación uniforme. Entonces, calcule los coeficientes de ponderación para cada estrato y la proporción total de activas en Castilla-La Mancha. Bien, pues eso sería aplicarlo, como he dicho antes, a este caso. Entonces, aquí tenemos la ficha. La población de cada estrato, el tamaño de la muestra, la proporción de activas, todo eso lo sacamos de la tabla anterior. Y ahora, proporciones de la población. Bueno, pues tenemos, dividimos, aquí tenemos el total de la población. Dividimos la población de cada estrato por el total de la población. Después, dividimos el tamaño de la muestra en cada estrato por el total de la muestra. Claro, puesto que hay cinco provincias, pues es un quinto todo, ¿no? 0,2, claro. Ahora, ¿cuáles son los coeficientes de ponderación de cada estrato? Pues el W sub i mayúscula partido por el W sub i minúscula. Esto es lo mismo que antes, ¿no? O sea, que sería multiplicar por 5. Multiplicamos cada W sub i de esto y multiplicamos por 5, claro. Es dividir por 0,2. Aquí tendríamos estos coeficientes de ponderación. Entonces, el tamaño de la muestra ponderado, que sería U sub i partido por N sub i, este que acabamos de obtener aquí ahora, estos coeficientes de ponderación. Dividimos los U sub i. por los n sub i, entonces nos va dando estos numeritos nuestros resultados, que en total suma el tamaño de la muestra y el número total de activas ponderado que da 1 sub i por p sub i, es lo mismo que antes que nos da este resultado. Entonces la proporción total de activas sería dividir esto de aquí, dividido por esto otro y que nos da 0,45. Bueno, vamos a dejarlo aquí aunque queda un poquito, continuamos el próximo día. Gracias.