Bien, pues continuamos con el tema 4. En la grabación anterior vimos la primera parte de este tema, ¿no? Entonces allí estudiábamos estadísticos de resumen, el más importante de todos que era la media aritmética. Estudiábamos también medidas de dispersión, como por ejemplo la desviación media, la varianza, que considerábamos la varianza como una de las medidas de dispersión más importantes, su raíz cuadrada, la desviación típica y el coeficiente de variación que consistía en el cociente entre la desviación típica y la media. Dividir la desviación típica por la media, que de alguna manera era lo que realmente nos decía si la dispersión era muy grande o no. Pues lo que se comparaba con la media. Después veíamos también otros estadísticos, como por ejemplo el rango o recorrido de la variable, que de alguna manera es una medida también de dispersión, claro. La moda y la mediana, que son dos medidas también de posición central, igual que la media. Y los percentiles. Bien, y vamos entonces a continuar a partir de ahí. En primer lugar, precisamos. Precisamente vamos a hablar de la relación entre la media, la mediana y la moda, que son las tres medidas de posición central, pues es más importante. Muchas veces, a veces no es posible, por ejemplo, calcular la media aritmética. Hay casos de variable agrupada en intervalos donde a veces el primer intervalo y el último suelen ser del tipo, por ejemplo, si son intervalos de edades, por ejemplo, a veces el último intervalo es 65, 65 y más. Claro, ese intervalo no termina, no tiene fin, ¿no? ¿Dónde le ponemos el final? Con lo cual no podemos hallar la marca de clase para hallar la media aritmética. Es decir, que a veces la media aritmética presenta dificultades de cálculo, cosa que no le ocurre a la mediana. Entonces, si es la mediana, sustituye a la media aritmética porque no hay otra posibilidad. Bien. Bueno, si el polígono de frecuencias, ¿eh? Representamos el polígono de frecuencias. Y, bueno, aquí tenemos unas líneas de color rojo, ¿no? Que sería un poco el perfil de lo que sería ese polígono de frecuencias, ¿no? Que el polígono sería una línea poligonal, no sería una curva, ¿eh? Pero bueno, sería una línea poligonal, pero bueno, aproximadamente aquí tenemos esta forma, ¿no? Si el polígono resulta simétrico, ¿no? Como por ejemplo tenemos este primer dibujo. En ese caso decimos que la distribución es simétrica, claro. Y en ese caso los valores de la media. La mediana y la moda coinciden, ¿eh? Estaría ahí el valor central. Sería la media aritmética y sería incidiendo con la moda y con la mediana. La moda, en este caso, pues eso, hay una sola, ¿eh? No siempre es una. Y en otro día puede haber más de una. Pero bueno, en el caso de que la distribución sea simétrica, como este dibujito que tenemos aquí, pues en ese caso es única y coincide con la media y con la mediana. Y hay dos casos principales de asimilación. Asimetría, en primer lugar, porque se llama una asimetría a la izquierda. El perfil sería este que tenemos aquí. Es decir, como a la parte izquierda, como que el polígono de frecuencia se alarga más. En ese caso, la media aritmética queda a la izquierda. La mediana queda en el centro. Y la moda queda más a la derecha. La moda, por ejemplo, es el valor que tiene mayor frecuencia. Cuanto estaría en el máximo de la curva. O bien, asimetría a la derecha. O sea, que es cuando se alarga, en el polígono de frecuencias, se alarga hacia el lado derecho. Y en ese caso ocurre al revés. O sea, que la moda sigue estando en el punto que proporciona el valor máximo. La mediana, que quedaría en el centro. Y la media aritmética, pues que queda a la derecha. Bien. Vamos a ver ahora el concepto de tipificación de una variable. Bien. Variable cuantitativa, que sea numérica. Cuya media, en la variable le llamamos x, ¿no? Cuya media aritmética sea x con barra. Y cuya desviación típica, la llamamos S mayúscula sub x. Tenemos esas dos parámetros ya calculados. Entonces se llama variable tipificada a esta expresión que tenemos aquí. Es decir, que consiste en restarle a la variable x, a cada valor de la variable x, le restamos su media aritmética y dividimos por su desviación típica. Con lo cual tenemos otra colección de valores. Es decir, si nosotros tenemos la distribución de la variable x, tenemos una serie de valores de esa variable y los convertimos en otra variable, que es la que llamamos zeta. Y entonces lo que hemos hecho ha sido restarle a cada valor, le restamos la media y dividimos por la desviación típica. Claro, ¿qué ocurrirá? Aparecerán, puesto que la media es un valor, es un valor que es más grande. La media aritmética está entre el más pequeño y el más grande de los valores de la variable. Siempre, claro. Está por el centro. Entonces al restarle a cada valor la media aritmética, habrá valores que serán negativos y habrá valores que serán positivos. Y luego, al dividir, dividir por la desviación típica, lo que hacemos es tomar como si fuese la desviación típica la unidad. Dividir es, de alguna forma, es medir, ¿no? Bueno, pues a esta variable se le llama la variable tipificada. Es importante porque este concepto lo vamos a utilizar un poco más adelante cuando hablemos de la distribución normal que se llama y bueno, y es necesario, lo vamos a necesitar para tipificar a esa variable para poder hacer cálculos. Ya lo veremos. Bueno, pues este es el concepto, o sea que es una transformación, se llama tipificación a la transformación, que consiste en restarle a cada valor, a la variable, a la variable en cuestión, su media y dividir por su desviación típica. Bien, y hay una desigualdad que se llama desigualdad de Chebyshev que consiste en lo siguiente. Esta aquí escrita la voy a explicar. Lo que dice aquí, bueno, es para una determinada variable su media aritmética, la vamos a llamar mu, la representamos por la letra griega mu y su desviación típica, que la representaremos por la letra griega sigma. Entonces, lo que tenemos aquí es, dice esta desigualdad, es que la probabilidad de que x menos mu en valor absoluto, ¿eso qué quiere decir? La distancia desde x, desde un valor x cualquiera, a su media aritmética. Imaginémonos una distribución, tenemos los valores y la media aritmética. Entonces, un valor cualquiera estará a cierta distancia de la media aritmética. Puede estar más lejos o más cerca. Bueno, pues la distancia de un valor cualquiera a la media aritmética, eso es lo que quiere decir la resta en valor absoluto. Claro, si yo resto dos números y el resultado lo pongo en valor absoluto, si el minuendo es más pequeño que el sustraendo, la resta es negativa. Pero yo la pongo, por ejemplo, el 3, si a 3 le quito 8, me da menos 5. Pero el valor absoluto son 5. ¿Qué es 5? La distancia que hay desde el 3 hasta el 8. O sea, que la diferencia en valor absoluto es la distancia. Bueno, pues dice la desigualdad de Chebyshev que la distancia de un valor cualquiera a su media aritmética es si la probabilidad de que ese valor sea mayor que k veces, la desviación típica, esa probabilidad es menor o igual que 1 partido por k cuadrado. Bueno, vamos a ver esto. De alguna manera lo que significa k veces la desviación típica, si k es muy grande, 1 partido por k cuadrado será muy pequeño. Por ejemplo, si k es 10, 1 partido por k cuadrado es una centésima. Si k es mil, 1 partido por k cuadrado es una millonésima. Eso, mil al cuadrado es un millón, ¿no? Por lo tanto, 1 partido por mil al cuadrado sería una millonésima. Entonces, ¿qué es lo que nos está diciendo esta desigualdad? Que la probabilidad de encontrarse un valor lejos de la media, o sea, lejos a cuya distancia sea muy grande, muy grande, si k es muy grande, la distancia es mayor que k sigma, o sea, muy grande. Entonces, la probabilidad de encontrarse un valor lejos de la media es muy pequeña. Es menor o igual que 1 partido por k cuadrado. Bueno, de alguna forma es una manera intuitiva de leer la desigualdad de ese diseño. Bien. Por ejemplo, en un caso particular supongamos que k vale 2. Si k vale 2, entonces aquí está escrita la probabilidad de que la variable, el valor de la variable esté a una distancia, bueno, en este caso está expresada menos de dos desviaciones típicas. Es decir, que dos desviaciones típicas serían x, o sea, mu menos 2 sigma y mu más 2 sigma, el intervalo que va desde mu, la media, le quito dos veces la desviación típica o le sumo dos veces la desviación típica. Entonces ahí tengo un intervalo, pues la probabilidad de que x esté ahí, claro, sería lo contrario de estar fuera. Lo contrario de estar fuera. De estar fuera sería, por ejemplo, si k vale 2, aquí sería menor o igual que un cuarto. Menor o igual que un cuarto es 0.25, o sea que la probabilidad de estar fuera es menor o igual que 0.25. Luego la probabilidad de estar dentro es mayor o igual que 0.75. Es la probabilidad de suceso contrario. De lo contrario de estar dentro, de estar fuera. Y si la probabilidad de estar dentro, o sea, de estar fuera es 0.75, la de estar dentro es 0.25, o al revés. Por ejemplo, si k vale 3, la probabilidad de que x esté en el intervalo que va desde mu menos tres sigma a mu más tres sigma sería uno menos, uno menos, en lo contrario, uno menos un noveno. Uno menos un noveno que serían nueve, sería, a ver, uno menos un noveno que serían, ocho novenos. Ocho novenos que son el 89%. Y después, por ejemplo, si k vale 4, es decir, la probabilidad de que x esté entre mu menos cuatro sigma y mu más cuatro sigma en ese intervalo es una probabilidad que ronda ya el 94%. Es decir, que cuanto más grande es el intervalo centrado en la media, por ejemplo tenemos, si el intervalo es de radio, dos sigma o tres sigma o cuatro sigma, al signo más grande, es más probable encontrar un valor cualquiera de la distribución. O sea que llegamos, por ejemplo, hasta el 94%. Si yo tengo un intervalo centrado en la media y a la derecha cuatro desviaciones típicas y a la izquierda cuatro desviaciones típicas, es decir, es un intervalo que mide ocho desviaciones típicas, pues ahí, según la desigualdad de Chebyshev, se encontraría el 94% de la población. O sea que es la probabilidad de encontrar un valor ahí es del 94%. Bueno, por ejemplo, un caso concreto, ¿no? En España, la edad media de las mujeres que dieron a luz en 2010 fue de 31,4 años, la edad media, y una desviación típica de 5,39 años. Entonces, entonces, por lo menos el 75%, o sea las tres cuartas partes de las mujeres que dieron a luz, estaban entre ese valor de la media multiplicado por 5,39, que es una desviación típica, 20,6 años y... A ver, perdona. Aquí es que estoy viendo que esto no está bien escrito, esto no está bien escrito. O sea que aquí se tendría que poner 31,42 más 5, eh, 31,42 más. O sea que este signo por... Bueno, más dos veces, eh. O sea que aquí es que falta un más. No, perdona. Aquí es que está mal porque... Esto es lo que está mal. O sea, es 31,4 exactamente. Aquí, ahí falta 31,4 más... Bueno, menos 2 por 5,39, 31,4 menos 2,39, que son 20,6 años, y luego 31,4 más 2 por 5,39, que son 42,2. O sea que es el intervalo, en el caso de que K valga 2, que es un intervalo que mide cuatro desviaciones típicas centrado en la media. Bueno, pues ahí el 75% de las mujeres que dieron a luz en ese año, ¿no?, pues estaba entre los 20,6 años y los 42,2 años. Bueno, esto es lo que significa la desigualdad esta de Chebyshev. Bueno, aquí tenemos esto representado gráficamente. Es decir, que aquí tenemos el intervalo que está centrado en la media, que estaría aquí, la media aritmética. Le restamos a ese valor, le restamos dos veces sigma o le sumamos dos veces sigma. Y entonces nos queda el intervalo ese que va desde el 20,6 que estaría aquí, ¿no?, hasta el 42,2 que estaría aquí. O sea, todo este intervalo. Bien. Bueno, vamos a ver algunos ejercicios. Estos son todos ejercicios obtenidos de los exámenes. Bien, entonces aquí tenemos un primer ejercicio según el sondeo sobre juventud realizado por el CIS en el año 2009. La distribución de los jóvenes según tengan o no pareja es la siguiente. Bueno, aquí según las edades tenemos jóvenes desde 15 hasta 29 años, ¿no? Entonces los hay que tienen pareja. Bueno, pues aquí están las cantidades, y que no tienen pareja porque aquí tenemos las cantidades. Entonces las preguntas que se hacen son las siguientes, ¿no? Primero calcula el porcentaje total de jóvenes que tienen entre 20 y 24 años. Bueno, vamos a ir haciéndolo. Después otra pregunta es calcula el porcentaje de jóvenes entre 15 y 19 años que tienen pareja y calcula el porcentaje total de jóvenes que tienen pareja. Bueno, pues en primer lugar vamos a ver el porcentaje total de jóvenes que tienen entre 20 y 24 años. Bueno, pues aquí tenemos entre 20 y 24 años lo único que tenemos que hacer es sumar todos los jóvenes aquí indistintamente tengan o no pareja. Así que... los sumamos y bueno, nos salen 930, ¿no? 930 lo que tenemos que sumar pues eso, esto de aquí, ¿no? 21 más 187 más 35 más 146 más 41 más 131 más 50 más 114 más 66 más 139 lo sumamos. En fin, nos da un total de 930. ¿De cuántos jóvenes hay? Bueno, pues los jóvenes los tenemos que calcular, hay que sumar, ¿eh? Porque no aparece, en el enunciado no aparece, ¿no? Pues los tenemos que sumar. Sumamos todos, las dos columnas, sumamos las dos columnas da un total de 9000, o sea, perdón, de 2902 jóvenes que sería el total de la población a la que se le hizo la encuesta, claro, la muestra, ¿eh? El total de la muestra a la que se hizo la encuesta. Bueno, pues entonces el porcentaje como lo calculamos pues divido en 930 entre 2902 y lo multiplico por 100. Entonces sale un 32,05% de cada día. Después el apartado B es calcular el porcentaje de jóvenes entre 15 y 19 años que tienen pareja. Bueno, pues la edad aquí es lo mismo, ¿no? Primeramente, ¿cuántos jóvenes hay entre 15 y 19 años que tengan pareja? Pues entre 15 y 19 años nos sumamos y nos salen los que tienen pareja. Pues sumamos esto de aquí, estos de aquí y salen 37. De ¿cuántos jóvenes tienen pareja? ¿Cuántos jóvenes tienen pareja? Porque es el porcentaje de jóvenes entre esas edades que tienen pareja. Pues eso hay que calcular los que tienen pareja. Por tanto, sumaremos toda esta columna en los que tienen pareja que son 772. O sea que de los 772 que tienen pareja, 37 están entre 15 y 19 años. Por lo tanto, ¿cuál es el porcentaje? Pues dividimos 37 entre 772 y nos sale que el 4,79% de los jóvenes que tienen pareja están entre 15 y 19. Y finalmente, calcular el porcentaje total de jóvenes que tienen pareja. Bueno, pues de los 2,902 jóvenes 859 tienen pareja. A ver, un momento, un momento. Bueno, perdón, perdón, perdón. Es que estoy ahora mirando, mirando porque el apartado B dice calcular el porcentaje de jóvenes entre 15 y 19 años que tienen pareja. O sea que entonces lo he explicado yo antes mal porque claro, entre 15 y 19 años el total de jóvenes sería sumar todos los jóvenes que hay entre 15 y 19 años tengan o no tengan pareja. Esos son 772. Entonces, claro, ¿cuáles son de entre esos jóvenes los que tienen pareja? Pues tenemos que sumar eso entre 15 y 19 años los 37 que teníamos aquí antes. Por tanto, son 37 eso el cálculo es el mismo, claro. O sea que 4,79% son los jóvenes el porcentaje de jóvenes entre 15 y 19 años que tienen pareja. Bien. Bueno, volvemos al apartado C. O sea, de los 2.902 jóvenes 859 tienen pareja. ¿Qué? Serían los que suman todos los jóvenes que tienen pareja. Bien. Los 1.902 son todos tengan o no tengan pareja. Por tanto, el porcentaje de esos 859 partido por 2.902 multiplicado por 100 queda un 29,60%. Bueno, es un ejercicio de porcentajes no tiene mayor. Bien. Otro ejercicio es en la siguiente tabla figuran las personas menores de 30 años del municipio de Belorado en la provincia de Burgos. Aquí tenemos una distribución agrupada en intervalo ¿no? Una breve agrupada entre 0 y 4 años. La marca de clase es 2,5. ¿Por qué la marca de clase es 2,5? La marca de clase es siempre el punto medio de la clase pues porque realmente el intervalo es entre 0 y 5 años. Esto ya lo explicamos también. O sea, que de 0 a 4 años es un intervalo que no son 4 años sino son 5 puesto que acaba en el instante antes que la persona cumple 5 años. Por lo tanto el intervalo va de 0 a 5 o podríamos decir intervalo abierto de 5. Claro, el punto medio entre el 0 y el 5 es el 2,5. Lo mismo pasa con el segundo intervalo que va del 5 al 10 entonces el punto medio es el 7,5. O sea, que aquí tengo las marcas de clase calculadas desde ese punto de vista. Bueno, pues entonces tenemos hay varones hay estos que hay aquí según los tramos de edad y mujeres pues hay estas que pone aquí también según los tramos de edad y de ambos sexos bueno, aquí lo que está es sumado las dos columnas anteriores. Bueno, ya tenemos separado y luego calcula las desviaciones estándar también estándar es lo mismo que desviación típica de la edad de los hombres y de las mujeres. Bueno, pues entonces aquí tenemos ya que efectuar cálculos bueno, hay que utilizar por supuesto la calculadora ven las edades nosotros utilizamos aquí vamos a utilizar las marcas de clase para hacer los cálculos de la media y de la desviación típica el valor de la variable cuando la variable está agrupada en intervalos es la marca de clase entonces aquí tenemos las marcas de clase las copiamos de arriba bueno, los varones hemos llamado h sub i y a las mujeres le hemos llamado m sub i entonces o sea por tanto las frecuencias de los hombres aquí aparece como n h sub i la frecuencia de los varones y n m sub i sería la frecuencia de las mujeres está copiada de antes está copiada de arriba aquí las tenemos luego construimos una otra columna o sea que hasta aquí es simplemente copiar la tabla anterior entonces ahora multiplicamos cada valor de la variable o sea cada marca de clase por su frecuencia entonces tenemos en primer lugar 43 pues eso da 107,5 7,5 con 49 eso da 367,5 etcétera y lo mismo hacemos con la columna de las mujeres es decir multiplicamos la variable por las frecuencias de las mujeres 2,5 por 27 eso da 67,5 etcétera si sumamos le sumamos ambas columnas o sea que el total de podemos decir que el total de edades de las mujeres sería esta de aquí bueno entonces estos serían los años totales de los varones por ejemplo pues como calculamos la media dividimos por lo que suman los varones que suman 310 por tanto si dividimos 5090 dividido por 310 eso sería la media de los varones que son 16 y pico y luego si dividimos todas las edades que hemos sumado de las mujeres en que son 4922,5 lo dividimos por el total de mujeres que hay pues tendremos la edad media de las mujeres eso sale 17,39 etcétera ahora como calculamos la bueno para calcular desviación estándar tenemos que calcular la varianza y luego tener la raíz cuadrada entonces para calcular la varianza utilizaremos la fórmula abreviada que la varianza es igual a la media de los cuadrados menos el cuadrado de la media la media ya la tenemos lo que haremos será elevarla al cuadrado luego pero no tenemos la media de los cuadrados que es lo que vamos a hacer ahora entonces la media de los cuadrados como la calculamos elevamos la variable que sería la x sub i la elevamos al cuadrado y calculamos la media de esa variable para eso vamos a hacerlo también por separado hombres y mujeres o sea que tiene esta columna que tenemos aquí lo que multiplicamos es cada valor de la marca de clase elevada al cuadrado o sea sería coger 2,5 elevarlo al cuadrado y multiplicarlo por 43 eso da 268,75 luego 7,5 lo elevamos a 49 eso da 2,756,25 bueno etcétera y de esa manera bueno al final sumamos esa columna pues nos da 106,987,5 hacemos lo mismo con las mujeres es decir elevamos al cuadrado las edades y las multiplicamos por la columna de las frecuencias de las mujeres y tenemos entonces la columna esta de aquí que nos da 103,658,75 cada una de estos dos totales los dividimos por el total de su población o sea que los 106,987,5 lo dividimos por 310 y eso nos da un resultado que no está puesto aquí un resultado y después dividimos 103,618,75 lo dividimos por 283 también nos dará un resultado esos dos resultados son las medias de los cuadrados a cada uno de esos resultados le tenemos que restar el cuadrado de la media que hemos hallado antes que las tenemos aquí escritas 16,4 y pico y el 17,3 etcétera elevamos eso al cuadrado y se lo restamos a lo anterior cada uno al suyo y ya eso sí nos dará estos dos numeritos que tenemos aquí el 75 y pico y el 63 y pico que son las varianzas respectivas entonces simplemente de esos valores lo que hacemos es sacar la raíz cuadrada y bueno no hace falta poner tantos decimales aquí se ha puesto todo lo necesario la calculadora sabe todo lo que suele dar pero no es necesario esto redondearlo a dos decimales es suficiente ¿no? bien esas serían las desviaciones típicas o desviaciones estándar bueno bien otro ejercicio en la siguiente tabla figuran las personas menores de 30 años en el intervalos también de amplitud 5 aquí tenemos ya hechas las marcas de clase también y esto es igual que el anterior o parecido ¿no? pero tenemos aquí los hombres las mujeres y los totales bueno pues esto es igual que antes calcula las edades medias de hombres y mujeres y calcula las desviaciones típicas las edades propuestas en exámenes diferentes es decir no es que han repetido la pregunta pero prácticamente bien se hace igual que antes aquí tengo las marcas de clase las frecuencias de los hombres las frecuencias de las mujeres y hacemos todos los cálculos igual que antes multiplicamos cada valor de la frecuencia o sea de la variable por su frecuencia y aquí los tenemos para el caso de los hombres para el caso de las mujeres luego elevamos al cuadrado las variables elevamos al cuadrado las variables y multiplicamos por su frecuencia que aquí tenemos en todas las columnas para calcular las medias de los cuales bueno aquí tenemos todos los totales que ya los vamos a utilizar para efectuar los cálculos entonces aquí tendremos la media de los hombres bueno pues escoge la suma de x sub i por n sub i es decir que aquí tenemos 1497,591 que son 16,02 que sería la media de los hombres la media de las mujeres se cogen esos dos totales también se hace la operación desviación típica de los hombres bueno pues aquí tenemos esto que sería la media de los cuadrados es decir que aquí en el cálculo anterior en el caso de los hombres los cuadrados suman cuando sumamos los cuadrados de las edades suman después de haber hecho los cálculos esto suma 229,718,8 por eso dividido por 91 y lo tenemos 29,718,8 dividido por 91 eso es la media de los cuadrados menos el cuadrado de la media que es lo que teníamos calculado antes como incluso sin calcular o indicar elevado al cuadrado entonces se hace esta operación y ya se saca incluso la raíz cuadrada y el resultado aproximadamente pues son 8,37 o sea ya es cálculo de forma análoga se actúa con las mujeres se hace primeramente la media de los cuadrados menos el cuadrado de la media y bueno solo por dar 7,81 son las desviaciones típicas bueno entonces el comentario claro aquí observamos que la media de las mujeres es algo mayor la media de las mujeres 16,29 pues algo mayor no mucho pero algo mayor que la de los hombres que es 16,02 son unos tres meses claro también vemos que la desviación típica de los hombres es mayor que la de las mujeres pero tenemos que tener en cuenta también la media por eso el mejor parámetro para calcular o sea para comparar la distorsión es el coeficiente de variación entonces vamos a obtener los correspondientes coeficientes de variación entonces para las mujeres sería lo que sería su desviación típica 7,81 dividido por su media 16,29 que bueno da un resultado de 0,4796 que es desde luego menor que 1 lo cual significa que la media es representativa decíamos que si pasaba de 1 era cuando ya a partir de 1,2 1,3 para valores a partir de 1 del coeficiente de variación la media ya no era representativa en este caso es menor que 1 y en el caso de los hombres se obtiene un coeficiente de variación algo mayor no mucho en la propiedad pero bueno esto qué quiere decir que hay algo más de dispersión en el caso de los hombres y que las mujeres pues están como algo más concentradas alrededor de la media siempre alrededor de la media la concentración o la dispersión es respecto de la media bueno ese sería un poco el comentario del ejercicio bien otro ejercicio en el barómetro del cis realizado en enero del 2013 El 0, 1, 2, 3 hasta el 10, ese es el valor de la variable y el número de individuos que ha ido eligiendo esas valoraciones, que aquí ya tenemos, es la frecuencia. O sea, por ejemplo, con el 0 lo han valorado 614, con el 1 lo han valorado 142, etcétera, de un total de 1.318 individuos, que es la suma. Bueno, estos son los datos. Estos datos, entonces ahora lo que tenemos que calcular es la media y la desviación típica de las valoraciones. Esto es ya la rutina, es decir, construimos, ponemos los valores de la variable, del 0 al 10, ponemos las frecuencias y entonces multiplicamos cada valor de la variable por su frecuencia, 0 multiplicado por 614, eso es 0, 1 por 142, 142, etcétera, y aquí tenemos los productos de cada valor de la variable. Por su frecuencia, por lo cual aquí tenemos la suma total de las valoraciones, suman 2.576. Pero claro, eso hay que dividirlo entre el número de individuos que han expresado esas valoraciones, que son 1.318, por lo cual aquí tenemos la división 2.576 dividido por 1.318, que nos da 1,95, que sería la media, la valoración media, podríamos decir. ¿Vale? Para calcular la varianza... Para calcular la varianza, pues hacemos lo que hemos hecho antes también. Hacemos la media de los cuadrados, es decir, para eso construimos esta columna, que es elevamos cada uno de los valores al cuadrado y multiplicamos por su frecuencia, 0 al cuadrado por 614 es 0, 1 al cuadrado por 142 es 142, 2 al cuadrado por 108, 432, etcétera, ¿no? Y al final obtenemos esta suma, que sería la suma de los cuadrados de la variable. Para todos los casos que hay, claro. Que sale 12.784. Entonces, para calcular la media de los cuadrados, simplemente dividimos, aquí la tengo, 12.784 dividido por 1.318. Bueno, si a eso, que es la media del cuadrado, le doy el resto, el cuadrado de la media, que ya habíamos obtenido anteriormente, pues me queda 5,87, que es la varianza. La varianza sale de esta resta, claro. Y ya la raíz cuadrada, pues eso es una desviación típica. Sale 2,42. Entonces, como resulta que la desviación típica es mayor que la media, porque la media era 1,95 y la desviación típica no ha salido mayor, entonces el cotidiente de variación resulta de ser 1,24. Entonces podemos considerar que la media, aunque evidentemente la media es 1,95, eso no mueve a nadie, claro. Pero no es muy representativa porque, porque hay mucha dispersión. Hay mucha dispersión, bueno, que además, mirando un poco las frecuencias, pues eso, desde el 0 hasta el 10, bueno, pues hay dispersión porque hay valores en todos. Evidentemente hay unos con mucha mayor frecuencia que otros, pero bueno, está como muy dispersa. Eso, ya digo, eso se aprecia cuando calculas el cotidiente de variación, que aquí lo tenemos. O sea, que el cotidiente de variación resulta mayor que, 1,2 incluso, 1,24. Bien. Bueno, el cálculo de la varianza, por comentarlo, o sea, ya digo, en el libro no se hace así en ningún caso, ¿eh? O sea, que ellos no utilizan esta fórmula de que la varianza es la media de los cuadrados menos el cuadrado de la media, ¿eh? Pero yo, en fin, la recomiendo porque es más, aunque, bueno, hay que hacer sus cálculos, eso no lo pita nadie, claro, pero es más cómoda, podríamos decir, para efectuar los cálculos, fíjate que aquí hacemos todos los cálculos, no aparecen números decimales, no tenemos que hacer divisiones con decimales y redondeos hasta el final, hasta que no hacemos la división final ya, o sea, que cuando en las tablas no aparece, es todo números enteros. Sin embargo, si lo hiciéramos como en la definición, que es restarle a cada valor de la variable, le restamos su media aritmética, y eso de ahí lo elevamos al cuadrado, sumamos todo eso y dividimos por el total. Bueno, ahí entonces, en cada vez que restemos a cada valor de la variable la media aritmética, ya tenemos decimales. Entonces tendríamos una columna llena de números decimales que los tendríamos ya que ir redondeando, y luego elevar al cuadrado, y cometeríamos más errores. De esa manera de calcular sería bastante más arroba. Bien, vamos a ver otro ejercicio. En la siguiente tabla se ofrecen los datos de censos de población y vivienda de 2011, referidos a la población. Por ejemplo, la población residente en establecimientos colectivos. En concreto, las personas que viven en residencias para mayores. Bueno, pues, bien, aquí tenemos precisamente, como he comentado ya antes, un ejemplo de intervalos donde están abiertos el primero y el último. O sea, que aquí tenemos de edad de menos de 65 años. Pues, lo que son para personas mayores. Menos de 65, también hay algunos, ¿no? Y luego ya de 65 en adelante. 65-69, 70-74. O sea, que aquí 65-69 acaba en 70. O sea, que a la hora de hallar... Bueno, hay que tenerlo en cuenta si hiciera falta. De 70-74, 75-79, etc. Aquí tenemos el último intervalo de 100 o más. Tenemos aquí las frecuencias totales y separados por hombre. Hombres o mujeres, ¿eh? Ambos sumarían la columna esta de los totales. Bien. Dice, construya una tabla con las frecuencias relativas de hombres y mujeres para cada uno de los grupos de edad. Bien. Eso está claro porque se piden las frecuencias relativas. Aquí lo que nos han dado son las frecuencias absolutas, ¿eh? Primero eso. Bien. Dice, ¿cuál es el porcentaje de mujeres entre los que tienen 100 o más años? Bueno, eso... Tenemos un porcentaje de mujeres entre los que tienen 100 o más años. Y luego, calcule las frecuencias relativas acumuladas para el total de personas mayores en residencias y señale el intervalo que contiene la mediana. Aquí en este ejercicio no se pide la mediana hipnética precisamente porque es que no tenemos oportunidad de calcular las marcas de clase. Pero sí que se pide la mediana. Precisamente la mediana sí que se puede calcular porque la mediana es un valor que deja por la izquierda el 50% y por la derecha el 50%. Entonces, no nos importa que los dos intervalos extremos estén sin cerrar para buscar el valor que ocupa la posición central. Bueno, entonces vamos a ir haciendo... O sea, que el apartado A para hallar las frecuencias relativas de hombres y mujeres para cada uno de los grupos de edad. Entonces, ¿cómo calculamos la frecuencia relativa? Dividiendo cada frecuencia absoluta por el total correspondiente. En el caso de los hombres, la frecuencia absoluta de los hombres pues la tenemos aquí. Hemos vuelto a copiarla, ¿no? Esta es la frecuencia absoluta de los hombres y aquí tenemos el total. Entonces, la frecuencia relativa es simplemente dividir, con la calculadora, claro, cada valor. O sea, aquí sería 5.864 dividido por 84.964. Eso da... 0,0690. Y así sucesivamente. Entonces tengo aquí todas las frecuencias relativas de los hombres. Para las mujeres lo mismo, ¿eh? Tenemos las frecuencias absolutas, dividimos cada frecuencia absoluta por el total y vamos obteniendo las distintas frecuencias relativas. Bueno, eso nos tiene más dificultad. Después, la segunda pregunta dice ¿cuál es el porcentaje de mujeres entre los que tienen 100 o más años? O sea, que entonces tenemos que calcular... Bueno, ¿cuántas personas tienen 100 o más años y de ahí cuál es el porcentaje de mujeres? Bueno, pues entonces... Es decir, que tenemos con 100 o más años los contamos, ¿eh? Hay 2.480 personas, claro, que serían, pues eso, los 308 estos que hay aquí y los 2.172 que hay aquí, que son todo, ¿eh? Son los 2.480 personas, de las cuales 2.172 son mujeres. Luego, ¿el porcentaje cuál sería? Pues dividimos 2.172 por 2.480, multiplicamos por 100 y, en fin, eso nos da un porcentaje bastante alto. O sea que, bueno, ya se ve, se ve efectivamente que hay muchas más mujeres que hombres mayores de 100 años. Y después había que calcular las frecuencias relativas acumuladas para el total de personas, ¿no? Y señalar el intervalo. El intervalo, o sea, que ni siquiera hay que calcular la mediana, que podríamos hacerlo, pero... Basta con señalar el intervalo, ¿eh? Que contiene la mediana. Bueno, pues entonces... Aquí lo tenemos, ¿eh? Vamos a construir primeramente las frecuencias absolutas acumuladas y luego dividiremos cada una de ellas por el total. Y de esa manera obtenemos las frecuencias relativas acumuladas. Entonces tenemos aquí los intervalos, tenemos los totales de cada intervalo y vamos haciendo las frecuencias absolutas acumuladas, ¿eh? O sea, vamos sumando. Menos de 65 tiene... 10.060. Luego de 65 a 69, ¿qué hay? 10.376. Los sumamos y obtenemos 204.000... A ver, perdón. 20.000, perdón. Son 10.376. Sumamos y nos da 20.436. Bueno, etcétera, ¿no? Vamos sumando. Hacemos la columna de las frecuencias acumuladas. Evidentemente, la última frecuencia acumulada tiene que coincidir con el total de la población. Y ahora lo que hacemos es que cada uno de estos valores los dividimos precisamente por ese total y vamos obteniendo las frecuencias relativas acumuladas. Evidentemente, la última pues tiene que ser la unidad. Bien. Entonces, ¿en qué intervalo se encuentra la mediana? Bueno, observamos que, fijándonos en la columna de las frecuencias relativas acumuladas, aquí nos aparece, por ejemplo, este valor 0.2716. ¿Eso qué quiere decir? Que hasta el intervalo de 75... 75 a 80, que sería, tenemos un 27% de individuos, ¿no? Es decir, que son menos de la mitad, por supuesto. Pero que el valor siguiente de la frecuencia relativa, que es 0.5017, ya pasaría del 50%, ¿eh? Ya sabemos que la frecuencia relativa se multiplica por 100 y es el porcentaje. O sea, ¿qué quiere decir este 0.5017? Pues quiere decir que el 50,17% de los individuos... ...están... Está entre 80 y 85 años o menos, ¿no? Por lo tanto, ahí tenemos la mediana. En ese intervalo, en el intervalo que va de 80 a 84 años, ¿eh? Tenemos la mediana. Puesto que ahí estará el individuo que por debajo de su edad está en el 50%, y por encima en el otro 50%. Bien. Pues eso simplemente es observar de esa manera. Lo tenemos aquí, la mediana. El intervalo en donde está la mediana sería ese intervalo. Bien. 80, 84. Bien. Otro ejercicio. Bueno, a partir de la siguiente tabla, donde se presenta la población de jóvenes de 18 o 30 años de la ciudad de Badalona, por sexo y edad, realice los cálculos. Bueno, pues hay primeramente que calcular las frecuencias relativas de edad para hombres y mujeres. También ejercicios parecidos anteriores. Y calcule para el conjunto de hombres y mujeres la mediana y los cuartos. Primero y tercero, ¿eh? De la distribución de las edades. O sea, aquí tengo las edades. Van de 18 a 30 años. Es discreta. Esta variable es discreta. No está agrupada en intervalos. Y aquí tenemos los totales de hombres y los totales de mujeres. Bien. Entonces, bueno, en primer lugar, vamos a hacer las frecuencias relativas para hombres y para mujeres. Pues eso simplemente tendremos que calcular el total de hombres que hay, el total de mujeres y cada valor por su total, ¿no? Aquí tenemos hecho llevados cálculos. Total de hombres tenemos 17.086. De mujeres tenemos 15.565. Y el total simplemente lo sumamos. Entonces la acumulada sería esto de aquí. Hemos acumulado, ¿eh? Acumulamos los totales. El último valor de la acumulada coincide con el total. Entonces, la frecuencia relativa de los hombres. Bueno. Por la frecuencia relativa de los hombres obtenemos dividiendo cada valor de... La frecuencia de los hombres, ¿no? Por su... Por el total. O sea que aquí sería 10.000... O sea, 1.021 dividido por 17.086. Eso da 0,0598, etcétera. Aquí tenemos las frecuencias relativas de hombres y análogamente pues las frecuencias relativas de mujeres, ¿eh? O sea, dividimos 972 por 15.565. Eso da 0,0624, etcétera. O sea, la frecuencia relativa se da para hombres y mujeres. Luego para el conjunto de hombres y mujeres la mediana y los cuartiles primero y tercero. Vamos a verlo. Entonces, para el conjunto total, por eso de aquí vamos a usar esta misma tabla, ¿no? Por eso hemos sumado, ¿eh? Hemos sumado hombres y mujeres y hemos acumulado porque queremos hallar la mediana. Bien. Entonces... Lo que tenemos que hacer ahora es buscar, puesto que tenemos un número impar de valores, que son 32.651, pues el valor central, ¿eh? Tenemos que buscar cuál es el valor central. ¿Qué edad tiene, qué edad tiene el valor central? Si nosotros estos 32.651 individuos que tenemos en total, ¿no?, los ordenamos de menor a mayor. Empezamos por los de 18 años, que son los más jóvenes, ¿no? Empezamos por los de 18 años, que en total hay 1.993, ¿eh? Los colocamos, los... En fin, la India, ¿no? A continuación colocamos los de 19 años, que son 2.155, etcétera, ¿no? Hasta que colocamos todos, ¿eh? Los 32.651. ¿Cuál está en el centro de la fila? Ese es el que tenemos que buscar. O sea, ¿qué edad tiene? Esa sería la mediana, ¿no? Bueno, pues entonces... ¿Qué edad tiene? Bueno, aquí vamos a hacer los cálculos. O sea, tenemos que 32.651 dividido por 2, claro, es decimal porque no es un número par, da 16.325,5. Por lo tanto, el que ocupa el lugar central es el que tiene el lugar 16.326. Ese sería el lugar, el lugar que ocupa la mediana. No la mediana, ¿eh? El lugar que ocupa la mediana. 16.326, porque ese tendría, por debajo tendría 16.325 y por encima otros 16.325, que sumados con él, suman en total los 17.000... A ver, perdona, los 32.651, ¿eh? Bien. Bueno, pues entonces, ¿qué hacemos? Nos vamos aquí a la columna de las frecuencias acumuladas a buscar este número. 16.325. 16.326. Entonces, observamos que, bueno, aquí está el 15.581, pero aquí ya pasamos al 18.000. Por lo tanto, ¿qué edad tiene el que ocuparía el lugar 16.325? 25 años, ¿eh? Porque ahora, de los que tienen hasta 24 años o menos, hay 15.581. Y cuando le sumo los que tienen 25 años, ya me paso del 16.326. Luego, el que ocupa ese lugar tiene 25 años, ¿no? Por lo tanto, la mediana son 25. La mediana es el valor de la variable que ocupa el lugar central. Ahora, de forma análoga, vamos a calcular los cuartiles. El primer cuartil es aquel valor de la variable que tiene por debajo el 25% y por encima el 75%. Entonces, lo que tengo, lo que voy a hacer es que cojo el total de la variable, el total de la población, que son 32.651, lo divido por 4 para hallar el 25%, ¿no?, para hallar la cuarta parte, y nos da 8.162. Entonces, nos vamos a la tabla, a la frecuencia acumulada, y aquí veo que tengo 6.322, y que el siguiente es 8.550. Ya me he pasado de 8.162. Por lo tanto, 21 años. Es la edad que tiene el que ocupa el primer cuartil. 21 años sería. Y luego, el tercer cuartil, pues lo mismo. O sea, que Locutáscaro multiplicaría 32.651 por tres cuartos, por 0.75, que es, claro. Entonces, bueno, nos da este resultado, 24.488 con 25. Nos vamos otra vez a la columna de las acumuladas. Y aquí... observamos este 23.560, y el siguiente es 26.000. Ya nos hemos pasado. ¿Y a quién corresponde 26.000? A 28 años. Luego, 28 años es el tercer cuartil. Pues se hace de esa manera, ¿no? Bien. Bueno, pues ahí ya está. Ya no tengo más ejercicios, ¿no? Aquí están todos los ejercicios extraídos de exámenes de este tema, ¿no? Bien, pues aquí lo dejamos, ¿no? Si tienes alguna... alguna duda... Bueno. Sí, es densa. Bueno, es lo que tiene la estadística, ¿eh? Tiene, pues eso, muchos cálculos y luego también lo importante que son sus interpretaciones, ¿eh? Eso también es importante y eso también se suele preguntar. Sí, claro, claro, claro. No confundir conceptos. Eso sí, hay que tenerlo muy claro. Bueno, ya sabes que al examen se puede llevar todo el material que quieras, ¿eh? Puedes llevarte todo tipo de material, de libros... Pero, claro, yo también creo que conviene no llevarse mucho, ¿eh? Porque se puede uno marear. O sea que trabajar con... Si es con el libro de la asignatura, con el libro de texto, trabajar con él, machacarlo bien porque ahí está todo en realidad, ¿eh? En el libro está todo. Eh... O sea que... Eso. Pues sí. Llevarse eso, el material quizá justo y la calculadora. Manejar la calculadora y practicarla bastante antes del examen, claro. Bueno. Pues venga la García. Hasta la semana que viene. Venga. Adiós.