Estas son las clases que había seleccionado y esto me salía 1,45. Pero bueno, aquí de hecho también se puede aproximar y lo podéis hacer a 1,5. ¿Y entonces qué intervalos me quedarían? Pues el 7,5 hasta el 9, de 9 al 10,5 y así hasta el último que iba a ser 15 y 16,5. Estos son los intervalos que yo haría a partir de estos datos. Paso a la siguiente página y ahora vamos a empezar a hablar ya de las frecuencias. Entonces vamos a ver por una parte que tenemos la frecuencia total, que va a ser la cantidad. Esto tiene más sentido cuando estamos en variables cualitativas, ¿vale? Las de cualidad, en las que normalmente tienes un número fijo de clases que se repiten cada una de las veces que sean seguros individuos de los que se disponga. Pero también cuando hago esto de agrupar los datos, también va a haber en cada intervalo una cantidad, una frecuencia. Una frecuencia de los datos que entran en cada uno de los intervalos, que no tiene por qué ser la misma. Por ejemplo, en este primer intervalo, de 7,5 a 9, pues creo que solo hay un elemento que es el 7,8, porque luego todos son mayores que 9. Ah, no, mira, el 7,8 entraría, luego también entraría el 8,6 y el 8,5. Solo tendría tres elementos. A lo mejor en el siguiente, que es de 9 al 10,5, pues tengo el 9,2, el 9, el 9,3, el 9,4, el 9,7, el 9,1, ya he contado por lo menos cinco. Entonces, el número de elementos que van a caer en cada intervalo van a ser distintos. Y este número de elementos que hay en cada intervalo, o el número de elementos que va a haber en cada clase, es lo que vamos a llamar frecuencias, cuando le apetezca la diapositiva pasar. Entonces, vamos a ver que, por una parte, la frecuencia absoluta, que es el número total de elementos que hay en cada caso, pero también lo podemos relativizar. ¿Vale? Para, digamos, ver un poco la proporción de cómo se distribuye proporcionalmente los datos en mis clases. Y eso es lo que vamos a llamar frecuencia relativa, cuando le apetezca a la señora diapositiva pasar. Entonces, ¿cómo voy a calcular las frecuencias relativas? Pues va simplemente, vamos a ver qué es el número de elementos que hay en esa clase entre el número de elementos totales de los que dispongo. Pues si aquí he dicho que en el primer caso solo había tres elementos y tengo treinta y cuatro, pues la frecuencia relativa va a ser tres entre treinta y cuatro. Y si en el siguiente intervalo había dicho que había cinco elementos, pues cinco será la frecuencia absoluta y cinco entre treinta y cuatro la frecuencia relativa. Entonces, ¿qué propiedades podemos sacar de aquí? Pues por una parte, que si yo sumo las frecuencias absolutas de todos los... intervalos, lo que voy a tener es el número de datos total. Entonces, si yo sumo el tres que he sacado del primer intervalo, el cinco del siguiente y así para todos, lo sumo para todos, voy a sacar los treinta y cuatro datos de los que dispongo. Y esto lo puedo hacer en formato tipo tabla de manera que lo calculo muy rápidamente. Lo que pasa es que tarda tanto que se me va a acabar la clase y no me va a pasar la diapositiva. Esto no hay manera. Venga. Bueno. Ya me he cansado y estaba compartiendo pantalla. ¿Estáis viendo las diapositivas? Qué desesperación. ¿Veis las diapositivas que estoy compartiendo pantalla? No. Bueno, ahora. Vale. ¿Estáis ahí? Ya estoy. Se me ha ido otra vez la conexión. Bueno, como no creo que me dé tiempo a acabar el tema o al ritmo que vamos... Lo que me falte lo explicaré el próximo día cuando lo veamos con ARRE, ¿de acuerdo? Pero lo explicaré. Entonces, lo que os comentaba es que lo de la frecuencia total de los datos, eso me lo habéis llegado a escuchar antes de que se fuera, que teníamos la frecuencia total, que era el número de datos de los que dispongo, la absoluta, que era el número de datos por clase y la relativa, que era la proporción de datos a la que pertenece cada clase. Creo que esto a lo mejor va a ser que lo escribo directamente en la pizarra. Y ya está. A ver. ¿Cómo se quita esto? Bueno, igual a la pizarra también le cuesta un rato, claro. ¿No me veis? ¿También se ha vuelto a ir? Vale. Lo que estoy tratando es pasar a la pizarra porque ya que las diapositivas no se pasan, pues por lo menos poder pintar algo. Ahora. Vale. Entonces, decíamos que las frecuencias relativas, ¿vale? Entonces, un ejemplo. Yo tengo los datos mi, x, y, ¿vale? Que son los datos que yo dispongo. Bueno, línea recta no es lo mío. Y tengo los posibles valores 0, 1, 2, 3, 4, 5 y 6. ¿Vale? Y aquí tengo las frecuencias de cada clase, que son las frecuencias absolutas, que son 26, 42, 32, 21, 14, 11 y 4. Y luego tengo las frecuencias relativas. Que es el resultado de dividir cada uno de estos números entre el total, que es 150. ¿Vale? Los 26 entre 150, 0,173. Los 42 entre 150, 0,28 y así sucesivamente. Voy calculando todas las frecuencias. Entonces, lo que es importante es que fijaros, cuando yo sumo todas las frecuencias relativas, me tiene que dar 1. ¿Vale? A lo mejor por tema de redondeo. Si yo sumo todas las frecuencias, me queda 1,02 o 0,98. Pero si lo hemos hecho bien, si lo sumo todo, me tiene que quedar 1. Al igual que cuando sumaba todas las absolutas, me da la frecuencia total. Cuando sumo las relativas, me tiene que quedar 1. Y luego a partir de aquí, definimos las frecuencias acumuladas. ¿Vale? Como en lugar de minúscula, lo denotamos por mayúscula. Que voy acumulando las frecuencias de cada clase. En este caso, en primer lugar, lo hacemos. Vamos a sumar las absolutas, ¿no? Entonces el primero que he acumulado. Ya ya sé que tarda. Es 26. Luego el siguiente es 26 más 42, que son 68. Luego a los 68 le sumo los 32 de la tercera clase y me da 100. Luego sumo los 21 y me da 121. Y así sucesivamente hasta que llego al total. Y lo mismo hago con las frecuencias relativas. ¿Vale? Las puedo ir acumulando también. Entonces tengo 0,173, 0,45, 0,66, 0,80, 0,90, 0,97 y 1. ¿Vale? Y bueno, luego lo que estaría en las diapositivas que está mejor es que yo esto a partir de aquí pues lo puedo pintar, ¿no? Entonces cuando estoy en variables cualitativas, las de cualidad, no tengo mucha margen para hacer gráficos de estos datos. Entonces lo que se suele utilizar son los diagramas de barra, ¿no? Entonces suponiendo que estos sean pues los grupos de una universidad del mismo año, ¿no? Pues yo representaría aquí cada uno de los elementos proporcionalmente. ¿Vale? Y los iría así representando hasta tenerlos todos. ¿Vale? Esto pues está mucho mejor pintado en las diapositivas. Esto es lo que se llamaba el diagrama de barras. Y luego tengo el diagrama de sectores que es esta tartita que habéis visto algunas veces en el que cada ángulo, ¿vale? Va a ser proporcional. 1, 2, 3, 4, 5. ¿Vale? Cada trozo de tarta se supone que es proporcional al... a la cantidad de... a la frecuencia, vamos. Y bueno, esto se puede calcular también fácilmente. Ahí está. Se puede calcular fácilmente con la fórmula que no me acuerdo, no la tengo a mano. ¿Vale? Pero si mis datos son cuantitativos, los de números, ¿vale? Estelograma de sectores, tengo más opciones. ¿Vale? Si yo tengo una variable... Si ya estoy considerando que esta variable es numérica, entonces además del diagrama... Bueno, estos diagramas también los puedo representar si los agrupo por clases. ¿Vale? Y si no, también tengo lo que se llamaban los histogramas. ¿Vale? Los histogramas se parecen a los diagramas de barras, pero me está dando... Se utilizan sólo para variables cuantitativas, para variables numéricas. Y además me está dando lo que sería ya la distribución que veremos en las siguientes... En los siguientes temas. ¿De acuerdo? Bueno, lo de pasar de página en la pizarra tampoco. Entonces bueno, borro el diagrama de sectores. Entonces fijaros que en el histograma... Al hacer las... Las clases, ¿vale? Las doy con una continuidad, pues por ejemplo de 1 en 1. Y voy añadiendo mis barritas. A lo mejor en mis datos no tengo el 3, pero no pasa nada. Me lo salto y sigo añadiendo barritas. Esto no tenía sentido en el diagrama porque en el diagrama me está representando cada una de las clases que tengo. En el diagrama de barras, pues simplemente me aparecerían todas juntas y no tendría un hueco aquí entre el 2 y el 3. Representando que ahí no hay datos. ¿De acuerdo? Pero en el histograma sí. En el histograma sí que me aparece así. Los histogramas pueden representar tanto frecuencias absolutas como relativas. ¿De acuerdo? Y bueno, el resto de distribuciones ya los... Las vemos el próximo día con R. Debo ir a distribuciones de representaciones gráficas, que va a ser más fácil. A ver si no se nos cuelga tanto. No sale nada la pantalla. Se supone que está cambiando de pizarra, pero a mí todavía no se me ha cambiado la pizarra. Por lo cual a lo mejor a vosotros sí. Ya se me ha vuelto a colgar otra vez. Bueno, para la próxima clase intentaré que me mejore la conexión y estar en otro sitio. Porque aquí desde luego... Lo de compartir pantalla lo he intentado antes y también se me estaba quedando pillado. Pero lo vuelvo a probar. ¿Lo veis? ¿Veis la pantalla compartida? Vale. Sí, a mí también. Bueno. Vale. Entonces estoy viendo que estoy bajando de pantalla y todo, ¿no? Vale. Pues cuando las variables son cuantitativas sin agrupar tenemos los histogramas que comentaba. Y luego también tenemos la función de distribución. Esta es la de tallos y hojas, que estaba mal puesta. Y tenéis la distribución empírica, ¿vale? Que vamos a ver también. Que la distribución empírica es precisamente la acumulativa. ¿De acuerdo? Si os fijáis siempre va a estar entre 0 y 1. Importante. Y se va viendo cómo se van sumando las clases. Y luego ya a partir de aquí empezaríamos con las medidas de centralidad, de dispersión y de asimetría. Vale. Entonces, por una parte tenemos la descentralidad, que es la que hemos dicho que nos da una medida del valor medio de los datos. Y es una forma de resumirlo porque a mí como me decían en clase, si a ti te ponen una pistola en la cabeza y te dicen di una estimación lo más rápido que puedas porque si no te matan, pues lo primero que dices es la media, ¿no? Es como la más fácil, la forma más fácil de resumir los datos. La media. Que luego vamos a ver que hay otras porque la media de hecho no es robusta. Lo que vamos a ver cuando me refiero por robusta es que si yo tengo un dato mucho más grande mis valores, o sea mi valor no va a ser real. Por ejemplo, si yo tengo que la altura de mis alumnos está entre 1.60 y 1.75, por ejemplo, pues a lo mejor la media me sale 1.68. Pero si de repente me entra Pau Gasol en la clase, pues me va a salir la media a 1.80 y tantos y no va a ser un valor real. Entonces. Cuando un dato atípico, digamos un dato que se diferencia mucho del resto, hace que cambie mi estimación o mi medida es cuando te dice que no es robusto. Vamos a ver otras medidas que sí son robustas. Luego vamos a ver medidas de dispersión que es cuánto varían los datos como la varianza y luego la simetría que vamos a intentar medir si la distribución es simétrica o no. Esto es importante en algunos casos. Los ejemplos estos los hacemos por simetría con R. Pero bueno, básicamente esto tendría que ser esta fórmula. En el aula, en el libro vais a ver que a la media la denotan por A. Pero en todos los libros y en todos los lugares es con la X barra. Luego otra medida de centralidad que sí es robusta es la mediana. Entonces la mediana es si yo ordeno todos mis valores de pequeño a grande. Fijaos aquí tengo lo de los paréntesis, lo cual significa que he ordenado mis datos. Digamos que la mediana es el valor que está en medio. Entonces si mis datos son impares es justo el del medio y si mis datos son pares como tengo el mismo, al coger el medio tengo el mismo número de datos un lado y el de otro lo que hago es coger los dos del medio y hago la media. Aquí me falta dividirlo entre 2. A ver si luego corrijo luego. Entonces sería el Xn medios entre Xn más 1 entre 2. Vale. Luego. Esto duplica. Vale. Bueno y esto digamos que es como la idea básica. Luego en el libro nos aparecen estas fórmulas que vienen a significar lo mismo. Entonces distinguen entre los datos sin agrupar y los datos agrupados. Pero es un poco lo mismo. Entonces sin agrupar tengo este caso en el que me cae entre dos frecuencias. Si esto si lo pintamos en una tabla. Lo que pasa es que le he perdido el boli. No lo puedo tener todo. Aquí. No. He perdido el boli. Bueno. Si me cae. Si tuviera los datos agrupados en una tabla. Aquí como me está midiendo las frecuencias acumuladas. El N medios me está diciendo el valor que debería, la posición que debería coger. Entonces pues cojo aquel rango, aquel intervalo en el que esté incluido que sería el Gj. Vale. Y si en el segundo caso se refiere a que cuando estoy en el caso par me va a coincidir con alguno de los valores y por tanto hago la media. Perdón. Y si los datos están agrupados es un poco la misma idea solo que lo puede sacar mediante esta fórmula. Pero realmente es lo mismo. ¿De acuerdo? Vale. Iba a hacer un ejemplo pero como no tengo el lápiz. Luego lo hacemos el próximo día con R que se ve también muy fácil. Ok. Y luego como otra media centralidad lo que tengo es la moda. Que la moda va a ser siempre el valor más frecuente. Vale. Entonces lo mismo, los datos sin agrupar. Lo que sería sería, bueno aquí he puesto el argumento del máximo de NI. Es decir, cojo el máximo del NI. Si cojo el máximo de NI el argumento sería el valor I, el índice I. Vale. Entonces SXI iba a ser la moda. Vale. Y si los datos están agrupados pues tengo que estimar digamos un valor medio. Porque el problema que tengo es que tengo todo un intervalo que es la moda. Pero ahora ahí tengo más de un valor. Con lo cual lo que vamos a hacer como una estimación media que es esta formulilla que hay aquí. ¿Vale? Pero bueno eso es aplicar la fórmula. Y si los datos no están agrupados también, perdón esto es si la amplitud es constante. Si la amplitud no es constante es la misma fórmula solo que normalizas las frecuencias. Para tener una medida más estándar. ¿De acuerdo? Pero es lo mismo. Fijaros que divido entre AJ pero luego multiplico por AJ. Con lo cual primero lo quito pero luego lo estoy poniendo. Y luego importante también son los cuantiles. Los cuantiles me da, es parecido a la mediana. De hecho la mediana es un cuantil. Solo que no necesariamente está en el medio. Y no necesariamente me divide en dos la distribución. Entonces en función del número de clases digamos o de trozos que yo le pida a mis datos. Voy a tener SK ¿Vale? Voy a tener los cuartiles y los divido en cuatro. Los de files y los divido en diez. Los centiles y los divido en cien. Eso es una rata ¿Vale? Es un uno. Y pues yo puedo elegir. Pues quiero el primer cuartil, el segundo, el tercero, el cuarto. Puedo ir cambiando ahí de valor. ¿Vale? El próximo día también hacemos un ejemplo. Los cuartiles también los puedo hacer con fórmulas. Pero a partir de una tabla esto se ve mucho más fácil. Sí. Los cuartiles son el cien por cien divido en cuatro partes. Y si yo divido todos mis datos en cuatro partes ¿De acuerdo? El primer cuartil será digamos el que me deja, el valor que me deja el veinticinco. Os pintáis una línea ¿No? En la línea ponéis ahí todos los datos. Y coges el primer cuartil. Vas a tener el veinticinco por ciento de los datos en la derecha y el setenta y cinco a la izquierda. El segundo cuartil te va a dejar cincuenta, cincuenta. Y el tercer cuartil te va a dejar setenta y cinco, veinticinco. ¿Vale? Y el cuarto cuartil es el cien por cien. ¿Vale? Es el máximo. Y de hecho van a ser importantes el primer y el tercer cuartil porque nos van a definir el rango intercuartílico. Que eso lo veremos después. ¿Vale? Después en dos diapositivas. ¿Vale? Y eso es en cuanto a medidas de centralidad. Teníamos la media, la moda y la mediana. Y luego los cuantiles me dan medidas de centralidad pero no del valor medio. Sino de posiciones distintas de los datos que también son importantes. ¿Vale? Sobre todo son importantes los cuartiles. Es lo que más vamos a ver. También los deciles pero sobre todo los cuartiles. ¿Vale? Luego tenemos las medidas de dispersión que me dan una variación de los datos. Entonces lo más básico pues es cuánto varían mis datos. Pues desde el mínimo hasta el máximo. ¿Vale? Esa diferencia, lo que ya vamos a llamar rango o recorrido. ¿De acuerdo? ¿Pero qué me pasa con el recorrido? Que si tengo atípicos como me pasaba en la mediana. En el momento que el máximo o el mínimo sea un atípico porque me ha venido Pau Gasol o un niño a clase. Un niño de 5 años pues me va a cambiar la altura media de mi clase. Y por tanto no es una medida robusta. Entonces para que mi medida sea robusta una buena medida es coger los cuartiles, el tercer y el primer cuartil. Porque me estaría quitando de alguna manera los atípicos. Me estaría garantizando que mi medida va a ser robusta. Y eso es lo que se llama como recorrido intercuartílico, el IQ. ¿Vale? Que es lo mismo, es como a la mediana la media. Es una medida robusta. La moda aunque no lo he dicho también era una medida robusta. ¿De acuerdo? Porque como estoy cogiendo el valor más frecuente también el atípico la característica que tiene es que aparece pocas veces. Pues es un atípico, es algo raro. Con lo cual con la moda no la estaría detectando. Lo que pasa que tampoco me da una medida de valor central porque a lo mejor... Bueno. Si me da una medida de valor central. Pero a lo mejor mi mediana es dos y la moda me puede salir que es uno, que es lo más frecuente, ¿no? Por ejemplo, la media de hijos de los españoles es dos con algo o uno con algo cuando en realidad la moda es que es uno. ¿Vale? ¿Veis algo? Se ha quedado la pantalla en negro. ¿Os he perdido otra vez? Sí, es que la estaba viendo. Desesperación. Sí, había pasado de página. Estaba en la del recorrido. ¿Ahora veis algo? Blanco. Bueno, yo creo que... La pizarra. Vale. Bueno, pues vamos a aprovechar que tenemos la pizarra y hacemos un ejemplo que tenía preparado. ¿Vale? De hecho, a ver. Vale, pero el ejemplo que quería hacer era sobre las columnas. Pero creo que me he ido y ya le he perdido. Bueno, he perdido las columnas. Aquí, mira, las columnas. Perfecto. Vale. Partimos de este ejemplo. ¿Veis las columnas todos? Casi todos. Ahí. Una. Vale. Vamos a pintarlas otra vez. Sí, es que esto es un desastre. Ya estoy pintando otra vez los datos. A ver si ahora lo veis en un par de minutos. Pero bueno, así nos va a acabar la clase. Bueno, como ya quedan cinco minutos yo creo que vamos a dejar de luchar en contra de los elementos. Lo dejamos aquí y el próximo día si hace falta estamos diez minutos más y ya está. ¿Vale? Porque esto es un dolor. Sí, voy a decirles a la universidad que esto no puede ser. Y a ver si el próximo día voy a otro sitio que tenga mejor conexión también. Pero esto es un dolor. ¿Vale? La grabación, yo diría que aquí en la sala debería colgarse en algún lado o en el campus. ¿Vale? Si lo voy a… Sí, partiendo pantalla a lo mejor voy a trabajar… El próximo día lo hacemos directamente así porque además el próximo día lo vamos a hacer con R y tampoco vamos a hacer directamente… O sea, no voy a poderlo hacer de otra manera. ¿Vale? Entonces voy a decir a ver si me mejoran las columnas. ¿Vale? Pero bueno, si es que quería haber hecho algún ejemplo más que no me ha dado tiempo a hacer ningún ejemplo. Y eso lo dejamos aquí porque para cinco minutos que quedan ya me rindo por hoy. Y el próximo día más. Si tenéis alguna duda de lo de hoy o del próximo día… O sea, bueno, si tenéis alguna duda de hoy lo vemos ahora y si no ya el próximo día lo terminamos de ver. Ahí voy a preguntar dónde se cuelga la… Dónde se cuelga la… Aquí quedan colgadas las grabaciones para que lo podáis ver, ¿de acuerdo?