Hola, buenas tardes. Bienvenidos a esta nueva sesión tutorial de introducción a la estadística. Comenzaremos hoy, en primer lugar, con unos ejercicios que nos habían quedado pendientes del tema número 4 para ya repasar y asentar todos los conocimientos de este tema. Y luego ya empezaremos el estudio del tema número 5, distribuciones de frecuencias bidimensionales, regresión y correlación. Bueno, en concreto vamos a empezar por el ejercicio 4.12 del manual. Aquí lo tenéis, la tabla con la información correspondiente a este ejercicio, a esta distribución. Y nos pide que calculemos, partiendo de los datos de este muestreo, por tanto sabemos que estamos trabajando con datos muestrales y no con datos poblacionales, pues que calculemos una serie de estadísticos. Aquí se nos indican, entre otros, el coeficiente de asimetría de Pearson y de Fisher, el coeficiente de kurtosis. Por tanto, nos vamos a mirar. Estas medidas de concentración. ¿Vale? Pues bueno, comenzamos con la tabla y para calcular estos coeficientes, en concreto uno de ellos necesitamos, en primer lugar, conocer la mediana y también vamos a necesitar conocer la media aritmética. Bien, la mediana, ¿cómo la calculábamos en estas distribuciones que son distribuciones de tipo 2? Bueno, tenemos que ir a la columna de las frecuencias absolutas acumuladas y como n... que ese número de observaciones es 10, cogeríamos n entre 2 que es 5 y vamos a ver si hay algún valor de frecuencia absoluta acumulada que coincide con 5. En concreto tenemos este valor. Por tanto, la mediana va a ser el valor de la variable que tiene frecuencia absoluta acumulada 5, mejor dicho, la media aritmética de ese valor más el siguiente. Veis que es 18 más 24 dividido entre 2, 21. Si, por ejemplo, n dividido entre 2 nos diera 6, pues tendríamos que coger, la frecuencia absoluta acumulada 7 y la mediana sería 24. La media aritmética, ¿cómo la obtenemos? Pues dividiendo x sub i por n sub i, 224 entre 10. Por tanto, la media aritmética, 224 dividido entre 10, va a ser 22,4. Y bien, ya para ir avanzando en el cálculo de este estadístico, como sabéis tenemos que manejar diferentes momentos, el momento m3 y el momento m4, entre otros, pues vamos ya confeccionando diferentes columnas, veis aquí tendríamos valor de la variable menos media aritmética por la frecuencia absoluta, por tanto sería 14 menos 22,4 por 1, que es menos 8,4. Este, por ejemplo, si lo queremos calcular, 7,6 sería 30 menos 22,4, que es 7,6 por 1. Aquí, por ejemplo, este pues sería 24 menos 22,4, que es 1,6 por 2, nos daría 3,2, ¿vale? Bien. En la siguiente columna, pues cogeríamos los valores de x sub i, valores de la variable menos la media aritmética al cuadrado, y los multiplicamos por la frecuencia absoluta. Aquí los elevamos al cubo y los multiplicamos por la frecuencia absoluta. Y aquí los elevamos a la cuarta y los multiplicamos por la frecuencia absoluta. Luego tenemos aquí los sumatorios de estas columnas, que los vamos a utilizar para calcular los coeficientes que nos solicitan. El primero de ellos, el primero de ellos, es el coeficiente de asimetría de Pearson. Bueno, como, ojo, en el enunciado nos dan datos muestrales, a la hora de calcular la varianza, en lugar de tomar la varianza como tal, vamos a tener que calcular la cuasivarianza. Por tanto, vemos que calculo la cuasivarianza y en el numerador tendría los cuadrados de las diferencias entre los valores de la variable a media aritmética por las frecuencias absolutas, que es el sumatorio de esta columna de aquí, 534,4. Y lo divido entre 9, que es 10 menos 1, n es 10, y me da 59,37. ¿Vale? La desviación típica sería raíz cuadrada, 7,70, y también calculo, bueno, sería la cuasidesviación típica, para ser más exactos, cuasidesviación típica, y calculo el cubo de la cuasidesviación típica, 457,423. Bien, ya os dejo aquí dos cálculos adicionales que voy a necesitar. Sumatorio de x y menos x al cubo por frecuencia absoluta y sumatorio de x y menos x a la cuarta por frecuencia absoluta. Y lo divido por n menos 1 porque estoy con datos muestrales, ¿eh? Bien, esto sería 2344,08 entre 9, y 61564,19 entre 9, ¿eh? Pues esto lo voy a necesitar para calcular los estadísticos que me han solicitado. Vamos al primero de ellos. Coeficiente de asimetría de Pearson. ¿Cómo lo determino? Pues sería el triple de la diferencia entre la frecuencia absoluta y la mediana dividido entre la cuasidesviación típica. Por tanto, 3 por 22,4 media aritmética, perdón, eh, media aritmética y mediana, sí, media aritmética 22,4 y la mediana que era 22,4. Y lo divido entre la cuasidesviación típica que me da 7,7005. Y esto me da un valor de 0,545. Vemos que es mayor que cero. Por tanto, según este estadístico, la distribución pues va a ser asimétrica por la derecha. Bien, si quiero calcular el coeficiente de asimetría de Fisher que notábamos por g1 y decíamos que g1 era igual a m3, momento respeto a la media de orden 3 dividido entre el cubo de la desviación típica o en este caso de la cuasidesviación típica. Bueno, el numerador m3 lo he calculado antes que me da 260,45 y lo divido entre 457,423. Y esto me da 0,569. Veis, son muy parecidos y también pues es mayor que cero, lo cual implica que tiene un sesgo hacia la derecha de la mediana y hacia la derecha de la media. Bien, nos pedía el coeficiente de kurtosis de Fisher. Y el coeficiente de kurtosis de Fisher va a ser m4 dividido entre lo que sería la desviación típica a la cuarta. En este caso, como trabajamos con datos muestrales, sería la cuasidesviación típica a la cuarta o lo que es lo mismo, la cuasivarianza al cuadrado menos 3. En el numerador m4 que lo había calculado antes, esto nos daría m3, esto sería m4 y son 6840,47. Y aquí lo divido entre la cuasivarianza al cuadrado que es 59,37 al cuadrado o lo que es lo mismo, también puedo hacer 7,75 a la cuarta y le resto 3. Y esto me va a dar un valor de menos 1,06, menor que 0. Por tanto, ¿cómo va a ser la distribución? Pues va a ser platicúrtica, más aplanada que una distribución normal. Bien, vamos al ejercicio 4.13 y nos dice lo siguiente. El cuadro que se presenta corresponde a la distribución de compras realizadas por una empresa a sus diversos proveedores. Distribución de tipo 3, datos agrupados en intervalos. Aquí tenemos los intervalos, tenemos la marca de clase, que sería el punto intermedio, n sub i la frecuencia absoluta, la frecuencia absoluta acumulada, x y por n sub i. Aquí tenemos la diferencia entre x y la media aritmética al cuadrado por n sub i, esto nos va a servir para calcular la varianza, y aquí al cubo por n sub i. Vale, aquí tendríamos los sumatorios. Vemos que n va a ser igual a 130. La media aritmética pues va a ser x y por n sub i, el sumatorio que es 123.500 dividido entre n que es 130, 180.769 Bien, calculamos la desviación típica que va a ser la raíz cuadrada de la varianza por tanto la varianza es 1.316.423.08 dividido entre n y la desviación típica, la raíz cuadrada de todo esto nos da 5.63. Bien, vemos que es inferior a la media hay una dispersión bastante considerable y para medirlo utilizamos una medida de dispersión adimensional que es el cociente de desviación de Pearson, que sería el cociente entre la desviación típica y la media aritmética. Veis que da 0.557, que es mayor que 0.5. Bueno, podríamos decir que vale, puede ser aceptable, pero tampoco con un valor tan próximo a 0.5 pues... tendríamos que tomar entre comillas los valores de esta distribución, porque la representatividad de la media pues... no es muy correcta. Sería muy correcta, por ejemplo, si se aproximara a 0. Es decir, bueno, hay que tener cuidado con la interpretación. Si nos diera un cociente de variación, por ejemplo el 0.2 pues que sería ya unas medidas bastante representativas pero con 0.0557 pues ojo, hay que tener cuidado a la hora de interpretar los resultados de esta distribución. ¿Qué más nos pide? Nos pide que calculemos la moda. Bien, como se trata de intervalos que veis que tienen diferente amplitud, el primero 100, el segundo 50, el tercero 60, el cuarto 290, pues vamos a calcular lo que se llama el ratio de densidad de frecuencias h sub i. Lo tenemos dividiendo la frecuencia absoluta entre la amplitud del intervalo en este caso sería 20 entre 100, intervalo de 100, este sería el intervalo de 50, intervalo de 60 e intervalo de 290. Si ponemos aquí por ejemplo la amplitud. 40 entre 50 nos daría 0.8 que veis que es la mayor densidad de frecuencias 42 entre 60 nos daría 0.7 y 28 entre 290, 0.097 Calculamos este ratio de densidad de intervalos y a continuación obtenemos el punto modal. El punto modal va a estar en el intervalo modal que es el intervalo que tiene una mayor densidad de frecuencias, por tanto el intervalo 100, 150. Si queremos calcular el punto exacto como haríamos pues aplicamos esta fórmula. Cogeríamos el límite inferior que es 100 más h sub i más 1, cogeríamos la densidad de frecuencias del intervalo siguiente que sería 0.7, lo dividimos entre la del intervalo anterior que es 0.2 más la del intervalo siguiente hi-1 más hi más 1 y lo multiplicamos por la amplitud del intervalo que es 50. Esto nos daría 138.888 138.888 Esto sería pues el punto modal. Si quisiéramos estudiar la simetría calculando el coeficiente de asimetría de Fisher como ya hemos visto antes, sería el momento m sub 3 dividido entre el cubo de la desviación típica. El momento m sub 3 lo tendríamos dividiendo en el sumatorio de esta columna 96.429.549 entre n que es 130. Por tanto esto sería m sub 3 y lo divido entre la desviación típica al cubo. La desviación típica que es la recuadra de la varianza, aquí lo teníamos, 100.73 al cubo. ¿Y qué nos da? Nos da 0.73 que es mayor que 0. Por tanto la distribución va a ser asimétrica por la derecha. Y luego nos pide lo siguiente. Nos pide si preveemos un descuento para aquellas empresas que hayan suministrado más de 145.000 euros, ¿qué porcentaje de empresas podrán acogerse al descuento? Esto lo podemos resolver de dos formas. Podemos acudir a la fórmula de los cuantiles o bien podemos establecerlo mediante una regla de tres. ¿Y cómo la establecemos? Sabemos que en el primer intervalo, que es un intervalo de amplitud 50 ¿cuántas empresas hay? En el primer intervalo de amplitud 100 tenemos 20 empresas. En el segundo de amplitud 50 tendríamos 40 empresas. Y lo que nos pide es hasta las empresas que compran 145.000 euros o mejor dicho, empresas que suministran más de 145.000 euros. Lo podemos sacar por diferencias. Y si en un intervalo de amplitud 50.000 hay 40 empresas, aquí nos estamos refiriendo al intervalo 2, es decir, si en un intervalo de 50.000 hay 40, aquí está de 50.000 hay 40, en uno de 45.000 si se distribuye uniformemente habrá X. Por tanto, X será 45.000 por 40 dividido entre 50.000 36 empresas. Resumiendo, empresas que nos suministren hasta 145.000 pues serán las 20 primeras más 36 del segundo intervalo. En total 56. Por tanto, son 56 sobre 130, que son las totales. Y esto nos da un porcentaje de... bueno, nos daría si lo calculásemos un 0,40 y pico. Pero lo que nos pide es aquella que suministre más de 145.000. Por tanto, tendríamos que poner en el numerador 130 menos 56 dividido entre 130. Es decir, esto nos va a dar un 56,923. Por tanto, ¿qué porcentaje de empresas podrían acogerse al descuento? Pues el 56,9% de las empresas porque el 56,9% de las empresas nos compran más de 145.000 euros. ¿Lo podríamos calcular de otra forma? Pues con la fórmula de los cuartiles, cuantiles. Y tenemos empresas que venden menos de 100.000 euros a vía 20, el primer intervalo, y empresas que venden entre 100 y 150.000 habría 40, que es el segundo intervalo. Pues bueno, aplicamos esta fórmula de la siguiente manera. Ponemos 145 que sería el punto 145.000, es decir, el punto en el cual queremos pegar el corte, y sería igual a 100, que es el límite inferior del intervalo, más k por n 130 dividido entre q, que es, vamos a trabajar en este caso con los percentiles, dividido entre 100, menos n sub i menos 1, que es la frecuencia absoluta del intervalo anterior, que sería 20. Y esto dividido por n sub i, que es la frecuencia absoluta del intervalo en cuestión. Como estoy trabajando por este intervalo, con el 100 y 150, la frecuencia absoluta del intervalo anterior era 20. ¿Vale? Y la frecuencia absoluta acumulada del intervalo anterior era 20, la frecuencia absoluta también, y la frecuencia absoluta de este intervalo es 40. ¿Vale? Por tanto, aquí sustituyo n sub i menos 1, 20, n sub i, 40, y la amplitud del intervalo 50. Y despejaría k, y k me daría 43,077. ¿Vale? Pues bueno, a mí lo que me interesa son las restantes empresas. Por tanto, 100 menos k va a ser 56,923, que es lo que nos coincide con el cálculo anterior. Imaginemos ahora que nos pide lo siguiente. De forma similar para obtener el porcentaje de empresas que han vendido menos de 50.000 euros. Trabajando ahora con el primer intervalo. Estaríamos trabajando con este intervalo, ¿no? Pues ponemos 50, igual a el límite inferior que es 0, más k por 130 que es n dividido entre q, que trabajamos con percentiles, 100, menos la frecuencia absoluta acumulada del intervalo anterior que será 0, dividido entre la frecuencia absoluta en el sub i de ese intervalo que es 20%. Y esto nos va a dar 7,6923. ¿Si queríamos hacerlo mediante la regla de 3? Pues muy sencillo. Vamos a borrar aquí y ahora lo calculamos también nuevamente. Lo haríamos de la siguiente forma. Si en un intervalo de amplitud 100 hay 20 empresas, en uno de amplitud 50 hay x, ¿verdad? x va a ser igual a 10. Por tanto, 10 entre 130 nos va a dar el porcentaje de empresas, en este caso un tanto por 1 pero lo multiplicaríamos un tanto por 100 nos va a dar 0,0769 que sería el 7,69% de empresas que han vendido menos de 50.000 euros. Vamos con el 4.15. Y aquí nos pide ¿En un aeropuerto se han tomado en promedio los retrasos de partida de los últimos 800 vuelos? Calcule todas las millas de dispersión a partir de esta información. Pues tenemos aquí la variable x i, n sub i frecuencia absoluta, n sub i mayúscula frecuencia absoluta acumulada, x i por n sub i, x i al cuadrado por n sub i, x i menos la media en valor absoluto por n sub i y x i menos la media en valor absoluto por n sub i. Aquí tendríamos los sumatorios. Si queríamos calcular la media aritmética, evidentemente ya es fácil calcularlo porque vemos que va a ser 31.000 dividido entre 800, 38,75 Si quisiéramos calcular la mediana cojo n dividido entre 2 que es 400 me voy a la columna de frecuencias absolutas acumuladas, no hay ningún valor que tenga valor 400, cojo el siguiente 500, por tanto la mediana va a ser 40. La mediana va a ser 40, por tanto tengo media aritmética 38,75, mediana 40. Y aquí veis la diferencia. Aquí operamos en estas columnas en valor absoluto, porque vamos a hablar de dispersiones absolutas, mediana y media, no dispersiones típicas. ¿Veis? Por tanto obvio el tema de los signos. x i menos la mediana pues sería 10 menos 40 menos 30 en positivo 30 por n sub i que es 200 me daría 6. Vale, pues empezamos con las medidas de dispersión. La primera el rango, pues cogería xn menos x1, lo que sería el último 70 menos 10, el rango va a ser 60 El recorrido intercuartílico, pues necesito calcular el tercer cuartil y el primero. Vale, pues me voy al tercer cuartil con la fórmula de los cuartiles y sería q por n siendo q3 ¿Vale? Sería q por n dividido entre r, pues tendríamos 3 por 800 dividido entre 4, pues trabajo con cuartiles esto me da igual a 600, me voy a la columna de la frecuencia absoluta acumulada y veo que no hay ningún valor. Cojo el siguiente 700, pues sería 50 el cuartil número 3 Para el cuartil número 1, pues sería 1 por 800 entre 4 200, me voy a la columna de las frecuencias absolutas acumuladas, hay un valor de 200, pues ojo aquí, el cuartil número 1 será la media aritmética de 10 más 40, que será 25 10 más 40 dividido entre 2. Por tanto aquí lo vemos en el cálculo, q3 50, q1 25, recorrido intercuartílico, q3 menos q1 25. Rango entre percentiles, necesito calcular el percentil 90 y el percentil 10, pues voy con la misma fórmula de los cuantiles anteriores, en este caso el percentil 90 sería 90 por 800 dividido entre 100 nos da 720, con lo cual cojo el valor 800 y el percentil 90 sería x igual a 70 Y el percentil 10, 10 por 800 entre 100, valor 80, cogería n sub i igual a 200, el percentil 10 sería x y igual a 10. Rango entre percentiles 70 menos 10, valor 60. Desviación absoluta media, aquí tenéis la fórmula, vale el numerador ya lo tengo calculado en la tabla anterior que sería 11500 y lo divido entre n, que es 800 14,375, desviación absoluta mediana pues me voy a la columna de la distribución anterior, a esta en concreto y cojo 11000 y lo divido entre 800 13,75. La varianza la podemos calcular aplicando la fórmula que hemos visto o bien mediante el método de los momentos en este caso vamos al método de los momentos, sabemos que es el momento central de orden 2, que sería el momento respecto al origen de orden 2 menos el momento respecto al origen de orden 1 al cuadrado, siendo a sub 1 al cuadrado el cuadrado de la media aritmética, por tanto esto lo conocemos que será 38,75 al cuadrado y me faltaría calcular a sub 2, que sería sumatorio de x y al cuadrado por n sub i dividido entre n aquí lo tengo, sería 1490000 dividido entre 800 eso sería a sub 2, 1862,5 por tanto la varianza en función de los momentos sería 1862,5 menos 38,75 al cuadrado me da 360,9375 perviación típica, raíz cuadrada de la varianza 18,998 coeficiente de apertura, otra medida de dispersión en este caso relativa, cociente entre el último valor 70 y el primero 10 va a ser 7 recorrido relativo, cociente entre el rango recorrido 60 y la media aritmética, 36,25 1,548, recorrido semi-intercuartílico cogería en el numerador el recorrido intercuartílico, 50 menos 25 y en el denominador 50 más 25, cuso 3 más cuso 1, me da 0,333 y por último el coeficiente de variación de Pearson cociente entre la descripción típica y la media aritmética 0,49023 7, bien preguntas que os pueden caer de todo tipo aquí tenéis unas preguntas teóricas vale, la desviación típica está muy sencilla, es una medida de posición, de dispersión de simetría o ninguna de las anteriores, bueno habíamos dicho que juntamente con la varianza son unas medidas de dispersión absolutas más importantes, la respuesta por tanto sería la B la varianza se puede obtener como la media de los cuadrados menos el cuadrado de la media en la media de los cuadrados el cuadrado de la media o ninguna de las anteriores, la varianza vamos a meter los momentos pues sería a sub 2 que es la media de los cuadrados menos a sub 1 al cuadrado que es el cuadrado de la media, por tanto la respuesta sería la A el índice de Gini en el caso de que la curva de Lorenz coincida con la bisectriz acordaros ¿qué valor tomará? tomará el valor 0 porque la concentración de la distribución sería mínima, sería la distribución más equitativa y sería la menos equitativa la concentración máxima cuando toda la renta está en posesión de un individuo cuando coge valores desde 00 hasta 0100 y luego pasa a 100 en rojo la curva de Lorenz se encuentra tanto más alejada de la diagonal, bueno esto sería perdón si os estaba hablando de la curva de Lorenz antes aquí cuando la curva de Lorenz coincide con la bisectriz el índice de Gini es 0 y aquí el índice de Gini sería pues la unidad la curva de Lorenz se encuentra tanto más alejada de la diagonal cuanto cuanto más se aleje de la diagonal cuanto más adopte esta fórmula ¿qué pasa en la diagonal? aquí veíamos que los PSUI eran igual a los QSUI pues cuanto más se aleje mayores serán las diferencias entre los PSUI y los QSUI, si el coeficiente de kurtosis de Fischer toma un valor inferior a 0 por tanto tendríamos que G2 es menor que 0 la distribución ¿qué es? pues va a ser más plana que una normal va a ser bien en una determinada empresa se decide a consecuencia de la crisis económica disminuir los sueldos de los directivos un 15% y del resto de los empleados que ganan menos que los directivos un 5% con esto podemos decir que el índice de Gini ¿qué va a suceder? pues que la distribución pues va a tener una menor concentración va a ser como más equitativa por tanto el índice de Gini va a disminuir si anteriormente imaginaros que la distribución tenía esta forma tras esta medida pasaría mejor a tener esta otra forma, ahora la voy a poner en otro color con lo cual se aproximaría más a la bisectriz y disminuiría el índice de Gini aquí acordaos que en el punto que coincide con la bisectriz el índice de Gini es 0 por tanto el índice de Gini va a disminuir los resultados estadísticos del siguiente cuadro indican que la distribución de frecuencias y aquí habla siempre de asimetría y también de curtosis, simetría vale por tanto para hablar de simetría y de curtosis solamente me hacen falta estos dos valores si el coeficiente de asimetría es negativo menor que 0 ¿qué va a ser? la distribución pues va a ser asimétrica hacia la izquierda tendrá más valores hacia la izquierda ¿vale? y si el coeficiente de curtosis es negativo pues ¿cómo va a ser la distribución? si esta es una distribución normal 0-1 pues la distribución pues a lo mejor adoptaría estos valores y aquí sería más aplanada que la normal va a ser platicúrtica por tanto asimétrica hacia la izquierda y platicúrtica bien, pues vamos ya con el siguiente tema con el tema número 5 pues que sí que es un poquitín más complicado, es un tema que vamos a ver con calma en lo que nos quede de tutoría le dedicaremos también la tutoría de la próxima semana y la tutoría del día 8 de abril a la vuelta de semana vamos a hablar ya de distribuciones de frecuencia bidimensionales por tanto vamos a estudiar ahora dos variables al estudiar dos variables de una población hablamos de distribución de frecuencia bidimensional en este caso las vamos a denotar por variables x e y si estudiásemos múltiples variables tendríamos una distribución de frecuencias multidimensional multidimensional bien, por tanto centrándonos en las distribuciones bidimensionales tendremos para cada individuo observado los valores correspondientes a dos variables o dos atributos que vamos a denotar por x e y en nuestro análisis las dos variables pueden ser cualitativas una de las variables puede ser cualitativa y otra cuantitativa cualitativas y además pueden ser discretas la cuantitativa discreta o continua por ejemplo podemos medir el gasto realizado y el medio de locomoción empleado por los clientes de una empresa y también puede hacer caso de que trabajemos con dos variables cuantitativas por ejemplo el gasto realizado por un cliente o un hotel y la duración en número de días de la estancia en dicho hotel de ahí que la casuística puede ser muy variopinta muy variada cuando se estudian aisladamente estas variables por tanto las podemos estudiar conjuntamente o de forma aislada cuando las estudiamos de forma aislada hablamos de distribuciones marginales de la variable x o de la variable y y hablamos de distribución conjunta de frecuencia de dos variables x y a la tabla que representa los valores observados de ambas variables y sus frecuencias de aparición las tablas de frecuencia pueden ser tablas de correlación cuando las variables son cuantitativas o bien tablas de contingencia cuando se trata de variables cualitativas o atributos ¿Cómo se confeccionan estas tablas? bueno pues vamos a verlo aquí veis que tenemos una variable xy con y que va desde el 1 hasta r y otra que sería pues yj con y que va desde el 1 hasta s y aquí tendríamos pues en cada una de estas columnas o en esta fila pues las frecuencias correspondientes y aquí tendríamos la frecuencia total el número de observaciones total por ejemplo n2 2 es el número de veces que aparece el valor de la variable x2 conjuntamente con el valor de la variable y2 vale aquí en esta columna recogería el número de veces que aparece el valor de la variable y1 con todas las variables x, x1, x2, xy tal y aquí por ejemplo recogería n2 punto el número de veces que aparece la variable x2 con todas y cada una de las variables de los valores que toma la variable y y1 y2 hasta ys por tanto r desde x1 hasta xr son los valores o modalidades que toma la variable xs los valores o modalidades que toma la variable y y aquí tendríamos pues la frecuencia conjunta de ni1 ni2 es la frecuencia en la que aparece el valor y de la variable x conjuntamente con cada valor desde 1 hasta s de la variable y aquí tendríamos n1j, n2j nrj es la frecuencia con la que aparece el valor j de la variable y conjuntamente con cada valor de la variable x siendo n su y punto la frecuencia total con la que aparece el valor y de la variable x pues sería n su 1 punto n su 2 punto, n su r punto la frecuencia total con la que aparece el valor 1 de la variable x conjuntamente con cada uno de los valores de la variable y y en n su punto j la frecuencia total con la que aparece el valor j a la variable y de forma conjunta con todos los valores de la variable x por tanto n su punto 2 o sea el número de veces que aparece el valor y su 2 con x1, x2 hasta xr y n pues sería la frecuencia total podemos definir la frecuencia relativa de un elemento xy y su j en base a esta relación sería n su y j el número de veces que aparece el valor y de la variable x conjuntamente con el valor j la variable y entre el número total de observaciones y además se va a verificar que la suma de todas las frecuencias relativas va a ser igual a 1 lo importante bueno vamos con un pequeño ejemplo, vamos al ejemplo 5.1 del libro y nos dice lo siguiente se muestra en la siguiente distribución el número de empresas existentes en España según condición jurídica y trato de asalariados a 1 de enero del año 2009 bien y observamos que tenemos 2 variables aquí si queréis tendríamos xy y su j tendríamos la variable y su j sería la tipología de sociedades anónimas, limitadas, comunidades de bienes personas físicas, otros tipos y el total aquí sería el total de sociedades el número de asalariados en este caso en intervalos que no tienen asalariados y que son anónimas, limitadas, comunidades de bienes personas físicas y otros tipos y aquí por ejemplo que tendríamos el número de sociedades limitadas totales e incluiríamos las que no tienen asalariados los que tienen de 1 a 9, 10 a 19 20 a 29, 50 a 99 100 a 499 500 o más y este valor por ejemplo 1027 sería el número de personas físicas autónomos que ejercen una actividad económica y que tienen entre 20 y 49 asalariados en España serían 1027 vale, y ya por último aquí el total que lo puedo tener si sumamos todas estas columnas o si sumamos todas estas filas me va a dar el mismo resultado que sería n el número total de entes económicos que ejercen una actividad mercantil en España con independencia de la forma jurídica que adopten y del número de asalariados que tengan bien, nos vamos al ejemplo 5.3 del libro y nos dice, represente gráficamente la siguiente distribución bidimensional con tramos de edad y nivel de estudios en una población de 500 individuos ya sabemos que n va a ser 500 ok y tenemos dos variables la edad xy y el nivel de estudios i sub j una variable cuantitativa y una variable cualitativa vale, pues aquí lo tenemos bien, pues utilizamos un gráfico de frecuencias bidimensionales aquí tendríamos los totales sin estudios 22 con estudios primarios 153 medios 228 superiores 117 y en franja de edad entre 17 a 44 años sean 250 personas 45 a 55 235 más de 55 15, también nos va a dar 500 y aquí lo representamos ponemos en el eje de las cifras la variable x sub i y en el eje de ordenadas la variable i sub j y como veis que hay cinco valores de la variable i sub j para cada cinco posibilidades para cada intervalo en este caso aquí tendríamos tres intervalos y tenemos de 27 a 44 años sin estudios hay dos sería esto de aquí este gráfico de frecuencias con estudios primarios perdón sin estudios 2 con estudios primarios 57 con estudios medios 122 con estudios superiores 69 y el total 250 haríamos lo mismo para el siguiente intervalo entre 45 y 55 veis sin estudios 19 primarios 92 medios 80 superiores 44 total 235 y ya para el último intervalo que serían 1 4 6 4 y 15 y el total lo representamos mediante este gráfico de frecuencias bidimensionales vamos con otro ejercicio en este caso nos vamos al ejemplo 5.4 y nos pide represente gráficamente la distribución del gasto realizado por 23 clientes de un hotel en relación con el número de días de estancia en el mismo aquellas serían dos variables cuantitativas clientes y días de estancia se adopta en este supuesto una representación diferente vamos a realizar un gráfico de puntos que incorpora en este caso una línea de tendencia para ver la evolución de este gráfico las tendencias las estudiaremos en temas más avanzados y que observamos que tenemos el cliente número 1 que está un día y gasta 50 el 2 dos días 60 el 3 un día 45 el 4 un día 48 el 5 dos días 65 así hasta llegar a 23 clientes bien si ponemos los días de estancia en el eje x y el gasto en el eje y observaríamos que días de estancia tendríamos al cliente número 1 al cliente número 3 al cliente número 4 al cliente número 12 y al cliente número 22 vale y aquí vamos a marcar lo que gasta el cliente número 1 gastaría 50 el cliente número 50 estaría más o menos aquí arriba vamos a borrarlo el cliente número 1 gastaría 50 el 2 45 que sería aquí abajo 45 este de aquí 50 este 45 el 3 48 que sería este de aquí 48 perdón el 1 50 el 3 45 el 4 48 el cliente número 12 58 que vendría por aquí 58 y el 22 52 que vendría por aquí que coincidía con cada uno de los rombos que veis vale si por ejemplo quisiéramos analizar los clientes que están 4 días de estancia cuáles serían 4 días de estancia tendríamos el cliente 8 el cliente 11 el cliente 13 el cliente 16 el 19 vale pues vemos que el cliente 8 gasta 89 que podría ser este de aquí el cliente 11 gasta 75 que nos iríamos más o menos aquí el cliente 13 gasta 85 por aquí estaría el 187 por aquí también y el 187 por aquí vale y bueno luego se iría marcando una línea de tendencia que ya veremos como se confecciona en temas más avanzados esto es una representación distinta sería un gráfico de puntos con línea de tendencia que nos marca la línea de tendencia que conforme va avanzando los números de días de estancia pues claro se tiende a gastar más vale se tiende a gastar más euros en el hotel es algo que cae de cajón hablamos de gasto total no de gasto por día bien otra representación gráfica es el gráfico de dispersión que es un tipo de gráfico muy utilizado en las distribuciones bidimensionales para analizar de forma visual la relación existente entre dos variables representamos en el eje de ordenadas una variable por ejemplo las ventas y en el eje de ascisas otra variable el gasto en publicidad y que observamos que conforme va aumentando el gasto en publicidad pues las ventas generalmente van aumentando veis aquí 90.900 100 pues prácticamente está igual pero el ciento de hoy ya sube 115 sube un poquito más 125 también va subiendo 130 ya subiría a 2100 125 iría subiendo cada vez un poquito más y ante este gráfico de dispersión observamos como sí que hay una relación entre el gasto en publicidad y ventas a mayor gasto en publicidad tenemos un volumen de ventas superior bien, cómo se calculan las medidas de posición y las medidas de dispersión en distribuciones marginales de frecuencia cuando analizamos las variables de forma aislada no vamos a analizar la distribución conjunta sino de forma aislada por tanto analizamos por una parte la variable y por otra parte la variable y analizamos la media aritmética como la medida de posición más habitual y como medida de dispersión tomaríamos la varianza bueno aquí tenéis las fórmulas cuando analizamos la variable x de forma marginal veis que tendríamos en el numerador el sumatorio de los x sub i por n sub i punto y acordaros en nuestra tabla que era n sub i punto estaríamos aquí el sumatorio de los valores del número de veces que aparece la variable x1 con todos los valores de la variable y y así sucesivamente es decir el sumatorio de las combinaciones posibles de cada uno de los valores de la variable x con todos los valores de la variable y por tanto sería n sub 1 punto n sub 2 punto y así sucesivamente vale y en el caso de la variable i pues en lugar de coger los datos que nos aparecen en la última columna cogeríamos los datos que nos aparecen en la última fila i sub j por n sub punto j es decir cogeríamos el sumatorio de n sub punto 1 n sub punto 2 n sub punto j y así sucesivamente es decir el número de veces que aparece el valor 1 de la variable y con todos los valores de la variable x más el número de veces que aparece el valor 2 de la variable y con todos los valores de la variable x y así sucesivamente y de esta forma pues calcularíamos estas medidas marginales la media aritmética de la variable x y la media aritmética de la variable y para el cálculo de la varianza pues nuevamente la fórmula veis que sería el cuadrado de las diferencias entre x y y x media aritmética por n sub i punto y aquí i sub j menos i media aritmética al cuadrado por n sub punto j evidentemente en todos los casos dividimos entre n que es el número de observaciones vale si quisiéramos ir a los momentos pues aquí ya la cosa se complica tenemos los momentos respecto al origen que son los que vamos a comentar hoy de forma teórica y los momentos con respecto a la media pues ya lo voy a dejar aquí si no ya nos vamos a complicar un poquito vamos con los momentos con respecto al origen se obtiene mediante esta expresión genérica a sub h sub k y veis que cogeríamos el sumatorio desde i igual a 1 hasta r por el sumatorio de j igual a 1 hasta s de los valores x i elevado a h por i sub j elevado a k por n sub i sub j dividido entre n y esto lo que nos permite es calcular los momentos respecto al origen del primer orden y de segundo orden y ojo en las bidimensionales nos va a aparecer un nuevo momento que es el momento producto que será a sub 1 1 y ojo porque es muy importante que diferenciemos entre a sub 1 0 que es el momento respecto al origen del primer orden de la variable x de a sub 0 1 que es el momento respecto al origen del primer orden de la variable i y veis que aquí cojo x sub i por n sub i punto y aquí cojo i sub j por n sub punto j dividido entre n momentos de segundo orden con respecto al origen a sub 2 0 se refiere a la variable x por tanto veis aquí cojo x sub i al cuadrado por n sub i punto y a sub 0 2 se refiere a la variable i y cojo i sub j al cuadrado por n sub punto j momento producto a sub 1 1 momento novedoso en estas distribuciones bidimensionales escogería el doble sumatorio desde i igual a 1 hasta r y desde j igual a 1 hasta s de x i por i sub j por n sub i sub j en este caso cojo exclusivamente n sub i sub j número de veces que aparecen de forma conjunta x i e i sub j esto lo divido entre n lo veremos la próxima semana a partir de la próxima semana con ejemplos no os asustéis con las fórmulas y luego voy a dejar aquí porque sino ya nos vamos a complicar demasiado vale la próxima semana lo refrescaré desde el punto de vista teórico nuevamente vale y ya comenzaremos con ejercicios prácticos de estas medidas y de estos momentos con respecto al origen y con respecto a la media en distribuciones bidimensionales por tanto lo vamos a dejar por hoy aquí vale pues hasta la próxima semana adiós