Buenas tardes. ¿Sí? Dígame. No, no es. No, no, no es. Estoy hablando en una conferencia, por favor. Bien, perdón. Buenas tardes. Hoy vamos a hablar del tema número 10. Sería como una continuación del tema número 9 que vimos el año pasado, el año a todos, de la esperanza matemática. ¿Os acordáis? Bueno, pues hoy lo que hacemos es cómo analizar las distribuciones de probabilidad mediante unas ciertas características numéricas. Esas características numéricas, voy a hacer el título del tema, que es el análisis descriptivo. Lo importante de este tema es ver cómo pequeñas informaciones numéricas nos van a resumir un poco. La distribución sobre la cual estamos trabajando. O la distribución sobre la cual nosotros, a la hora de trabajar en un problema, aparecen sus probabilidades. Pues una cosa es la distribución de probabilidad y otra cosa es sintetizar la información en tres o cuatro características numéricas. Aquí, como siempre, aparecen los ítems correspondientes a cada uno de los apartados del tema. La función generatriz, como bien sabéis, no se lleva. Os lo recomiendo, como siempre que lo leáis. Pero yo no la voy a tratar. Bien. Como siempre, comentamos un poco el esquema teórico para poder hacer frente al resto del tema. Partimos de una variable X con una cierta distribución discreta conocida. Y lo que se pretende en este tema es resumir la información que posee esta distribución mediante algunas características numéricas. En todo lo que sigue vamos a suponer que la serie sobre la cual vamos a trabajar existe, es decir, que la serie es convergente. Nosotros ya hemos visto, como he dicho antes, un concepto importante, es el más popular, pero no es el único, que es el concepto de esperanza matemática. La generalización viene dada por el concepto de los momentos. Hay dos grupos de momentos, los momentos ordinarios, que corresponden a la variable X. La variable elevado a K, el momento de orden K, sería el sumatorio, los valores que toman por las probabilidades con que los toman. Pero la variable está elevada a K. Cuando K es igual a 1, os acordáis, entonces aparece el concepto de esperanza matemática. Por lo tanto, lo que hacemos es generalizarlo. El momento ordinario de orden K. El momento de orden 0 vale 1 porque X sub n elevado a 0 es 1 y la suma de las probabilidades vale 1. Por lo tanto, no tiene ninguna información. Es decir, ¿cuál es el momento? El momento ordinario más pequeño que da alguna información, el momento de orden 1, que es la esperanza matemática. En la página 192 del libro de texto aparece un resultado bastante interesante. Y es que si existe el momento de orden K, entonces existen todos los momentos de orden inferior a K. Es decir, si existe el momento de tercer orden, entonces existe el momento de orden 2 y el momento de orden 1. Los momentos centrales, como su propio nombre dice, es calcular una esperanza de la variable respecto de alguna constante. En este caso la constante es la esperanza matemática siempre y cuando exista, lógicamente. Por lo tanto es la esperanza de la variable menos la constante que es mu o la esperanza de x, todo elevado a k. Por lo tanto el sumatorio de x sub n menos la media, todo elevado a k por las probabilidades correspondientes. El momento central de orden cero vale uno, por lo tanto no da información. Uno significa que estoy repartiendo la masa unidad, es decir, la distribución de probabilidades sobre los puntos discretos. El momento mu sub uno que vale cero y el momento de segundo orden central, el mu sub dos, es precisamente el concepto de varianza. Por lo tanto es el primer momento que posee algún tipo de información. El momento más pequeño, central, que da alguna información. La información es la varianza. Por lo tanto los dos momentos más populares es la esperanza matemática, n sub uno y la varianza mu sub dos. Son los dos momentos más, digamos, más importantes. ¿Por qué? Porque en realidad a la hora de analizar las características numéricas tendríamos como dos grandes grupos. Que son las medidas de centralización, que es resumir toda la información en un solo grupo. Punto, por llamarlo algún solo valor, por ejemplo la esperanza matemática, hay más como ahora veremos, y los momentos de dispersión. La idea de dispersión es como una especie de distancia que hay respecto de cada uno de los datos observados o de la distribución o de los valores de la variable respecto de un valor central, que por ejemplo puede ser la esperanza matemática. Podemos calcular esa dispersión respecto de otra medida de centralización. Esta dispersión es muy importante porque puede suceder que tengamos distribuciones que poseen la misma media y sin embargo la dispersión, por ejemplo la varianza, y la raíz cuadrada de la varianza es la desviación típica, siempre con signo positivo, lo que nos mide es en media cuál es la distancia o dispersión, como su propio nombre dice, de los valores de la variable o los datos observados respecto de esta medida que la representa. Continuamos. Bien, hay una relación fácil, no voy a profundizar en ella, es que los momentos centrales se pueden observar. Los podemos obtener en función de los momentos ordinarios, de orden k, es decir, mu sub k es una función de m1, m2, mk. Si existe mk, existen todos los momentos de orden inferior a k y por lo tanto mu sub k, es decir, que hay una relación inversa. Para K igual a 2 es fácil observar cómo la forma más fácil de calcular la varianza de una variable es calcular el momento ordinario de segundo orden y restarle la esperanza o la media al cuadrado. De ahí que la varianza sea la esperanza del cuadrado menos el cuadrado de la esperanza. Por lo tanto, la varianza es siempre mayor o igual que cero porque tener en cuenta que la varianza ser un momento de segundo orden entonces estamos elevando al cuadrado las distancias. Por lo tanto, siempre es algo no negativo. Esto es importante tenerlo para saber que la varianza a la hora de hacer un ejercicio siempre tiene que ser no negativa. El que la varianza sea igual a cero, que es posible, significa que todos los valores observados coinciden en un solo punto que es precisamente la media. Eso es lo que se llama una distribución degenerada al casual. Hay otras medidas también, que aparecen en el libro, por lo tanto no voy a insistir mucho. El coeficiente de variación. La variación es otra medida de dispersión, pero no posee unidades. Es el cociente entre la desviación típica, vuelvo a repetir, la raíz cuadrada de la varianza, partido por la media en valor absoluto, el signo no aparece. Este coeficiente de variación es el variante por homotexias, es decir, multiplicar la variable por un cierto valor, por ejemplo. La variable x y la variable a por x poseen el mismo coeficiente de variación. La desigualdad o el teorema de Conning lo que viene a decir es que si yo calculo la dispersión de una variable respecto a la variación, respecto de una cierta constante a y la lego al cuadrado, el mínimo de la función q de a se alcanza cuando este valor a se toma respecto de la media. Por eso precisamente cuando a es la esperanza matemática, la función q de a toma el valor mínimo y es precisamente la varianza como he dicho antes. Es decir, que tiene su sentido la variante. Y la desigualdad de Chebiché que aparece en la página 195-96 del texto, hay que saberla interpretar. Es decir, todas las características numéricas se supone que yo las voy a saber calcular porque conozco la distribución de probabilidades. Es decir, conociendo la distribución de probabilidad, conozco las características numéricas. Pero muchas veces no conozco la distribución de probabilidad, pero conozco algunas características numéricas. Entonces, por ejemplo, supongamos que yo conozco la media, mu, y la, es decir, la esperanza matemática, y la desviación típica, sigma. Entonces, eso no significa que yo pueda calcular la distribución de probabilidad, por lo tanto, calcular probabilidades de suceso. De que la variable x esté comprendida entre 3 y 8, o que la variable x sea mayor que 5,4, etcétera, etcétera, etcétera. Pero sí puedo dar una cota para calcular la probabilidad de un suceso. Esta cota es una cota inferior. Posterior, que viene dada en esta expresión, que viene en el libro. La probabilidad de x menos la media en valor absoluto es estrictamente mayor que k veces la desviación típica. Esto tiene una cota superior, que es el inverso de k al cuadrado. k, lógicamente, tiene que ser un número mayor que 0. Evidentemente, para k igual a 1 no tiene sentido, porque lo que te dice es que esta probabilidad es menor o igual que 1, o con una obviedad, toda probabilidad de cualquier suceso es un número comprendido entre 0 y 1. Continuando. La demostración del teorema de Codini se basa en este teorema de acotación general, que también aparece en el libro y que no voy a incidir. Después aparecen una serie de medidas de simetría y de apuntamiento. La idea de simetría y de apuntamiento, como viene también en el libro de texto, es si la distribución es más o menos asimétrica. Por ejemplo, una distribución simétrica, como veréis en el tema número 11, en la famosa campana de Gauss o distribución normal. Pues bien, puede ser asimétrica a la derecha, asimétrica a la izquierda, etcétera, etcétera. Pero viene dada en función del momento central de orden 3 que te permite que sea valores positivo o negativo. Acordaros que el momento de orden 2, al ser la variable elevada al cuadrado, solamente toma valores no negativos. Partido por sigma elevado al cubo, simplemente la idea es que gamma de 3 no posea unidades. Y el coeficiente de apuntamiento lo que te dice es que la distribución sea más o menos aplastada. Es decir, una campana más puntiaguda o más esbelta o menos alta. Y el coeficiente de apuntamiento viene dado en términos de los momentos centrales de orden 4. Vuelvo a repetir, en este caso se divide por sigma elevado a la cuarta para que este cociente no posea unidades. Y se le resta 3 porque el coeficiente de apuntamiento de la distribución normal vale 3. Con lo cual, el paradigma de comparación es gamma 4 igual a 0 para la distribución normal. Según sea positivo o negativo, es más o menos apuntada que la normal. Esa es un poco la génesis y la idea. No tiene mayor importancia. No tiene mayor importancia y en cualquier manual aparece. Bien, un segundo punto importante. Hemos visto ya las distribuciones unidimensionales, pero también aparecen las distribuciones discretas bidimensionales. Por lo tanto, de igual manera aparecen los momentos de una distribución conjunta. Una distribución conjunta puede ser una distribución de dimensión n, es decir, un vector discreto x1, x2, xn. En este caso, lo normal que se trabaja inicialmente, además es pedagógico trabajar de esta manera, es con una distribución bidimensional x1, x2 o un vector xy. El momento ordinario mixto se llama de orden rs y la esperanza de x elevado a r por, no he puesto el punto obviamente para no complicar la anotación, por y elevado a s. Y r y s varían entre 0, 1, 2, etc. Cuando s vale 0 tenemos los momentos de la variable x, los momentos ordinarios como hemos visto antes. Y cuando r vale 0 tenemos los momentos para la variable y, por lo tanto es fácil calcular 1, 2, 3. De igual manera tenemos el momento central mixto, en lugar de mu sub k como antes es mu rs. De tal manera que el 1, 0 y el 1, 0 son los momentos de la variable x. El 0, 1 que corresponden a variables unidimensionales vale 0. El 2, 0 son la varianza de x y el 0, 2 la varianza de x. Pero el momento mixto central más importante de todo es cuando r vale 1 y s vale 1. Que es el concepto de covarianza, que es la esperanza de la variable menos su media por la variable y menos su media. Evidentemente, como aquí estamos hablando de dispersión pero no está elevado al cuadrado, la covarianza puede tener... La covarianza puede tomar valores positivos o incluso valores negativos. Cualquier valor real puede tomar la covarianza. Haciendo operaciones es muy fácil ver cómo esta definición a efectos prácticos, la covarianza es la esperanza del producto, es decir, m1, 1 menos el producto de las esperanzas, es decir, la esperanza de x con la esperanza de x. La covarianza, el significado importante, lo digo porque a la hora de calcularlo hay que saber qué es lo que estamos calculando y evitar aprender cosas de memoria. La covarianza lo que me da es una idea numérica de la variación conjunta, de ahí el concepto de covarianza, variación conjunta de las variables. ¿Cómo varía? Por eso la covarianza es negativa cuando una variable va en una dirección, por ejemplo, aumenta, la otra variable disminuye. Mientras que la covarianza es positiva cuando las dos variables van en la misma dirección, es decir, cuando una de las variables X, por ejemplo, aumenta, la variable Y aumenta y viceversa. La variable X disminuye, entonces la variable Y disminuye. Un caso importante es cuando la covarianza vale cero. Entonces decimos que las variables... Las variables X e Y son variables incorreladas. Pero la covarianza tiene un problema y es que se ve afectada bastante por las transformaciones lineales. Y nosotros lo que queremos es tener unas medidas que me expliquen la relación o la mayor o menor dependencia, esa covariación conjunta, que existe entre las variables X e Y. Y que no posea unidades y que esté acotada para, digamos, poderlo comparar. Ese es el concepto. El coeficiente de correlación. Rho de X y Y es el cociente de la covarianza partido por el producto de las desviaciones típicas de las dos variables. De hecho, si podéis calcular, os invito a que lo demostréis, es como calcular de nuevo la covarianza pero de las variables tipificadas. Por lo tanto, si las variables están incorreladas, la covarianza vale cero y por lo tanto, rho, el coeficiente de correlación, vale cero. Si las variables son independientes, como habéis visto en el tema número 8, entonces la covarianza vale cero porque ya sabéis que si la independencia implica entonces que la esperanza del producto es el producto de la esperanza, con lo cual la covarianza al sustituir valdría cero. Pero no necesariamente al contrario, es decir, la independencia de variable implica que las variables sean incorreladas, pero el hecho de que las variables sean incorreladas no necesariamente implica que las variables sean independientes. ¿De acuerdo? Bien, ¿qué le pasa al coeficiente de correlación? Primero, no posee unidades, cosa que ya hemos logrado y es interesante para poderlo comparar. Segundo, este coeficiente de correlación es un número, por lo tanto, abstracto, sin unidades, comprendido entre menos uno y uno. El hecho de negativo, es decir, tan menos 0,9 y 0,9 significan exactamente lo mismo. Lo único que ocurre es que te dice si esa covarianza es positiva o negativa, porque la covarianza y el coeficiente de correlación poseen el mismo signo. Lo único que hemos hecho es dividir por el producto de las desviaciones típicas con el objeto de normalizar y que el valor de error de esa dependencia lineal que hay entre las variables esté acotado en el intervalo menos uno, uno. ¿De acuerdo? Cuanto más cerca esté de menos uno o de menos uno, la dependencia es más fuerte. Cuanto más próximo esté a cero, tenemos que tiende a la incorrelación. Bien, veamos un par de ejemplos. Observar. Vamos a ver cómo la incorrelación no implica independencia. veamos, supongamos una variable x que toma solamente tres valores el valor menos uno, el valor cero y el valor uno con esas probabilidades p1 menos 2p y p respectivamente y supongamos que defino la variable y igual valor absoluto de x entonces cálculos elementales os sirve como ejercicio yo os doy ya la solución la esperanza de x es cero la varianza de x es 2p y ahora la variable y al ser igual al valor absoluto de x pues solamente toma dos valores el valor uno que es para x igual a menos uno y x igual a uno es decir 2p y el valor y igual a cero la esperanza de y vale 2p, la varianza de y ahí lo tenemos ¿y cuál es la bidimensional? pues la variable xy, el vector xy toma el valor menos uno uno el valor cero cero y el valor uno uno que ahí lo tenemos si calculamos la esperanza de x por y es muy fácil calcularla aquí sería la esperanza de x por y menos uno por uno por su probabilidad que es p más cero por cero que no hay que hacerle caso más uno por uno por probabilidad de p eso obtenemos cero por lo tanto la covarianza vale cero y por lo tanto el coeficiente de correlación vale cero es decir, las variables son incorreladas pero la tentación es decir que son independientes cuando es todo lo contrario existe una relación funcional total entre las variables x y y ya que y es una función determinística de x es el valor absoluto solamente hay un caso en donde la independencia y la incorrelación se verifica y es el caso de que las variables x y y sean dicotómicas es decir, dicotómica es una distribución rectangular que solamente toma o uniforme discreta que solamente toma dos valores supongamos que x toma el valor x1 y x2 estoy en el ejemplo 2 y la variable y toma el valor y sub 1 y sub 2. Lo que aparece dentro de este cuadro son las probabilidades conjuntas, es decir, la probabilidad de la variable x1 y sub 1 es a, la probabilidad de la variable x1 y sub 2 es p sub 1 menos a, y así sucesivamente. Al sumar por fila obtenemos que la variable x1 toma el valor, perdón, la variable x toma el valor x1 con probabilidad p sub 1 y el valor x sub 2 con probabilidad p sub 1, p sub 1 más p sub 1 es igual a 1. Una vez calculado y descrito el cuadro de doble entrada, pues como siempre calculamos la esperanza de x, la esperanza de y, la esperanza de x por y, que sería por ejemplo x sub 1 por y sub 1 por a, más x sub 1 por y sub 2 por p sub 1 menos a, y así sucesivamente, y decimos cuando la covarianza es 0, si y solo si, la esperanza del producto es el producto de la esperanza, como tenemos la esperanza del producto, despejando tenemos cuando a es igual a p sub 1 por p sub 2, sustituyendo a por p sub 1 por p sub 2, entonces obtenemos la condición que viste ahí de independencia en el tema anterior. Cualquiera que sea el valor x sub 1 y x sub 2, y sub 1 y sub 2, la probabilidad conjunta podéis observar se factoriza en la probabilidad de x sub i por la probabilidad de y sub j con y sub j variando de 1 a 2. Es un caso muy extremo en donde si se verifica, se verifica la relación entre independencia e incorrelación. Pero vuelvo a repetir que en general no se verifica. Para terminar un poco el esquema teórico, introducimos, apareció en uno de los exámenes me parece del año pasado, la matriz de varianza y covarianza. Es una matriz semidefinida positiva y simétrica, la podéis ver en la página 202 de la demostración, en donde en la diagonal principal aparecen las varianzas y en la otra diagonal aparece la covarianza. La covarianza de xy o la covarianza de yx, exactamente la misma xy, de ahí que sea una matriz simétrica. Además al decir que el coeficiente de correlación es más uno o el coeficiente de correlación es menos uno, es equivalente a decir que cada una de las variables es función de la otra. Es decir, si por ejemplo ro vale exactamente igual a uno, lo que estoy diciendo es que y es una función lineal de la variable x. Si es menos uno, es una función lineal con la pendiente negativa. ¿Y cuál es una recta de regresión? Porque la idea del tema es, si estamos trabajando con dos variables y hemos calculado un valor numérico, que es en realidad el título del tema, en donde me alude y me calcula la mayor o menor dependencia de las variables entre x e y, un problema muy interesante, que al fin y al cabo es uno de los más importantes en estadística, es estimar. O relacionar estadísticamente hablando, no estamos hablando de análisis matemático, que es una relación determinística, aquí estamos hablando de una relación estadística. Estimar una variable y en función de la otra. Hay dos métodos. O exigir la relación entre y y x, entre x e y, son dos rectas. la recta de y sobre x y la recta de x sobre y mediante una recta, mediante el método de mínimos cuadrados. Es calcular la esperanza de y menos la recta que vamos a llamar a más bx todo elevado al cuadrado y hacer que esto sea mínimo. Para ello hay que estimar, no calcular vuelvo a repetir, estamos en estadística a y b. Mediante el método de mínimos cuadrados calculando los mínimos, la estimación de b es la covarianza partido por la varianza de x que es precisamente la pendiente de la recta y a, la estimación de a que aparece con a gorrito viene dado por ahí. De esa manera sustituyendo a y b obtenemos la recta de regresión que es muy fácil de memorizar, entre comillas. La variable y menos su media es igual a la covarianza partido por la varianza la variable x menos su media. Por eso la pendiente es la covarianza partido por la varianza. La varianza residual sería el error que yo cometo como la varianza del error. El error viene a ser la distancia que hay entre el valor y su estimación que viene dado por la recta. Es decir, la diferencia entre y y a más bx ese es el error o el residuo como el pozo que queda al hacer un café. Esto es una variable aleatoria y la media vale cero. La esperanza de e podéis contrastarlo y podéis calcularlo. La esperanza de e en el error o el residuo, esta esperanza vale cero, por lo tanto la varianza es el momento de segundo orden cuando la media vale cero que por eso se calcula. Es igual a la varianza por uno menos rho al cuadrado. ¿De acuerdo? Por eso, si ρ vale 0, la varianza residual es máxima, que es la varianza de Y. Y si ρ vale 1, es decir, tenemos una dependencia estadística perfecta, entonces la varianza residual, observar que vale 0. Coincide perfectamente el sentido común con lo que nos va dando un poco la normativa del tema. De igual manera, intercambiando el papel de X e Y, obtenemos la recta de regresión de X en función de Y. No vale darle la vuelta a la recta de Y sobre X, son dos rectas distintas. Podéis también comprobar que estas dos rectas se cruzan en un centro de gravedad, es decir, en la media de X y en la media de Y. Y después tenemos lo que serían las curvas de regresión. ¿Qué es una curva de regresión? Pues no exigirle que la relación entre X e Y sea una recta. No imponerla, sino ver cuál es la óptima relación que hay entre X e Y. A lo mejor la óptima no es la ecuación de una recta, a lo mejor es una parada. O la función de tercer grado, un polinomio, una función racional, la que sea. Estas curvas generales de regresión, de nuevo hay dos, Y sobre X y X sobre Y. Son las esperanzas condicionadas, cosa que vimos, si os acordáis, en el tema número 9, incluso que yo planteé algunos problemas. Y incluso ya adelantaba el nombre de curva de X sobre Y y la curva de Y sobre X. Para calcular, por lo tanto, las curvas de regresión tenemos que calcular las distinciones condicionadas. ¿Ves? Continuamos. Para terminar este esquema teórico, ¿cuáles son otras medidas de centralización, posición y dispersión? Pues tenemos la moda, que es aquel valor de la variable, aquel valor observado, para el cual su probabilidad es máxima. Es decir, en un diagrama de barra, el valor de la variable cuya barra sea máxima. La mediana es una medida de posición, es aquel valor de la variable, es decir, observado. ¿O acordáis que la media no necesariamente era uno de los valores observados? En donde la probabilidad de X menor o igual que la mediana es mayor o igual que un medio, y la probabilidad de X mayor o igual que la mediana es mayor o igual que un medio. ¿De acuerdo? Es decir, vendría a ser como aquel valor de la variable que deja a la izquierda y a la derecha el 50% de los datos. Pero siempre para calcular la mediana hay que trabajar con los valores de la variable de forma creciente, de menor a mayor. La caracterización de la mediana ya es distinta al teorema de Kony. La caracterización de la mediana es que si en lugar de calcular X menos A elevado al cuadrado, calculo X menos A el valor absoluto, el valor A que hace mínimo esta dispersión, de ahí pongo el nombre de función D, es precisamente la mediana. Y el valor de X menos M mayúscula se llama la desviación mediana. Viene en el libro también. ¿Y si yo en lugar de calcular... Si yo en lugar de calcular la esperanza a la variable X menos la mediana le vuelvo a calcular la mediana, obtenemos otra medida de dispersión muy popular y muy importante que se llama la mera o desviación probable. Una generalización de la mediana es el cuantil. El cuantil es aquel valor de la variable... Esto está... Esto... ¿Está mal? Lo que he hecho es cortar y pegar. Es P, lógicamente. El cuartil de orden P es aquel valor en donde por la izquierda es menos igual que P y por la derecha es mayor o igual que P. Cuando P vale un medio, este cuartil de orden un medio es precisamente la mediana. Lo más popular es cuando P vale un cuarto, que se llama el cuartil inferior, o cuando P vale tres cuartos, que se llama el cuartil superior. Una medida de dispersión es el recorrido intercuartílico, es decir, la distancia que hay desde el cuartil inferior al cuartil superior, cuya probabilidad es un medio porque, digamos, deja a un lado desde el valor inferior un cuarto, que es el 25%, y desde el valor superior tres cuartos, que es el 75%, hasta el 100%. Bien, continuamos. Veamos un pequeño ejemplo de estos datos que hemos visto. Cojo dos dados y observamos su resultado X1 y X2. Tenemos que calcular la desviación mediana y la media de la variable rango. ¿Qué es el rango? El rango es el máximo menos el mínimo. Por lo tanto, si X es el máximo menos el mínimo, y podéis comprobar lo que es la diferencia en valor absoluto, de los 36 casos posibles, tenemos que la variable X toma los 50%. ¿Cuáles son los siguientes valores? O 0, o 1, o 2. Por ejemplo, ¿cuándo toma el valor 1? Cuando sale 4 o 5, o 5 o 4. Da igual porque, aunque sea negativo, es en valor absoluto. El máximo menos el mínimo. Aquí tenéis la distribución de probabilidad ya calculada, o aconsejo como ejercicio que vosotros rehagáis, y vamos a calcular la mediana. Por ejemplo, observar que para X menor o igual que 1 es 16, 6 más 10 es menor o igual que un medio, pero para X menor o igual que 2 ya suma 24 partido de 36, que es mayor o igual que un medio. Por lo tanto, la mediana es 2. En el cálculo de la mediana tenemos esto. La media, trivialmente, en la esperanza matemática, es 35 partido por 18 que es un poquito más pequeña que la mediana. Vamos a ver cómo calculamos la desviación mediana. Tenemos que calcular la distribución de probabilidad de una nueva variable y que es x menos la mediana de x. En este caso, como la mediana de x es 2, pues tenemos que calcular la ley de probabilidad de una variable que es x menos 2, el valor absoluto. ¿De acuerdo? Por ejemplo, ¿qué significa que la variable y toma el valor 0? Pues cuando la variable x toma el valor 2. Por lo tanto, igual a 0 con probabilidad 8 partido de 36 que coincide con un 2. ¿Cuándo la variable y toma el valor 1? La variable y toma el valor 1 cuando x toma el valor 3. Aquí lo tenemos, 6. O cuando x toma el valor 1, que es 10. 1 menos 2, que es menos 1, el valor absoluto 1. Y 3 menos 2. 1. Sumando estas dos probabilidades tenemos 16 partido de 36. De igual manera, el resto. Por lo tanto, ya tenemos aquí la distribución de la variable x, que como siempre, os aconsejo que comprobéis que la suma vale 1. Veamos, como para y menor o igual que 0 es 8 partido de 36, que es menor o igual que 1 medio. Y para y menor o igual que 1, tengo que sumar 8 partido de 36 y 16 partido de 36, es 24, que ya es mayor o igual que 1 medio. Entonces, la mediana de la variable y es 1. Con lo cual, la medida de la variable x es 1. Por lo tanto, tenemos ya la medida de dispersión de la variable x, que es la medida que vale 1. ¿De acuerdo? Y la desviación... La mediana es simplemente calcular la media de la variable y, la esperanza de la variable y, la esperanza de x menos 2 en valor absoluto. Es 7 partido por 6. ¿De acuerdo? Tenemos aquí entonces un ejercicio donde utilizamos para calcular. Hay que construir la distribución, típicos problemas de exámenes, hay que calcular la mediana, hay que calcular la desviación mediana, hay que calcular la media y todo eso implica ir construyendo distribuciones de probabilidad a partir del dato original. Bien, os propongo como ejercicio considerar la distribución geométrica de parámetro p. Se viene en el libro, es fácil. ¿De acuerdo? p por q elevado a n menos 1, p más q vale 1. Y demostrar que la desviación media vale esto y la desviación mediana vale esto. Y en general la desviación para un cierto valor de t, aquí la t vale mu, que es la esperanza matemática, y aquí la t vale la mediana que es el mu. Este corchete significa la parte entera y mu la esperanza matemática. Os lo dejo como recto. Y ejercicio para que os sirva un poco de práctica. Bien, y terminamos. A la hora de calcular las curvas generales de regresión, el probar, o lo mejor también la demostración viene aquí, por lo tanto no voy a insistir, cómo es posible calcular la esperanza del producto. Acordáis que es un momento ordinario mixto, el m1,1. Es posible calcularlo a través de la esperanza de x por la esperanza de y dado x. Muchas veces es mucho más fácil calcular la esperanza del producto a través de esta expresión, aunque haya que calcular la curva general de regresión, la esperanza de y dado x, que calcular la esperanza de x por y de manera directa. Esto se refleja en que la covarianza también se puede calcular directamente calculando la covarianza de x y en lugar de y, la esperanza de y dado x. La demostración viene aquí abajo, por lo tanto no voy a insistir más sobre ella. Es bastante trivial. Bien, pues entonces ahora ya vamos a profundizar un poco más viendo algunos ejercicios. Como siempre, en los que había ejercido toda la webconferencia, en amarillo aparece el enunciado y después aparece un poco la resolución y el comentario. Perdón. Se lanza en el veces una moneda con probabilidad p de salir cara. Yo normalmente lo que hago es generalizar. Y según el número de caras sostenidas, se lanza igual número de veces la misma moneda. Si es el número de caras sostenidas en este segundo experimento, se pide obtener la distribución conjunta, probar que y sigue una binomial, cosa que ya vimos en un tema anterior, me parece que era el tema número 6, calcular el número esperado de caras en el segundo experimento y ya las novedades. Obtener la curva general de regresión de y sobre x, el coeficiente de correlación y la distribución de x dado y. Y su curva. Bastante amplio, pero es para que tengáis siempre material para ir trabajando. Bien, el dato del problema es que yo tengo una distribución binomial n, p. Lanzo en el veces la moneda. Y la distribución condicionada es de nuevo una binomial, pero el número de veces que lanzo la moneda por segunda vez depende del número X de cara que haya salido en la primera. Por lo tanto, es una binomial XP. Por lo tanto, la Y como máximo tomará el valor X. Es decir, la Y es 0, 1, 2, X. Con X variando, lógicamente, desde 0 hasta Y. Por lo tanto, la conjunta, os acordáis, es el producto de la condicionada por la marginal. Y, por lo tanto, es el producto de estas dos binomiales que haciendo operaciones obtenemos esto. Con la Y variando desde 0 hasta X y la X variando, lógicamente, desde 0 hasta Y. Vimos en el tema anterior que la distribución marginal de la variable Y, lo único que tenemos que hacer es sumar aquí un X. Fue un trabajo que hicimos en el tema anterior. Es una distribución también binomial, pero no de parámetro NP, sino de parámetro N por P al cuadrado. Por lo tanto, la esperanza de la variable Y... Y es la media de la binomial NP al cuadrado. Por lo tanto, es el producto de los dos parámetros N por P al cuadrado. Pero que también es la esperanza de Y dado X. Como Y dado X es una binomial, la esperanza de Y dado X es producto de las dos. Es decir, X por P. Y si a X por P, X por P, le calculo de nuevo la esperanza matemática. Como P es una constante, me queda P por la esperanza de X, que es N por P. Y de ahí que obtengamos... La esperanza de Y, que es N por P al cuadrado. Pero aquí ya es importante, porque la esperanza de Y dado X... que es x por p, es la curva general de regresión de y sobre x, tal como hemos visto cuando vimos anteriormente las rectas de regresión y las curvas de regresión. Continuamos. Como la curva en este caso es una recta, como acabo de decir, para calcular el coeficiente de correlación lineal observamos lo siguiente. ¿Cuál es la pendiente de la recta de regresión? P. Por lo tanto, en la pendiente, os acordáis que era b gorrito, la covarianza partido por la varianza es p, de donde la covarianza es p por la varianza. Pero la varianza de una binomial es muy fácil, es p por q y por n, es decir, p por 1 menos p y por n. Por lo tanto, la covarianza es p cuadrado por q y por n. La varianza de y, como y es una variable también binomial, pues p cuadrado por 1 menos p cuadrado que actúa de q por n. Por lo tanto, el coeficiente de correlación, sustituyendo y simplificando convenientemente, obtenemos el valor de la variante. Este es el valor que aparece, que es la raíz cuadrada de p partido por 1 menos p. Observar cómo la covarianza es positiva y, por lo tanto, el coeficiente de correlación es positivo. También podríamos haber utilizado lo que he dicho antes en la diapositiva número 11 de la esperanza de x por y, la esperanza de x por la esperanza de y dado x, que la tenemos aquí, que es p por x, que es muy fácil. Aquí tenéis de nuevo la otra distribución, no la de y dado x, sino la de x dado y. Y obtenemos que esta es una binomial. Por lo tanto, la esperanza de X dado Y en la media de la binomial, que es el producto de los dos parámetros, obtenemos de nuevo la otra curva general de regresión, la esperanza de X dado Y, que solamente depende de Y y por lo tanto es también una recta. Es decir, en este problema la curva y la recta coinciden, tanto la de Y dado X como la de X dado Y. Bien, vamos a ver otro problema. Se lanzan dos dados de manera independiente, sea X el máximo valor obtenido e Y la mínima puntuación obtenida. Obtener la distribución conjunta y las marginales. Calcular las medias y las varianzas de X e Y y obtener las dos curvas generales de regresión y así como el coeficiente de correlación. Lo primero a observar es que tanto X como Y no son independientes. Las variantes de X y Y son independientes. Las marginales se pueden obtener directamente o bien a través de la conjunta. Directamente me parece que las calculamos en su momento en el tema número 9 para calcular esperanza matemática. Sea X1, X2 el resultado del primer lanzamiento y del segundo. Entonces la función de distribución conjunta es máximo menor o igual que X, mínimo menor o igual que Y. Esto haciendo operaciones como el mínimo menor o igual que Y, lo mejor es que si yo pongo el mínimo mayor que Y, es que los dos son mayores que Y. Por lo tanto, aplicando un teorema elemental de probabilidades, la probabilidad de A intersección. B complementario, ¿de acuerdo? Es igual a P de A menos P de A intersección B. Pero el complementario de B complementario que es Y menor o igual que Y es Y mayor que Y. ¿De acuerdo? Bien, esa es la idea clave siempre para calcular las conjuntas. Pues bien, entonces, esto es X1 menor o igual que X por X2 menor o igual que X. Como son el mismo dado y si son variables independientes igualmente distribuidas, el producto de las probabilidades es al cuadrado. Y aquí obtenemos, por un lado, Y menor que XY para ir variando entre 1 y 2, menor o igual que X. Si X es más pequeño que Y, esto es el suceso imposible, por lo tanto, esto vale 0. Y por lo tanto, como la función de distribución de la variable XY, cualquiera de ellas, se refiere al dado 1 o al dado 2, es menor o igual, es un sexto, para acá variando desde 1 hasta X. Entonces, X partido por 6. Por lo tanto, esto es X partido por 6 al cuadrado de X cuadrado partido 36. Y aquí sería X cuadrado partido 36 menos X menos Y. ¿Acordáis cómo se calcula la función de distribución? Cuando la variable X está comprendida entre A y B, B cerrado y A abierto, es F de B menos F de A. Pues, X menos Y al cuadrado partido por 36. Es decir, X menos Y partido 6 por X menos Y partido 6. Para X mayor. Menor o igual que Y. En este caso, lógicamente, el mínimo Y tiene que ser menor o igual que X. Y la X varía entre 1 y 6, que es el resultado del dado. ¿Cuál es la función de probabilidad conjunta? Es decir, la p de xy. Pues la probabilidad en el punto es la función de distribución en xy menos la función de distribución en x por la izquierda y en este caso x-1 menos la función de distribución en y por la izquierda, es decir, xy-1 más la función de distribución en x por la izquierda y por la izquierda. Haciendo operaciones es trivial observar que la probabilidad conjunta o la distribución conjunta de x e y viene dada de esta manera cualquiera que sea el valor de x entre 1 y 6. Bien, ya tenemos la conjunta. Las marginales se pueden calcular marginalizando la conjunta, es decir, sumando en y la función de probabilidad conjunta p de xy y a esto hay que añadirle la xx. ¿Qué es lo que se puede hacer? Que aparecía en la diapositiva anterior cuando y es igual a x. Obtenemos justo 2x-1 partido de 36 que fue lo que obtuvimos en el tema anterior. De igual manera, la función de probabilidad de la variable y, es decir, el mínimo, pues lo tenemos aquí. Observar como para x variando desde 1 hasta 6 la suma esta vale 1 y la suma esta desde igual 1 hasta 6 también vale 1. ¿De acuerdo? Bien. Por ejemplo, para que veáis cómo se podría calcular directamente sin hacer la calculación. A través de la conjunta, pues el máximo es x1 menor que x y x2 menor que x. O, excluyente suceso, x2 igual a x y x1 menor que x. O también, tercera alternativa, que x1 como el valor x y x2 como el valor x. Y aplicando la factorización por la independencia de las variables obtenemos exactamente el mismo resultado. ¿De acuerdo? Bien. A partir de aquí ya es trivial calcular la esperanza de X, la varianza que utilizamos la esperanza de X2 menos el momento menos la media al cuadrado, la esperanza de Y y la varianza de Y sin mayor problema. ¿Cómo calculamos las curvas generales de regresión? Tenemos que calcular entonces, si os acordáis, la curva general es una esperanza condicionada. Por lo tanto tenemos que calcular las distribuciones condicionadas. Tenemos que calcular dos distribuciones. La de Y dado X y la de X dado Y. La definición es esta, la conjunta partido por la marginal o la unidimensional X, la otra conjunta partido por la otra unidimensional. Hay que diferenciar el caso de igual a X o Y menos X. ¿De acuerdo? Sin mayor problema. Es una cosa muy elemental. A partir de aquí calculamos las dos curvas, la esperanza de Y dado X, esto es Y mayúscula, ¿de acuerdo? Y mayúscula. Estamos calculando la esperanza de la variable Y. Por lo tanto, Y mayúscula. Obtenemos X2 partido de 2X-1 y de igual manera la esperanza de X, variable, hay una errata, dado Y, es una función que depende de Y. Claro que lo que estamos haciendo es predecir el valor de Y en función de X, es decir, predecir el mínimo conocido al máximo y predecir el máximo conocido al mínimo. Observar cómo estas funciones no son funciones lineales, por lo tanto las curvas no son rectas. ¿Cómo calcular la esperanza condicionada? Perdón, el coeficiente de correlación. Pues calculamos la esperanza de X por Y y aplicamos la esperanza de X por la esperanza de Y dado X. Como la esperanza de Y dado X ya la tenemos aquí calculada, la sustituimos aquí y hacemos operaciones. Es simplemente calcular esto, que no tiene mayor problema porque sería la suma del cubo, que eso viene en cualquier manual y obtenemos 49 cuartos. Por lo tanto, la covarianza haciendo operaciones es esta de esto y el coeficiente de correlación calculando la varianza de X y la varianza de Y y extrayendo la raíz cuadrada, que está en la diapositiva anterior, obtenemos definitivamente el coeficiente de correlación, que es bastante débil, de 0,47. Positivo, porque la covarianza o el déficit es positivo. Yo propongo ahora que calculeis las dos rectas de regresión y concederéis el mismo problema, pero en lugar de dos dados, con N dados. Es un poco más complicado, pero la metodología ya la tenéis. Yo aconsejo siempre... ...que abordéis un problema por ver primero, que lo hagáis para un caso elemental, porque lo importante e intuitivo, lo importante es entender la técnica. Y esa técnica ya después, aunque con un poquito más de dificultad, se puede generalizar en situaciones más complicadas. Bien, continuamos. Vamos a analizar un modelo bidimensional. Supongamos que el vector discreto ahora, en lugar de construir... ...la distribución bidimensional, me dan la distribución bidimensional. Es simplemente un ejercicio práctico. Aunque normalmente en los exámenes lo que tendréis que hacer es, a partir del enunciado, construirse uno la distribución bidimensional y a partir de ahí ir contestando a las preguntas y a los apartados de cada uno de los problemas del examen. Aquí tenéis la distribución conjunta K. que es una constante a calcular por Q elevado a X menos 1, Q es igual a 1 menos P, como siempre el tema de Q vale 1, con X mayor o igual que Y y X e Y variando en conjunto numerable 1, 2, 3, etc. Pero X siempre es mayor o igual que Y. Hay que calcular las marginales y sus medias, las condicionadas, las curvas generales de regresión, la covarialza, etc. Prácticamente lo pongo siempre íntegro todo para que se hagan todos los ejercicios y todas las prácticas de todos los conceptos que aparecen en este tema como novedad del tema número 10. Bien, la marginal de Y, como la Y es menor o igual que X, tendremos entonces que sumar para todos los valores de X y para calcular la marginal de Y la conjunta, por lo tanto será X mayor o igual que Y para X igual a Y hasta el infinito. De aquí obtenemos esto, como la suma de las probabilidades de Y tiene que ser 1, la constante K es igual a P. Y la constante K es igual a P al cuadrado. Sustituyendo aquí K igual a P al cuadrado, obtenemos que la variable Y sigue una distribución geométrica. Para la variable X lo que hacemos es sumar en Y, pero como la Y es menor o igual que X habrá que sumar desde Y igual 1 hasta X. Sustituyendo la constante K por P al cuadrado, obtenemos la distribución de la variable X, que es esta, pero que está relacionada con la distribución de la variable Y. Es X por P por la distribución de la variable Y en X. Lo pongo simplemente como relación funcional. La esperanza de Y, como es una geométrica que es inversa del parámetro, la esperanza de X haciendo operaciones, obtenemos esto. problemas, es cuestión de hacer operaciones pero eso es algo bastante trivial. ¿Cuáles son las condicionadas y las curvas? Las condicionadas la de X dado Y es la conjunta partido por Y y la de Y dado Y es la conjunta partido por la distribución de probabilidad X. Aquí tenemos las dos distribuciones condicionadas y su esperanza condicionada que son las curvas generales de regresión la de X dado Y es una recta, es el cociente Q partido por P, es decir 1 menos P partido por P más Y, por lo tanto es una recta la predicción de X en función de Y es lineal y la predicción de Y en función de X también es lineal. Observar lo curioso que la Y dado X no depende de P la X dado Y sí depende de P La covarianza de nuevo como el cociente de vamos a ver aquí, como la pendiente aquí de Y dado X es un medio o la pendiente de X dado Y es 1, pues entonces ahora fijaros por eso yo divido entre varianza de Y no entre varianza de X, lo podríamos hacer también a través de la Y dado X pero es más fácil por la cosa de la unidad la covarianza de X sí es la varianza de Y, por lo tanto y la otra es un medio, la otra pendiente la varianza de X es dos veces la covarianza que tenemos esto y por lo tanto simplemente haciendo operaciones en la definición del coeficiente de correlación obtenemos que ρ vale 0,5. Las rectas como las curvas son rectas pues no hay que hacer nada más. Bien, vamos a ver un problema interesante. y en donde ahora ya hay una pequeña variante lanzamos decir sucesivamente una moneda con probabilidad de salir cara sea x el número del lanzamiento en que aparece por ver primero a la cara y el número del lanzamiento en que aparece por ver primero a la cruz calcular la distribución conjunta las marginales los momentos de interés obtener la cobranza el consciente correlación las dos rectas de regresión las curvas de la dirección etcétera etcétera como he puesto a lo largo de esta tarde en todos los problemas que yo planteo vamos a ver lo que está claro es que si lo que me están pidiendo es el número del lanzamiento en que aparece por primera vez algo estamos hablando en que tanto la variable x como la variable y son distribuciones geométricas pero a mí lo que me están pidiendo es en la conjunta veamos un poco el razonamiento vamos a ver si en la primera tirada sale cara entonces x vale 1 y por lo tanto la y vale mayor o igual que 2 mientras que si en la primera tirada lo que sale es cruz entonces la cara saldrá en la segunda o en la tercera por lo tanto aquí solamente hay dos alternativas para la conjunta si sale cara porque en la primera tirada o sale cara equivale a uno o sale cruz y sale cara en la primera jugada y entonces cuando saldrá cruz en la jugada m pues cuando hayan salido m menos una cara la primera y el resto y él por fin en la jugada m sale cruz que es con probabilidad 1 menos p que es 1. De igual manera ocurre cuando en la primera tirada lo que sale es cruz. Entonces, cuando salga la cara en la jugada enésima significa que las n-1 a primera tirada han salido siempre cruces. 1 menos p que es igual a q elevado a n-1 y por último en la jugada n ha salido la cara con probabilidad. Solamente existen estas dos formas de la conjunta y además n y m varían para 2, 3, 4, no n igual a 1 porque en la primera tirada o sale ya cara o sale otra. Evidentemente marginalizando tenemos que la x es una geométrica clásica y la y es otra geométrica con el parámetro intercambiado, es decir, se intercambian los papeles de p y q. Por lo tanto, la media y la varianza de x e y la tenéis aquí y nos ofrece mayor dificultad. Vamos a calcular la covarianza. Ahora lo vamos a hacer de manera directa para que veáis que también se puede hacer. Por lo tanto, la definición de... La esperanza de x por y, es decir, el m, 1, 1, 1, hay un momento mixto, será la suma de n y m, en este caso mayor o igual que 2, de n por m por la conjunta x igual a n y igual a m. Como aquí hay una diferenciación porque en la primera tirada o sale cruz o en la primera tirada sale cara, entonces sustituimos estos valores y sustituimos esta conjunta, sumamos en n y sumamos en m y obtenemos la esperanza del producto. Que viene dado de esta manera, después de hacer operaciones que no tiene mayor dificultad. Como la media de x e y la conocemos, que es 1 partido p y 1 partido q, obtenemos en definitiva que la covarianza vale menos 1. Cosa muy curiosa, pero que tiene bastante sentido. ¿Qué significa negativa la covarianza? Pues significa que al aumentar una variable la otra disminuye. Es decir, cuanto más tiempo tarde en salir la cara por vez primera, menos tiempo tarda en salir a cruz. Claro, lógicamente, porque es que si no ha salido cara es porque ha salido cruz. ¿De acuerdo? Por lo tanto, era un poco lo que yo decía. El sentido común te da la intuición de qué resultado, por lo menos no el valor numérico, porque está muy próximo a cero. Pero sí el signo de la covarianza. Sin mayor problema, calculando el coeficiente de correlación, obtenemos menos, porque el signo de la covarianza es negativo, raíz cuadrada de P. Las rectas de regresión las tenéis aquí. Simplemente os dejo como ejercicio la solución para que las tengáis. ¿De acuerdo? Es simplemente aplicar la definición que aquí la tenéis. Y menos la media, etc. ¿Cuáles son las condicionadas? Las condicionadas es la de y dado x y la de x dado y. ¿De acuerdo? La de y dado x la tenéis aquí. Aquí tenemos la esperanza condicionada. Obtenemos esto. Y por lo tanto, la esperanza de y dado x es si n vale 1, es esto. Y si n es mayor o igual que 2, os acordáis que había que diferenciar, tendríamos esto. De igual manera calculamos la distribución de x dado y. La esperanza de x dado y, según sea, x dado y igual a 1. ¿De acuerdo? Y la esperanza de x dado y igual a y. Para cualquier valor de y. De nuevo obtenemos algo simétrico. En lugar de 1 más 1 partido q es 1 más 1 partido x. ¿Por qué no? Son las curvas generales de reducción. Simplemente si queréis hacer P igual a un medio y obtenemos que lo que os recurriría con la moneda con la que estoy trabajando es una moneda legal. Seguimos. Veamos otro problema con otra pequeña variante. Tengo una urna con dos bolas blancas y tres bolas negras. Se extraen de una en una y sin reemplazamiento, sin reposición, hasta que se obtiene una bola blanca. O sea, según el número X de la extracción en que haya aparecido la blanca por vez primera, se lanza una moneda legal tantas veces como el número de dicha extracción. Y se observa el número de caras. Calcular, como siempre, las marginales, la conjunta, el coeficiente de correlación, la resta, etc. El apartado B es el teorema de Bayes que lo vimos en el tema número 6, si os acordáis. Si ha salido cara una sola vez, ¿cuál es la probabilidad de que se hubiese necesitado un intento para extraer la bola blanca? Veamos. Como es sin reemplazamiento, la probabilidad de que la bola blanca salga la primera vez es 2 partido 5. Para que salga en la segunda vez ha tenido que salir la primera tresquinto negra, etc. Por lo tanto, aquí tengo la distribución de probabilidad. 1, X toma el valor 2, X toma el valor 3, X toma el valor 4, la suma vale 1. Pero claro, yo no sé en qué momento va a salir la bola blanca por vez primera. Por lo tanto, la distribución de Y. 2X, como la moneda es legal, la probabilidad P de la binomial es un medio. Pero el número de veces que yo voy a tirar depende de X de cuando haya salido la bola blanca por vez primera. Es como la distribución geométrica, pero en este caso estamos hablando... de extracciones sin reemplazamiento. Por lo tanto, la esperanza de x, que es 1 por 2 quinto, 2 más 2 por 3 décimo, etc., vale 2, la varianza vale 1, son cálculos elementales, y la esperanza de y dado x, ya tenemos una curva general de reacción, es la media de la binomial, que es p por n, que en este caso es x por 1. Por lo tanto, la esperanza de y es la esperanza de la esperanza condicionada y por lo tanto vale 1. La esperanza de x vale 2 y la esperanza de y vale 1. No hace falta calcular la distribución de y para calcular la esperanza de y, ¿de acuerdo? Porque aquí la distribución de y habría que calcular la suma para todos los valores de x de la condicionada y dado x por la marginal de x, ¿de acuerdo? O la unidimensional. Para la conjunta se calcula así. ¿Cómo calculamos la conjunta? Bueno, la conjunta la calculamos a partir del producto de la condicionada por la unidimensional o marginal. Marginal interesa en este caso y dado x por la probabilidad de x, porque la distribución de x es la conocida que es la construida y es la fácil. De esta manera tenemos aquí este resultado, que no tiene mayor problema, y así calculamos el resto de las distribuciones conjuntas. Aquí tenéis. El cuadro de doble entrada. Pero en negro es la conjunta x, 1 y 0. Aquí, por ejemplo, x, 2 y 1, 3 partido 20, etc. Y en rojo aparece la marginal de x que la hemos calculado antes y en horizontal en rojo la marginal de y. Por lo tanto, la esperanza de X por Y, lo que hacemos es aplicar directamente, ¿qué os parece la definición? Es decir, 1 por 0 por un quinto, más 1 por 1 por un quinto, más 2 por 0 por 3 partido por 40, más 2 por 1. Esto es fácil porque los ceros se obvian, en fin, no tiene más. Los denominadores prácticamente son iguales o son unos múltiplos de otros y obtenemos aquí el resultado, 2,5, la varianza de X, la varianza de Y, y la covarianza, y definitivamente obtenemos el coeficiente de correlación, que es raíz de 3 partido por 3, como siempre en este caso positivo, ya que la covarianza es un medio y es positivo. La recta de Y sobre X es X medio, como hemos visto antes, y yo os propongo que calculeis la recta de X dado hoy, demostrar, por eso lo he puesto aquí, que vale este valor. La segunda pregunta es aplicar el teorema de Bayes, que no tiene mayor problema, y la segunda pregunta es aplicar el teorema de Bayes, y no insisto porque eso, digamos, ya lo trabajamos. Además, siempre que os dejo un poco algo sin demostrar o que pase un poco rápido sobre él, es simplemente invitaros a que vosotros seáis capaces de calcularlo, que no lo dudo. Bien. Problema un poco subgeneri para que simplemente insistáis en otra variante. Vamos a elegir un número al azar entre 1 y 10, por lo tanto estamos hablando de elegir al azar, siempre es una distribución uniforme discreta. Yo la suelo llamar también rectangular. Si X es igual a X entre 1 y 10, elegimos un número Y al azar entre X menos 1 y X menos 1 de los 10 posibles números. Por ejemplo, si yo elijo X igual a 2, pues entonces la Y va a tomar el valor 1, 2 y 3. ¿De acuerdo? Si elijo x igual a 9, elijo el valor 8, 9 y 10. Pero si elijo x igual a 10, solamente elijo el valor 9, que es el x menos 1, el 10 y se acabó. Nada más. No puedo elegir el 11 porque solamente tengo 2. ¿De acuerdo? Eso es un poco quizá la dificultad del problema. Calcular la condicionada, la esperanza, la covarianza, etcétera, etcétera. ¿De acuerdo? La distribución de x es 1 partido 10. Es una distribución uniforme, discreta. Ahora, la de y dado x es un tercio porque siempre elijo 3 valores posibles al azar también. Pero cuando la x varía desde 2 hasta 9 y cuando tengo que elegir solamente 2 valores, es cuando la x varía o el valor 1 o el valor 10, porque si tomo el valor 1, los posibles valores serían el 0, el 1 y el 2. El 0 no existe, lo hago solamente el y por 2. Con probabilidad un medio, aquí tengo. Por lo tanto, la conjunta... Para el producto de las condicionadas por la marginal o la unidimensional, tengo esto, 1 partido 10. Esto está equivocado. En lugar de n tengo que poner 10. ¿De acuerdo? Es decir, 1 partido 10, por lo tanto sería 30. Vamos a ver. Y aquí sería 20. ¿De acuerdo? Bien. Sería un medio por 1 partido 10. Aquí tenéis, por lo tanto, la distribución ahora marginal, que es sumando para los valores posibles de x. ¿De acuerdo? La y varía desde entre 1 y 10, perdón, 1 para i igual a 1, para i igual a 10, para i igual a 2, para i igual a 9, para i igual a 3, 4, hasta 8. Podéis observar cómo la suma vale 1. La esperanza de x vale 11 medios. Es fácil, es una distribución uniforme y discreta. La esperanza de y también vale lo mismo, 11 medios. La esperanza de x al cuadrado hacemos uso de la suma de los cuadrados. Y la varianza de x también hacemos uso de la distribución que toma valor entre 1 y n. Para n igual a 10, perdón, la varianza vale 33 cuartos. La esperanza de y al cuadrado vale esto y la varianza vale esto. Por lo tanto tenemos la esperanza y la varianza de x y n. Para calcular la covarianza razonamos de esta manera. Como la media de la uniforme es trivial, acordáis cuál es la media de una distribución uniforme y discreta. Es la semisuma entre 1 y n, 1, 2, 3, 4, n. La media es 1 más n partido por 2. Pues entonces la esperanza de y dado x es igual a x. Si la x es 2, 3, 4 hasta 9, x más un medio es igual a 1. Y x menos un medio es igual a 10. Podéis sustituir si queréis x igual a 1. Serían 3 medios, ¿de acuerdo? Y 20 medios menos un medio, 19 medios. ¿De acuerdo? Por lo tanto la covarianza haciendo operaciones vale 7,8. Simplemente cuestión de sustituir y no tiene mayor mérito, mayor problema. Y por lo tanto la covarianza, perdón, el consciente de correlación es bastante alto. 0,96,1. Aquí el adrede. Tenéis el problema, el consciente de correlación, cuando en lugar de considerar 10 números del 1 al 10, consideramos n números del 1 al n. Para cualquier valor de n obtenemos esta curva que me da dando según los valores de n, yo he tomado para n igual a 10, que estaría por aquí. ¿De acuerdo? El consciente de correlación. De hecho, con el programa matemático. Bien, aquí tenéis que hay algunos compañeros que me lo han preguntado. El profesor Ricardo Vélez le contestó, yo también le contesté, a la hora de sumar y de calcular el momento ordinario de segundo orden de una distribución geométrica. Ahí aparece una serie aritmético-geométrica, era la dificultad. Yo lo que he hecho es generalizarlo. Bueno, supongamos que tenemos una moneda con probabilidad P de salir cara y tengo una urna con A bolas blancas y B bolas negras. Lanzo la moneda hasta que aparece la cara, siendo T el número del lanzamiento necesario para que aparezca la cara. Después se extrae con reemplazamiento, ¿de acuerdo? T bolas de la urna, siendo N el número de bolas blancas extraídas. Calcular la esperanza de T y T al cuadrado para cada T mayor o igual que 1 calcular la esperanza de N dado T, esto es una curva general de regresión y calcular la esperanza de N y la covarianza. Copio textualmente lo que venía en el examen de 2012 y determinar la función de probabilidad de N si se supiere utilizar esta identidad que aparece en el libro de texto. ¿De acuerdo? Aquí se supone que es para X comprendido entre 0 y 1. En el examen lo que teníamos era una urna, me parece, con unas cuantas bolas, roja y unas cuantas bolas negras, me parece, pero da igual. La idea es cuál es. La variable T sigue una distinción geométrica, como siempre, de parámetro P, el tiempo necesario para que ocurra algo por vez primera. Esto es lo que se llaman los modelos de espera o las distinciones de espera. Por lo tanto, es P por 1 menos P, como siempre le llamo Q, elevado a T menos 1, la esperanza de T al inverso y la esperanza de T al cuadrado. Hay que sumar esta serie, pero es una serie aritmético-geométrica. Hay que calcular por dos veces la suma y multiplicarlo por Q y volver a sumar y restar miembro a miembro. Obtenemos este resultado. Como para T igual a T, la variable N sigue una distribución binomial de parámetro T, el tiempo que yo haya tardado en que aparezca la bola blanca. Y P1 es la probabilidad de sacar blanca en una binomial, que es A partido A más B. En un examen era 3 quintos, me parece, pero da igual. Entonces, la condicionada es esta distribución binomial, en donde P1 tenemos aquí los valores, P1 más Q1 vale 1, etc. Entonces, como siempre, la esperanza de N dado T, que era una de las cosas que aparecía en el enunciado, es la media de esta distribución condicionada, que es una binomial, el producto de los dos parámetros P1 por T. Donde P1 es, vuelvo a insistir, A partido A más B. Y la esperanza de N es la esperanza de la esperanza condicional, es por lo tanto P1, que es una constante, por la esperanza de T, que es 1 partido P. Por lo tanto, es P1 partido P1, siempre lo dejo atrás. A partido A más 2, que es un valor numérico 3 quintos, 2 cuartos, etc. Se sustituye sin mayor problema. Para calcular la esperanza de T por N dado T igual a T, como T igual a T, la T sale fuera aquí, y me queda T por la esperanza de N dado T en la curva anterior, y obtenemos este resultado. Por lo tanto, la esperanza de t por n es, ¿os acordáis que lo estuvimos viendo en los ejercicios teóricos? Es la esperanza de t por la esperanza de n al cuadrado de t. Y aquí es donde utilizamos la esperanza de t al cuadrado que era en el apartado A del examen que se pedía. Para calcular la esperanza de t por n. Por lo tanto, la covarianza es la esperanza del producto menos el producto de la esperanza. Y haciendo operaciones obtenemos este resultado. Por lo tanto, vuelvo a insistir en que p sub 1 es A partido A más B. Y p es el dato del problema, que si la moneda es legal vale un medio. Y como nos parece, apareció en el examen que era 2 tercios o algo por ahí. Lo que he hecho es generalizar. La marginal de n puede ser n igual a 0 o un n mayor o igual que 1. Y n vale 0 y hay que tener cuidado porque entonces esto sale de manera directa. ¿Vale? Estamos sumando el t. Esto es una serie geométrica que no tiene mayor problema. Aquí ya he puesto incluso la solución sustituyendo p sub 1 por A partido A más. Y en el caso de que n sea mayor o igual que 1, haciendo operaciones. Y la obvio porque ya hemos hecho varios ejercicios de este tipo. Y el salto de aquí a aquí. Donde c es todo esto. Es utilizar la fórmula que en el enunciado del problema se aconseja utilizar. Pues obtenemos esta distribución, que es, suena bastante si os fijáis a una distribución geométrica. ¿De acuerdo? Bien. Vuelvo a repetir. No tiene mayor dificultad. Siempre hay que seguir un cierto orden y hacer las cosas pausadamente. este problema es muy parecido por lo tanto lo voy a aviar a los que hemos visto hasta ahora, por lo tanto yo simplemente os lo dejo para que lo hagáis aquí ahora la marginal es decir, el dato del problema por llamarlo de alguna manera, es una definición geométrica ¿de acuerdo? y la condicionada y dado el dato x es una binomial lo único que hay que hacer es trabajar con la binomial y con la geométrica ¿de acuerdo? este problema viene muy parecido en el libro de texto la probabilidad de que una familia tenga x hijos viene dada por un modelo geométrico de parámetro p1 mientras que la probabilidad del nacimiento de un niño es p2, calcular la probabilidad de una familia posea niños, etc. ¿de acuerdo? os lo dejo un poco para que lo hagáis por vuestra cuenta y que lo veáis porque es exactamente lo mismo por ejemplo aquí la conjunta, ¿cómo se calcula? la marginal que es geométrica por la condicionada que es una distribución binomial es cuestión de hacer operaciones si ahora sumo para todos los valores de x obtengo la distribución de es sumar la conjunta, ya sabéis que la interpretación es una proyección dada la conjunta en r2 en el plano la proyección de los puntos porque estamos hablando de variables discretas sobre cada uno de los ejes me da origen a las distribuciones marginales que le estoy llamando que en realidad son las unidimensionales bien, aquí utilizamos de nuevo esta expresión que viene en el libro de texto y aquí obtenemos por fin el coeficiente de correlación Es muy parecido a todo lo que hemos visto y por lo tanto, perdón, no voy a insistir. Veamos el examen de febrero del año pasado precisamente, una variante de la segunda semana. Una urna contiene tres bolas rojas y cinco blancas. Se realiza una primera extracción de dos bolas de una vez. Se observa su color y se devuelven a la urna esas dos bolas y se introducen dos bolas más que coincidan con la del color extraído en la primera extracción. Observad, si habéis bajado el examen, que es parecido pero aquí hay una cierta variación. A continuación se realiza una segunda extracción de otras dos bolas, sea X el número de bolas rojas. En la primera extracción, Y el número de bolas rojas. En la segunda, calcular la conjunta, las distinciones marginales, las medias y las varianzas y probar que la esperanza de Y dado X, es decir, la recta de regresión, perdón, la curva general de regresión, es un quinto de 3 más X. Y deducir a partir de ahí el coeficiente de correctos. Muy parecido. Aquí lo importante es que en la primera extracción yo trabajo con 8 bolas, pero en la segunda extracción, como no solamente devuelvo sino que meto dos bolas más del mismo color de las que haya extraído, en la segunda extracción trabajo con 10 bolas. Por lo tanto, tenemos, cuando en la primera extracción, con el resto lo mismo, no voy a insistir, vamos a calcular la probabilidad de que en la primera extracción no salgan rojas y en la segunda tampoco. Sería la probabilidad de que no salga ninguna roja en la primera extracción. Pues sería 3 sobre 0, por la 5 blanca sobre 2, por la 8 bolas saco 12. Ahora, si no ha salido ninguna bola roja, significa que han salido dos blancas, por lo tanto meto dos blancas más. Por la segunda extracción habrá 7 blancas, de las cuales elijo 2, 2, porque tampoco va a haber blanca, roja que diga, 3 sobre 0 y 10 sobre 2. ¿De acuerdo? Esta es la marginal, x igual a 0, y esta es, ya hay dos bolas más, 10 y sobre x. Pero y igual a 0 dado que es igual a 0. Haciendo operaciones, obtenemos esto. Podéis comprobar que coincide con la conjunta x0 y igual a 1. De igual manera es calculable. Y calcula ahí el resto de las conjuntas, 0, 2, 2, 0, 2, 2, 1, 0, etc. Aquí lo he resumido, pero son cosas bastante elementales en donde se utiliza todo el tiempo la distribución hipergeométrica. Bien, supongamos que ya tenemos entonces todas las conjuntas. Un poquito de paciencia, pero no tiene mayor dificultad. ¿Cuáles son las marginales? Pues sumo para todos los valores de y, para x igual a 0. Entonces x igual a 0 para todos los valores. Y para los valores de y, x igual a 1 hago exactamente lo mismo. Sería la suma de x igual a 1, y igual a y. Y así decididamente. Observar cómo la suma vale 1, la esperanza de x y la varianza. Sin mayor problema. Hago exactamente la marginal de y, y igual a 0, y igual a 1, y igual a 2, calculo su esperanza y calculo su varianza. ¿Cuáles son las condicionadas? Las condicionadas las tenía de antes, pero x, perdón, y0 dado x0, y1 dado x0, es decir, dado x igual a 0, la variable y puede tomar el valor 0, el valor 1 o el valor 2. Aquí tenéis las probabilidades, por lo tanto, para x igual a 0, la esperanza de y será, observar, 0 por 7 quintos, más 1 por 7 quinceado, más 2 por 1 partido por 15, haciendo operaciones vale 3 quintos. De igual manera, si x vale 1, la esperanza de y vale 4 quintos, y si x vale 2, la esperanza de y vale 1. Observar cómo es 3 quintos cuando x vale 0, un quinto más, es decir, 4 quintos cuando x vale 1, y otro quinto más, 5 quintos cuando x vale 2. Por lo tanto, la esperanza de y dado x es 1 menos 2 menos x partido por 5, intuitivo. Observar cómo para x igual a 0 es 1 menos 2 quintos, que son 3 quintos, para x igual a 1 es 1 menos 1 quinto, que son 4 quintos, y para x igual a 2 es 0, haciendo operaciones al x más 3 partido por 5. Como la curva de y dado x es una recta, la pendiente vale un quinto, que aparece aquí. Por lo tanto, un quinto es la covarianza partido por la varianza de x, de donde la covarianza obtengo esto, y por lo tanto, el coeficiente de correlación, haciendo operaciones, y como ya hemos calculado antes la varianza de x y la varianza de y, obtenemos que el coeficiente de correlación positivo, porque la covarianza es positiva, es 0,34 aproximadamente. Yo siempre os propongo... Ya no sea que sea un número decimal exacto, que pongáis la fracción. Vaya, no tiene mayor importancia. Bien, otra variante más. Yo lo que, si observáis, estoy intentando, digamos, mostrar todas las posibilidades dentro del tema. Yo tengo una urna con n bolas numeradas del 1 a n. Les traigo una de las bolas al azar. Si la bola seleccionada tiene el número x, se aparta de la urna todas las bolas numeradas mayor que x. Y se vuelve a seleccionar una segunda bola al azar, con las que queda. Calcular la covarianza entre la primera extracción, que si queréis la llamamos x, y la segunda extracción la llamamos y. Entonces, la primera extracción es una distribución uniforme discreta. Yo le tengo que poner r de rectangular. 1 n. La función de probabilidad de x es 1 partido por n, cualquier valor. Sin embargo, la segunda. La segunda también es rectangular. Pero si yo quito todas las bolas mayores que x, entonces tendré una distribución uniforme discreta o rectangular entre 1 y x. Ya que lo que quito son todas las valores mayor que x. Por lo tanto, esta distribución condicionada es uniforme discreta. La probabilidad es 1 partido x, que son los x posibles valores que quedan, bolas. De tal manera que esta x siempre es mayor o igual que y. Y la y es menor o igual. Porque x es la segunda extracción. Y la x varía entre 1 y n, que es el dato inicial del 2. La esperanza de esta distribución uniforme discreta la conocemos todos, n más 1 partido por 2. La esperanza condicionada de 1x ya sabéis que es el primero más el último, es decir, 1 más x partido por 2, o si no lo calculáis directamente. Y la esperanza de y es la esperanza de la esperanza condicionada, es decir, es calcularle la esperanza a x más 1 partido por 2 y como tenemos el dato de la esperanza de x, que vale n más 1 partido por 2 haciendo operaciones, obtenemos n más 3 partido por 4. Tenemos ya entonces la media de la variable x y de la variable y. La conjunta, como siempre sabemos, es la marginal, es decir, la unidimensional, la ley de x por la ley de y dado x. Por lo tanto, la conjunta, perdón, la esperanza del producto, pues en este caso vamos a utilizar la definición x por y por la distribución de probabilidad conjunta, que es 1 partido en x, y operando convenientemente, teniendo en cuenta que la y y la x están relacionadas de esta manera, la x es mayor o igual que y, por eso sumo desde x igual a y hasta n, y dado. Entonces obtenemos simplemente esto y obtenemos este resultado que no tiene mayor dificultad en calcularlo. A partir de ahí, la covarianza aplicando la definición, la esperanza del producto menos el producto de la esperanza, obtenemos que es n cuadrado menos 1 partido por 24, como n. N, lógicamente, es estrictamente mayor que 1, significa que la covarianza es positiva. Bien. En la diapositiva 35, 36 y 37 son unos ejercicios teóricos que yo os propongo que lo intentéis. Este ejercicio de la diapositiva 35 alude a las desigualdades que hemos visto anteriormente. ¿De acuerdo? Cuando yo decía que se podía acotar la probabilidad de un suceso conociendo algunos datos de las características numéricas. En este caso era la acotación de Chebiché. Bien, esto sería como una especie de variante de la acotación de Chebiché. Intentar demostrarlo, la demostración viene aquí. No tiene mayor dificultad. Y el último dato es también acostumbrarse a trabajar con covarianzas y varianzas. Consideremos n variables aleatorias tales que el vector bidimensional, es decir, x1, x2, x1, x3, x2. x3, etcétera, etcétera, poseen todos el mismo coeficiente de correlación rho. Todo. Demostrar que bajo estas condiciones es posible mejorar la cota del coeficiente de correlación de esta manera. Es decir, rho es mayor o igual que menos 1 partido n menos 1. Con n lógicamente mayor o igual que 2. ¿De acuerdo? Aquí tenéis la demostración. El truco consiste en considerar la variable z como suma de n variables aleatorias. Que ya sabemos que entonces... La varianza de z es la varianza de una suma. Pero la varianza de una suma de variables no es la suma de las varianzas, solamente en el caso de que las variables sean independientes. Pero aquí ya te está diciendo que hay una cierta dependencia porque tenemos una cierta correlación entre todas las variables. Por eso, como aparece en el libro de texto, la varianza de una suma es la suma de las varianzas más todas las posibilidades de covarianza entre xy y xj con yj distintas. ¿Por qué? Si no, no lo he dicho antes, pero la idea de covarianza, el nombre de variación conjunta, es porque la covarianza de x1 con x1 es la varianza de x1. Mientras que la covarianza de x1 y x2 es la variación conjunta de x1 y de x2. ¿De acuerdo? A partir de esta covarianza yo lo sustituyo por la definición del coeficiente de correlación, hago operaciones y obtenemos el resultado deseado. Sin mayor dificultad y sin mayor problema. Bien. Bien, pues con esto he terminado. Si queréis hacer algún comentario, pues yo con mucho gusto os lo aclaro. Y si no, pues nada, me parece muy bien. Y os deseo lo mejor para los exámenes. Sin duda. Bueno, pues muy amable. No sé si es que me he explicado bien. Gracias, Loreto, Clavero. ¿Todo bien? Bueno, pues muy amable por todo. Os deseo lo mejor. Gracias, Loreto. Otro compañero dará el último tema, que es el tema 11, y yo, pues la verdad que ha sido un gustazo estar con vosotros, por lo menos de manera virtual. ¿De acuerdo? Pues buenas tardes y muchas gracias.