Bueno, lo primero es que recordar, no sé si habrá mandado la Secretaría del Centro, yo creo que os mando un correo diciendo que en la última clase es el 10 de mayo, pero yo el 10 de mayo no puedo estar, y entonces voy a adelantar esa clase al día 28 de marzo. Entonces la última semana de marzo tendremos clase el día 28, que es martes, y el día 29, y así recuperamos la clase del 10 de mayo. Entonces vamos a ver, dice... No sé, nos quedamos aquí en ejercicio de significación estadística. Aquí, nos quedamos aquí, que bueno que... Bueno, nos quedamos ahí, vamos a terminar lo de... ¿Veis? Porque hay cosas que... Por ejemplo... No sé si habíamos hecho ninguna que se empleara la TED-STUDEN, y entonces aquí salen casi todos los casos que hay. Entonces esto lo acabamos en unos 10 minutos, y porque hoy empezaremos ya con... Con lo de... Ejercicios de regresión y... Regresión lineal y correlación. Vale. Entonces... Vamos a ver esto. Dice... En una localidad se desea conocer si existen diferencias significativas entre las calificaciones medias, o sea, es un tema de medias, en contraste de hipótesis de medias, o tenía sensibilidad por los alumnos que han estudiado en dos institutos de enseñanza secundaria. Entonces tenemos... Este es de dos muestras. Tenemos una muestra de 20 alumnos del Instituto Sur, que estos tienen una media de 6,3 con una desviación típica de 0,6, y otra muestra, que esta es de 23 alumnos, que es del Instituto Norte. Del Instituto Norte, y estos tienen una media de 5,7 y una desviación típica de 1,2. Estos son menos o mucho menos homogéneos, bueno, la mitad homogéneos que la otra clase, ¿no? Habrá... Habrá gente que haya sacado muy buena nota y otros con peor nota. Dice, para un nivel de significación alfa de 0,05, ¿se puede afirmar que existen diferencias significativas entre las calificaciones medias de ambos institutos? Y después nos dicen también que calcular el p-valor. Bueno, entonces lo primero... Pues estamos en un contraste de hipótesis, hemos dicho que había dos muestras independientes. Cada una de ellas está formada por los alumnos de cada instituto. Queremos comparar las calificaciones medias. Lo que pasa, dice, mediante un estadístico que permita concluir si existen o no diferencias significativas. Como no nos dicen en sesgo, pues es bilateral, ¿veis qué pone? No ponemos mayor o menor, sino una desigualdad. Una desigualdad. En la hipótesis alternativa. Dado que no existe una dirección de las diferencias, el contraste es bilateral. La hipótesis nula señala que no hay diferencias entre las calificaciones de ambos institutos. Bueno, que los dos, las medias son iguales. Y la alternativa, que es la H1, indica que sí que hay diferencias entre ellas, pero no señala si es mayor una u otra. Por eso... Por eso hablamos de un contraste bilateral. Los datos resumidos son, el instituto sube. Pues el número de alumnos son 20, la media... Lo que hemos dicho antes, ¿no? La media y la desviación típica que nos han dado. El contraste es bilateral. Entonces hay que considerar dos colas, por tanto, en el área correspondiente del nivel de significación. Si fuera, por ejemplo... Bueno... La T de estudiante también tiene esta forma, ¿no? Más apuntada que la campana de Gauss de la C en distribución normal, pero sí. Entonces tendrán dos colas, como hemos dicho, 0,05, cada una tendrá 0,025, cada una de estas. Dice, al utilizar el estadístico de contraste, que el estadístico de contraste, al ser menos de 30, las muestras son muy pequeñas. Son 20 y 23. Pues no utilizaremos la Z, sino que se utiliza la T de estudiante. Vale, entonces... El cálculo, ¿no? Será así, será el cálculo de la T empírica. Es decir, utilizaremos la otra tabla, no la de la Z normal, sino la de la T de estudiante. Entonces, pues hacemos el contraste. El contraste, como le he dado las muestras... Pues lo haremos según las fórmulas que tenemos, que... Bueno, estaban... Ay, perdón, eso no tenía... ¿Dónde estaba aquí? ¿Estamos haciendo? ¿Haciendo? Va aquí. Es que le cuesta mucho pasar, ¿veis? Teníamos... Al principio, teníamos... Estaríamos en pruebas de hipótesis. De dos muestras. Y como es una muestra pequeña, utilizaremos estas fórmulas, ¿no? La T empírica la haremos una media... La media de una muestra menos la media de la otra muestra. Y en el denominador es el error típico de la diferencia. Que como se calcula eso. Primero calculamos... El error típico para una. El error típico de la otra muestra. Como es T de student, ¿veis? No ponemos aquí solo N. Ponemos N-1, ¿vale? No es como aquí, que ponemos N... Solo N-1, si no... ¿Veis? N-1 tenemos en el denominador. Y esto, la S, pues es la desviación típica que nos han dado de cada muestra. Una vez que tenemos estos dos valores... Podemos calcular esto, que es igual a una raíz cuadrada. Pero no de esto, sino del cuadrado, ¿veis? Que aquí se eleva al cuadrado. No cometamos el error de poner raíz cuadrada del error típico de una muestra más el error típico de la otra. No es el cuadrado del error típico, ¿lo veis? Una muestra más el cuadrado del error típico de la otra. Bueno, eso es la fórmula que utilizamos. Que vamos a verlo aquí. Aquí en este ejercicio. Bueno, ¿veis? Es esto. Entonces, lo más laborioso aquí... Bueno, esto lo tenemos. Que son las medias de cada uno. Eso es el numerador. Lo más dificultoso es calcular este, el error típico de la diferencia de las medias. Porque para ello primero tenemos que calcular. El error típico del instituto 1... Que era, nos lo daban, utilizamos en la deviación típica partido por n, eran 20 alumnos menos 1. Nos daba esto. En el otro instituto, que era la deviación típica, hemos dicho que era el doble, era 1 con 2. Partido de aquí eran 23 alumnos, por la raíz cuadrada de 23 menos 1. Nos daba esto. Y ahora con esto ¿qué hacemos? Lo elevamos al cuadrado. ¿Veis? Está aquí. Y calculamos la raíz cuadrada. Entonces nos da esto, que es el error típico de la diferencia. Viene aquí, viene al denominador. Entonces nos sale una T empírica de 2,65. ¿Sabéis que la T de Studen viene...? Bueno, la T de Studen es... En la tabla... Nos viene tal como... Yo creo que es la misma que... Tenéis vosotros también ahí. Es... Nos viene. Esto es para unilateral y esto es para bilateral. Entonces tenemos que hacer caso de esta parte, ¿no? Nos han dicho que era 0,05 unilateral. Pues nos fijaremos aquí, pero tenemos que saber los grados de libertad. Y han dicho que el grado de libertad era n menos 1. Pero es que tenemos dos n, porque tenemos dos muestras, ¿no? Entonces como son 20 y 23... O sea... 20 menos 1, 19. 19 más n menos... O sea, sería... Una muestra sería 20 menos 1. Más la otra muestra, que serían 23 menos 1, ¿no? Entonces será 19 más 22 igual a 41 grados de libertad. Que... Más o menos será por aquí, ¿no? 42... Será esto, ¿no? Dos coma... Porque está muy cerca. Si fuera... Por ejemplo, si nos hubieran dicho 50, ya tendríamos que interpolarlo. Porque estaríamos... Solo tenemos el 40 y el 60. Y tendríamos que... Por una regla de tres decir, bueno, pues... Si la diferencia entre 40 y 60 es un 20... Y aquí corresponde esta diferencia... Una diferencia de 2,21 menos 2. Es decir, de 0,021... A cada grado de libertad corresponde tanto, ¿no? Entonces se lo sumaríamos... Es decir, haríamos una interpolación. Pero aquí no hace falta porque está muy cerca. Entonces 40 es 2,021. Y entonces si volvemos al ejercicio... Nos da dos... O sea... T... 2,021. Y el T empírico... 2,065. Es decir que... Menos 0,21... 2,065... Pasa, por tanto, a la región crítica... Y, por tanto... Rechazamos la hipótesis mula, ¿no? ¿Veis? Aquí es como se construyen los grados de libertad. N-1 del instituto... Más N-1 del otro instituto... 19... O sea, serían 20-1, 19... Y 23-1, 19... En total... 42... 41 grados de libertad. Bueno. Después... Aquí nos hacen ver el P empírico... O sea, el P valor... Pero claro, es que el P valor... Como señalan tan poco es que... Que no tiene mucho sentido. Pero vamos a ver cómo lo... Me refiero a que es lo mismo. Porque el P valor nos va a dar... Casi lo de contraste es igual que el otro, ¿no? Dice aquí... ¿Conclusión podemos llegar con este contraste? O sea, a ver si hay que poner un nivel de confianza del 95%... Porque el nivel de significación... Era 0,05... 1 menos 0,05... Igual a 0,95. Que es el nivel de confianza, ¿no? 95%. El valor absoluto de T empírico es... De lo que nos ha dado, ¿no? De la observación que hemos tenido es mayor... Al valor absoluto del T crítico. Pero solo en una magnitud muy pequeña. Esto es el T empírico... Que es mayor al T crítico... Pero muy poco. Prácticamente es igual. Esta pequeña diferencia es no obstante suficiente... Para rechazar la hipótesis nula... Y aceptar la hipótesis alternativa. Sin embargo, si aumentamos nuestro nivel de confianza... En vez de 0,95 o 0,99, por ejemplo... No, si aumentamos nuestro nivel de... Dice que no está en la región de rechazo... Y entonces no habrá evidencias para rechazar la hipótesis nula. Vale. Entonces dicen, por ejemplo, si meten el 95%... Pues fue un nivel de confianza del 99 o del 98. Y dice, para calcular el p-valor... Para calcular el p-valor... Ya sabíamos, se hace igual que con la tabla de Z... Pero, bueno, si aquí nos daba... Que el T empírico era igual a 2,065... 65, ¿no? Bueno, pues como lo que nosotros... Que hacíamos antes. Mirábamos este valor en las tablas, ¿no? Para ver lo que nos interesaba. Era el nivel de... Cuando lo hacíamos con Z... Nos interesaba saber el porcentaje que representaba esta parte, ¿no? Esto es el valor del p-empírico. O sea, del p-valor de esto. Entonces, lo que pasa es que nosotros ahora tenemos que mirar en las tablas de la T, ¿no? De las tablas de la T de Struden. Y entonces, aquí es que como da el mismo valor... Bueno, tenemos que mirar el valor más cercano. Y es que el valor más cercano sigue siendo el 2,021. Entonces, no podemos hacer... Por eso digo que en este problema no tiene mucho sentido. Esto de mirar el p-valor porque es que coincide con el valor de la tabla. Entonces, aquí diríamos que el porcentaje, ¿dónde lo miraríamos? Este valor, el porcentaje, lo miraríamos con esto. O sea, el... Nos daría que un porcentaje del 0,05% es el p-valor. Que es igual que el alfa, ¿no? Que el nivel de significación. Entonces, no podemos aquí... A ver cómo lo plantean ellos, pero... Dice, para calcular el p-valor en un contraste bilateral debemos tener en cuenta las dos curvas de distribución del p-valor. Es la probabilidad determinada por la región a la izquierda del T empírico. Buscamos en la tabla de la distribución de Studen el valor del T más próximo al T empírico. Y claro, como nos ha dado esto, el valor más próximo es el mismo que alfa, 2,021. Recordemos que seleccionamos G grados de libertad 40 porque la tabla no aparece grados de libertad 41. O sea, vemos la probabilidad correspondiente a ese T mirando la fila superior de la tabla. Que es lo que hemos hecho antes. Mirar en la parte superior de la tabla que nos da este 0,05. Que es el porcentaje, ¿no? No el porcentaje, no, la probabilidad que representa ese p-valor. Entonces, dice, miramos... ...el p-valor. Y que nos indica un valor de 0,05. Es decir, el p-valor es muy próximo al nivel de significación. En realidad, algo menor porque tenemos 41 grados de libertad. Y como veis cada grado de libertad lo que hace esta tabla es disminuir. Veis en la T de Studen cada grado de libertad. Por ejemplo aquí veis 28 grados. Para este nivel de significación es 3,313. Pero 29 ya es 1,311. Es decir, va disminuyendo, ¿no? Entonces, para el 41 grados de libertad en este caso sería un poco menos de 41. Entonces como va disminuyendo nos dice que... Es decir, el p-valor es muy próximo al nivel de significación. En realidad, algo menor porque 41 grados de libertad no es 40. El valor para 41 grados solo podríamos comprobarlo con programas estadísticos. Total que nos han metido en esto y no hemos sacado nada. Porque es que era... Ahí no tenía mucho sentido hacer ese p-valor porque era igual, ¿no? Dice ejercicio 8. En una encuesta del CIS se preguntó a los entrevistados sobre la influencia de la última ley de tabaco que ha tenido en su hábito de fumar. A esta encuesta respondieron una muestra de hombres con... Es decir, dividiendo 128 entre 1.259 nos da la proporción de hombres que habían dejado de fumar. Y de las 1.319 mujeres había 147 que habían dejado de fumar. Es decir, la proporción de mujeres era 147 entre 1.319. Es decir, es un caso de dos muestras sin proporciones. Y para un nivel de significación, fijaros qué pequeño, será un nivel de confianza del 0,99. Un nivel de significación del 0,01. Se desea conocer si la proporción de personas de un sexo... que ha dejado de fumar, fuma menos, es significativamente superior. Es decir, aquí ya nos indican un sesgo, ¿no? Ya no es bilateral. Bueno, aquí... De estos ya hemos hecho... No hay ningún problema, es bilateral. Y a ver si nos preguntan por el p-valor. Sí, bueno, pues como nos preguntan... por el p-valor, vamos a... Lo demás es que ya lo... Es simplemente aplicar la muestra... La fórmula para dos muestras en caso de proporción que para dos muestras, como veis, es... es esto, ¿no? Será... Como es una muestra grande, lo hacemos con la z, no con la t de Student. Y entonces es la la p-1 menos la p-2. La p-1, ya hemos dicho cómo se hacía, era de dividir los hombres que habían fumado entre el total y la p-2 las mujeres que habían dejado de fumar entre el total, ¿no? Entonces, aquí, como veis, lo más complejo, lo de arriba, lo tenemos ya. Tenemos p-1 y p-2, los ponemos en el numerador. El problema hasta aquí es para... un error típico de la teoría. La diferencia de la proporción. ¿Cómo... cómo calculamos esto? Como veis aquí, dentro de... de... Dentro de la fórmula que se calcula así, es p por q partido por 1 partido... o sea, multiplicado por 1 entre una muestra más 1 entre la otra muestra, ¿no? Y raíz cuadrada. Pero el problema es este p y este q ¿qué es? Porque claro, tenemos dos p distintas. Una para una muestra y otra para la otra. Lo que hacemos es calcular, digamos, la media de las muestras, porque hacemos el número de elementos de una muestra por su proporción más el número de elementos de la otra muestra por su proporción partido con la suma de... de las dos n, ¿no? De los... de las dos muestras, ¿no? Y entonces, con esto digamos que conseguimos una media de la proporción. Para... ponerla aquí. Esta es la p que vamos a poner aquí. 0, 1, 3, 3, 8 va aquí. Y q pues va a ser 1 menos 1, 0, 1, 3, 3, 8 que perderá esto en la q. Y después esto es 1 partido por por los... una muestra más 1 partido por otra muestra, ¿no? Son tres productos. ¿Vale? Y la raíz cuadrada de esos tres productos. Aquí lo más curioso es cómo se consigue la p que se pone dentro de esta fórmula. Que esa p, como veis, es una media. Se consigue con esta fórmula, ¿no? De el número de elementos de una muestra por su probabilidad más el número de elementos de una muestra por su probabilidad partido por la suma de las dos muestras. Lo demás ya no tiene mucho... Entonces nos dan aquí una zeta de 3, 4, 3. Aquí calcular el p-valor pues tampoco va a tener demasiado sentido porque... Nivel de confianza del 99%, pues si os acordáis que lo teníamos por aquí en... El 99% en unilaterales 2,33 ¿Vale? Entonces si vamos a 2,33 nos ha salido 3,4 Esto está ya al final del todo. Aquí sería 2,33 nos ha salido que sería la p crítica y nos ha salido 3,43 la p empírica ¿No? Entonces calcular el p-valor sería lo que vale esto pero esto está ya al final de toda la cola porque es que si nos fijamos en la tabla de la zeta si nos fijamos en la tabla de la zeta, bueno no nos dará, no podemos calcularlo la tabla de la zeta nos llega hasta 3,9 Como nos ha dado ahí Como nos ha dado 3,3 3,43 Espera a ver 3,43 Pues estaremos en este valor ¿No? 0, 4,997 A ver Lo que hay ¿Qué está pasando aquí? Hasta aquí ¿No? 0,4997 Y hasta el final 0,5 Entonces el valor de esto será 0,5 menos 0, Espera lo voy a poner de lado Es que esta pizarra es una cosa enseguida te sales de No, ese sería el valor del p-valor Vale Sí, el valor crítico de zeta hemos dicho que como era de un nivel de confianza del 0,99 que es un alfa del 0,01 era 2,33 El valor que nos ha salido es 3,43 y entonces es 0,5 menos 0,4997 que lo que nos da las tablas este es el p-valor Este es el cálculo del p-valor Se trata de una probabilidad muy por debajo del nivel de significación y por tanto permite rechazar la hipótesis nula Bueno, vamos a dejar ya de hacer es que además como están todos resueltos y ya no sale nada nada nuevo que no hayamos hecho pues vamos a dejarlo contra esta hipótesis sabéis que tenéis todo este aquí queda un problema o dos de resolver me parece que es bueno, solo uno solo nos queda este problema de resolver y mmm que más tenéis los contra esta hipótesis de las vuestras este está también todo resuelto y no lo hemos visto bueno, no sé si lo hemos visto no, veis, solo vimos uno y seguimos está todo esto sin ya con que se puede ver porque están corregidos para que podáis hacer más ejercicios estos son todos de dos muestras y de algunos que salen así cosas raras o eso, también los he podido repasar entonces ya daríamos lo de el contraste de hipótesis lo daríamos ya por finalizado y entonces pasaríamos al tema 2 que sería de regresión y todo esto vamos a ver primero vamos a ver esto que lo más de lo que es la en realidad esto que es lo de regresión lineal y todas estas movidas en realidad se trata de ver por ejemplo hay un estudio que es muy curioso lo estaba leyendo el otro día que bueno, no sé si sabéis que pronto va a entrar el fenómeno del niño en la costa de en la costa de Chile, en el Pacífico que se calientan más las aguas, es un fenómeno que está el niño y la niña y entonces vienen durante 3 o 7 años entonces unos estudiosos de la Universidad de Barcelona pues quisieron ver si había relación, bueno no iba por ahí el tema, ellos lo que querían saber era, estaban analizando la laguna de la Yucanta, es una laguna que está entre Teruel y Zaragoza y entonces es una laguna que tiene periodos que se seca del todo y periodos que tiene agua y entonces lo estaban analizando a ver si tenía que ver si estuviera llena o vacía con el nivel de precipitaciones que había en un pueblo de esa comarca que se llama Daruca pero quisieron ver luego a ver si estaba relacionado con temas más grandes y entonces vieron que había una correlación entre los años de sequía de del niño o sea, de la laguna y los años en que estaba el niño en el Pacífico hicieron una correlación y entonces calcularon una correlación entre los datos de la laguna del nivel de agua de la laguna y los grados de temperatura del mar, del Pacífico entonces son dos variables estaban correlacionando dos variables las dos variables además si os fijáis son bueno este año no lo estudiamos pero sí que lo estudiaréis en primero había variables que eran nominales otras eran numéricas tienen que ser variables continuas variables numéricas continuas es decir que pueden tener decimales números que pueden tener decimales para las variables nominales utilizaremos las tablas de contingencia que veremos en el último tema estas variables no, estas variables son variables continuas y entonces correlacionaban las dos variables y con eso con esa correlación vemos si existe una correlación la fuerza que tiene esa correlación que se calculará con que se calculará con la R de Pearson como veis la R de Pearson se puede calcular de un montón de formas así, se puede calcular así se puede calcular con esta otra fórmula bueno y entonces con la R de Pearson si le elevamos el cuadrado vemos el coeficiente de determinación eso quiere decir cuánto incluye una variable en la otra y ellos por ejemplo vieron que la niña, los datos de temperatura del mar del frente de Chile influían sobre un 30% en que estuviera seca o no o sea en el nivel de agua de la laguna no mucho si fuera una correlación fuerte pues es del 100% la correlación de la R de Pearson va desde menos uno a más uno pues es correlación negativa o positiva cuanto más crece uno más crece el otro positiva o al revés negativa entonces como basta uno pues un 30% un 0,3 bueno y eso es una tercera parte del nivel que pueda tener la laguna responde a la temperatura del mar del Pacífico eso es hacer una correlación entre entre datos vamos a ver aquí por ejemplo vamos a ver bueno todas estas cosas haciendo problemas se entienden mejor entonces por ejemplo aquí dice en una encuesta que que hizo el organismo de transportes y comunicaciones a 1500 hogares españoles se obtuvo los siguientes datos relacionados, entonces vieron eh los viajes al extranjero que habían hecho los jóvenes 8 jóvenes en este caso son muy pocos, pero bueno 8 jóvenes y los viajes que habían hecho sus padres para ver si había una relación entre ellos tal como lo ponen aquí veis cuando ponen dos variables la X es el viaje de los padres y cuando lo ponen así normalmente perdón en la X se pone la variable independiente es decir la variable que pensamos que condiciona a la variable dependiente, es decir si tal como está planteado parece que el investigador piensa que de padres viajeros hijos viajeros entonces van a hacer a ver si si podemos hacer esto primero añadir la recta de regresión la recta de regresión esta sería los valores de X van abajo aquí pondríamos los valores de X y aquí los valores de Y y entonces para una X de 10 pues nos da una Y de 6 entonces aquí marcaríamos un punto para 15 nos da 18 y entonces nos salen unas digamos que nos sale una nube de puntos la recta de regresión es una fórmula es una fórmula de la recta que va entre medio de la nube de puntos digamos de la forma más equidistante con la ley de mínimos cuadrados y tal pero entonces va esto sería la recta de regresión podemos hacer la recta de regresión de X sobre Y que nos dice que dándole valores a X obtenemos valores a Y o al revés dándole valores a Y de valores a X entonces nos pueden salir dos rectas de regresión y con la recta de regresión ¿qué pasa? pues tenemos sabemos que en su fórmula la fórmula de la recta de regresión es esta es Y Y igual A más B por X dándole valores a X si sabemos A y B sabremos el valor de Y es decir nos puede ayudar a predecir es decir si sabemos los valores de X en este caso el número de viajes al extranjero de los padres podemos saber sin creer todo dentro de probabilidades podemos saber el número de viajes que realizarán los hijos porque aquí por ejemplo tenemos estos valores de los padres pero por ejemplo no tenemos si un padre hubiera hecho 13 viajes aquí no está pero con la recta de regresión sí que podríamos poner en la X el valor 13 y nos diría cuántos viajes harían los hijos es decir tendría una cierta capacidad predictiva la recta de regresión entonces vamos a hacer todo esto y entenderemos mejor todo esto la recta de regresión y el coeficiente de correlación el coeficiente de correlación es como hemos dicho antes la R que se podía calcular de tres formas distintas veremos distintas formas también de cómo lo podemos calcular vamos primero a hacer la recta de regresión cálculos para hacer la recta de regresión se van a utilizar medias y varianzas y covarianzas los cálculos que tenemos que hacer estos son los más fáciles de hacer hay algunos hay otras formas de calcularlo que son más complejas pero esta es la más fácil esto nos lo dan ellos la X los valores de X y los de Y tenemos que sumarlos tenemos que calcular los sumatorios después tenemos que calcular X cuadrado y su sumatorio después el producto de X por Y y su sumatorio y Y al cuadrado y su sumatorio todo eso después además tenemos que calcular las medias la medida de X pues será sumar 10, 15, 5 entre 8 la media de Y lo sumamos y también entre 8 para hacer correlaciones otra cosa es esto para hacer correlaciones tenemos que tener estos dos números son 8 y 8 o sea 5 y 5 tenemos que tener el mismo número tanto en la columna X como en la columna Y vale entonces nos salen las medias ya tenemos con esto todos los datos con estas cuentas para calcular la recta de regresión se trata de calcular A y B siempre empezamos por B calculamos la B en la fórmula para calcular la B esto que hay arriba es la covarianza y esto es ese cuadrado de X es la varianza de la columna X nos lo proponen con esta forma sumatorio de X cuadrado partido por L menos la media de X al cuadrado nos da en la varianza esto la covarianza se utiliza en esta columna que hemos calculado X por Y la covarianza es sumatorio de X por Y partido por L menos el producto de las dos medias y nos da 12,6 entonces B ya lo podemos calcular B será 12,6 que es la covarianza menos la varianza de X y nos da 0,58 la fórmula de la recta es esta pero claro también estará dentro de la línea porque esto es la fórmula de una recta si esta recta es así dentro de esta recta también estará su media entonces como veis esta fórmula de aquí es igual pero con las medias la media de Y es igual a más B con la media de X estas dos cosas ya las sabemos pero además ahora ya sabemos también la B que es esto de aquí, con lo cual nosotros tenemos que despejar la A la A despejada nos queda así nos queda A es igual a la media de Y tened en cuenta que aquí esto es la media casi no se ve la barra la media de Y menos B por la media de X, tenemos ya todos los datos A es igual a la media de Y que sabíamos que era 10 con 1 porque lo habíamos calculado aquí ¿no? menos B que lo hemos calculado que es 0,58 por la media de X que era 5,4 que ya lo habíamos calculado antes con lo cual A es 7 por lo tanto la fórmula de la recta de regresión es esta esta es la fórmula dándole valores ahora a X que son los de Y y no lo sabemos, o sea X son los viajes de los padres pues ahora ya podemos dar cualquier valor de los viajes de los padres 13 pues sería 0,58 por 13 más 6,89 nos darían los viajes que harían los hijos ahora hemos hecho esta recta que es la de dándole valores a X y predecimos los valores de Y pues ahora vamos a hacer la otra otra recta que sea dándole valores a Y nos dirán lo de X sabiendo los viajes que han hecho los hijos podemos predecir o saber los viajes que hicieron sus padres para hacer eso eso no nos lo han pedido porque sólo nos decían la recta de regresión que ya está así que nos pedían en el problema el cálculo del coeficiente de correlación además de la recta ¿cómo se calcula esa R de Pearson? ya hemos dicho que se podía calcular de varias formas pero vamos a utilizar para nosotros esta fórmula que será la raíz cuadrada de B por B'B ya la sabemos B es la de esta fórmula B es esta B que vale 0,58 B' será la de la de X sobre la Y que será que es igual que esta lo único que he cambiado sería X igual a más B y sería en la otra recta ¿no? a ver veis entonces hacemos la covarianza ya no sirve porque ya la teníamos esto ya lo teníamos lo único que nos falta para hacer B' B' es es esto sería A' y este sería el valor de B' ¿vale? lo único que es en vez de Y igual a más 0,30X pues ahora es X igual a A más 0,30Y ¿lo veis? entonces estamos calculando B' en la otra recta la que predice o la que dice los viajes de los padres en función de los que han hecho los hijos y se calcula igual no B' igual que B esta es igual porque lo mismo da para una recta que otra pero esta tiene que ser la desviación de X la desviación típica de X que es el sumatorio de Y cuadrado partido por N menos la media de Y al cuadrado nos da 41,4 que lo ponemos aquí pero con que idea con la de hacer esta recta de reacción de X sobre Y no nos la pedían solo era para poder calcular R, bueno ya que estamos aquí pues también podemos calcularlo porque en este caso la A pues era como tenemos ya el valor de B y sabemos las medias pues tenemos que la media de X es esta es la media de Y y esto es esta es la B' y esta sea la A entonces la A será bueno lo calculamos y nos da esta es la recta de reacción de X de Y sobre X no, de X sobre Y decimos siempre primero la primera de X sobre Y y la de Y sobre X igual A más BX vale y esta es igual vale entonces para calcular el coeficiente R de Pearson es raíz cuadrada de B por Y nos da un coeficiente de 0,42 0,42 el máximo que puede tener R en positivo es 1 más o menos bueno es hay correlación pero tampoco es muy grande pero vamos a mirar lo de la recta y que significa la A y la B así gráficamente si bueno aquí ponían bueno vamos a seguir acabamos el problema y seguimos el coeficiente R nos dicen 0,42 y que indica una relación moderadamente baja entre el número de viajes que realizan los padres y el que realizan los hijos si obtenemos el valor esto sería el coeficiente de determinación el coeficiente de determinación es R al cuadrado multiplicamos 0,42 por 0,42 y se nos sale 0,1764 un porcentaje es 17,6 y esto que quiere decir dice pues que solo el 17,6% de la varianza conjunta es explicada por la variante independiente esto que quiere decir en nuestro caso el número de viajes de los padres el número de viajes que hayan hecho los padres solamente predice un 17,6 del número de viajes que realizan los hijos en cambio la temperatura del agua del pacífico pues explicaba un 30% del nivel de agua de la laguna de gallo canta esto es una correlación entre dos variables y después la segunda pregunta nos decían si era positiva o negativa decían que era positiva porque la fórmula B es positiva la fórmula que nos ha salido B es positiva el positivo es 0,58 al ser positiva dice que la dirección es positiva porque B es positiva después nos hacían otra pregunta que ya es utilizar la fórmula que hemos conseguido que dice ¿cuántos viajes al extranjero podríamos suponer que va a realizar un joven cuyo padre salió ocho veces? que ahora aquí no lo sabemos porque aquí no nos sale un ocho sino digamos vos tanto aquí no hay un ocho entonces tenemos que poner la X y sustituirla por el ocho y entonces vamos aquí aquí la fórmula es Y igual a 68 más 58 por X si X es 8 Y es más o menos 12 viajes sustituyéndolo aquí serían 0 es que no he hecho las cuentas pero sería 0,58 por 8 y lo que nos da le sumamos 6,89 y sale 11,53 pues pone ahí más o menos 12 viajes pues como tiene que ser no va a hacer 11 viajes tiene que ser un número entero de viajes más o menos hace 12 viajes voy a realizar un joven cuyo padre haya salido ocho veces al extranjero y después la última pregunta dice que representemos gráficamente representa gráficamente las rectas X sobre Y Y sobre X y comenta el resultado está esto la representación gráfica ¿cómo representamos las rectas? bueno pues si hacemos dos puntos con una fórmula de estas le unimos y ya tenemos la recta entonces aquí por ejemplo aquí han dicho si X vale 2 Y valdrá 8,2 y han puesto este punto pero con esta fórmula sobre X y si X vale 5 Y vale 9,8 más o menos por aquí como ya tenían estos dos puntos pues ya han podido hacer esta recta ya han podido hacer espera que lo vamos a hacer decente ya han podido hacer esta recta y aquí pues lo mismo esta sería la recta de X sobre Y en X sobre Y dicen para un Y que vale 1 que es este Y para un Y que vale 1 X vale 2,7 entonces ya tenemos un punto de esa recta y para un Y que vale 3 que es este X vale 3,3 entonces ya tenemos este otro punto y aquí han unido nuestros dos puntos ya está esto simplemente de verlo vemos más o menos la fuerza de la correlación que tienen y esa fuerza cuando se cruzan las dos rectas de regresión por ejemplo si se cruzan así eso quiere decir que no hay ninguna correlación, R sería 0 R de Pearson sería 0 no habría correlación y cuando se cruzan la correlación mayor es cuando las dos prácticamente están en una misma recta si estuvieran las dos en una misma recta entonces diríamos que R es 1 y que habría una alta correlación esta pues tiene una baja correlación porque ya hay ahí un ángulo importante, si el ángulo es de 90 no hay correlación y contra menor sea el ángulo más correlación habrá y después de lo que es A y lo que es B y todo eso había una cosa veis aquí B, A es el valor de A en esta recta es este punto es cuando se cruza con esta abscisa con este eje vertical ¿no? y B ese es la inclinación que tiene la inclinación de la recta dice si B es mayor que 0 tiene tendencia positiva que nos han preguntado antes si era la recta positiva o no pues si en la fórmula nos sale que B es positivo tiene pendiente positiva si la B es igual a 1 o tendremos una recta con una pendiente de 45 grados si B es igual a 1 esta recta sería vendría esta recta más o menos vendría así ¿no? tendría una pendiente de 45 grados si B es mayor que 1 tendría una pendiente de 45 grados o sea es menor que 1 tendremos una recta con una pendiente menor de los 45 si B es igual a 0 la recta si B es igual a 0 la recta será paralela al eje horizontal y el valor de I será constante si A es igual a 0 pasará por aquí porque como A es por donde corta al eje vertical si A es igual a 0 pasará por aquí la recta y ya pues bueno ya veremos más cosas a ver si tenemos si nos da tiempo estábamos aquí en ejemplo la regresión habíamos visto todo esto ya y ves aquí coeficiente fuerte cuando las rectas están la de X sobre I están juntas una correlación fuerte cuando están en la misma recta es este caso es una correlación total y entonces la R de Pearson si la calculáramos valdría 1 aquí la R de Pearson sería 0 vale porque no habría correlación la R nos dice o sea si hay correlación la R nos dice que tiene esa correlación y después el cuadrado de R nos dice que es el suficiente de determinación nos dice en qué porcentaje la variable independiente explica la variable dependiente vale bueno y después aquí tendríamos pues otra forma de calcular lo mismo que hemos hecho antes con los mismos datos y todo estos son lo que han viajado los padres esto es lo que viajan los hijos pero si antes calculábamos y decíamos que los cálculos sean había que calcular las dos medias y había que calcular X al cuadrado Y al cuadrado y X por I y sumar todas las columnas bueno pues aquí esta forma no me gusta nada es porque calculan la varianza y la covarianza con otra manera con la diferencia de medias entonces es más larga y más fardagosa a mí me gusta mucho más la otra pero bueno si aquí lo tenéis todo solucionado nos quedamos aquí acabamos de ver esto y bueno en la siguiente clase seguiremos con todo esto con el cálculo de la R de Pearson la recta de regresión con exámenes que han hecho sobre este tema bueno pues nada muchas gracias por vuestra atención vale y hasta la semana que viene y acordaros de eso de que la última semana de marzo tenemos dos clases seguidas tenemos el 28 y el 29 porque el día 10 de mayo no puede estar venga hasta la semana que viene