Hola, buenas tardes. Comenzamos hoy con el tema 8, análisis de relación linear simple y múltiple. Con este tema cambiamos de tónica en el sentido de que cuando hemos estado viendo todos los temas anteriores trataban del análisis experimental de una serie de datos. En el análisis experimental básicamente el experimentador, el investigador tiene acceso a una variable que él puede manipular perfectamente y comprobar su efecto en otra variable dependiente como mínimo. Es decir, tiene control sobre la variable independiente. Entonces, eso es el experimento. ¿Pero qué pasa cuando no podemos hacer eso? Hay muchas situaciones en la vida real en las que no podemos manipular la variable que nosotros queremos manipular por razones éticas o por razones simplemente de que sí, no está fuera de nuestra capacidad. Por ejemplo, no podemos manipular de momento la temperatura de nuestro planeta. No podemos manipular el grado de luminosidad que nos viene del sol. Hay un montón de variables que no podemos manipular y en psicología pasa otro tanto, bien porque no las conozcamos o bien porque éticamente no sea posible. Es decir, hay unas normas éticas que no podemos incumplir. Entonces a mí me gustaría manipular el nivel de testosterona de los hombres que maltratan a las mujeres por ejemplo para comprobar si efectivamente esa hormona tiene algún nivel de relación con la violencia que ejercen estos hombres. Pero obviamente me estaría imposible éticamente, legalmente manipularla. Esas personas se van a negar que tienen sus derechos. Legalmente yo estaría cometiendo un delito y éticamente no me lo puedo permitir. Entonces ¿qué pasa en esas situaciones? ¿Me cruzo de brazos y no hago nada? Hay una gran cantidad de situaciones en donde nos encontramos que no podemos manipular ciertas variables y queramos investigarlas porque son importantes. En ese caso tenemos que hacer uso de las técnicas correlacionales. Dentro de las técnicas correlacionales, de la enorme variedad que hay de ellas, tenemos el análisis de regresión lineal que es simplemente observar dos variables sin manipular ninguna y ver si entre ellas existe cierta relación. Vamos a ver los tipos de relación que pueden haber. Entonces básicamente el tema de regresión lineal, vamos a saber qué es un asunto de regresión cuando no estamos en un contexto experimental y cuando lo que queremos es hacer una predicción. No como la de las videntes, etcétera, no. Una predicción fundada en datos. Vamos a ver cómo se hace eso. Y para ello entonces tenemos el análisis de regresión. La regresión puede ser de diversos tipos, lo vamos a ver con atención, pero aquí no vamos a fijar solamente en la lineal, una línea recta. Simple y múltiple se refiere únicamente al número de variables independientes que tengamos. Es un exceso verbal hablar de variable dependiente e independiente en este contexto. Por la sencilla razón de que no hay variable independiente ni dependiente, no estamos manipulando nada. Sin embargo, lo más correcto sería utilizar los términos variable predictor y variable predicha. Pero como es un poco enredoso vamos a hablar de variable dependiente e independiente sabiendo de antemano que no estamos manipulando nada. Es una forma de que nos resulten más intuitivos los conceptos. Pero no estamos manipulando nada. Variable independiente es la que vamos a utilizar para realizar la predicción y variable dependiente la variable predicha. Entonces, para realizar esa predicción podemos tener una única variable independiente o varias y en la diferencia entre simple y múltiple. Una vez dicho esto, nos metemos con el tema. Diseño es post-factor. Post-factor significa posterior al hecho, retroactivo. Es decir, son diseños en los que tú observas algo y luego tratas de explicarlo. Se caracterizan porque el investigador no puede manipular intencionalmente la variable independiente. Es decir, la variable que vamos a utilizar para predecir. No puede manipularla por lo largo que sea. La puede medir pero no manipular a su antojo. No puede asignar aleatoriamente los sujetos a los diferentes niveles de esa variable. Nosotros trabajamos con sujetos. Pero la realidad nos impone los valores de la variable independiente. Por consiguiente, no podemos aleatorizarlos. Cuando tenemos estas dos situaciones, el investigador selecciona a los sujetos en función de que posean o no determinadas características pero ni están manipulando nada ni están asignando al azar los sujetos a ninguna condición. Cuando nos encontramos en esa tesitura, en ese tipo de situación necesitamos un proceso de análisis porque hay muchos datos en ese tipo de áreas que nos resultan interesantes. Uno de los tipos de análisis que podemos utilizar es el análisis de regresión o de correlación. Análisis de regresión y correlación. Están muy relacionados aunque no son exactamente lo mismo. Y podemos estudiar siempre que una variable cuantitativa, la variable dependiente, la variable predicha la estudiamos como una función de una variable independiente o de varias variables independientes o predictoras. Entonces cuando estudiamos la variable dependiente en función de una única variable independiente estamos en análisis de regresión simple o ARS. Y cuando hay más de una variable independiente se conoce como análisis de regresión múltiple. Veremos en la primera parte del tema el primero y en la segunda el segundo. Lo más importante de esto es que si se entiende el análisis de regresión simple el análisis de regresión múltiple es una ampliación, se utilizan los mismos conceptos, las mismas ideas las ecuaciones se complican un poco pero es lo mismo. Vamos a ver que con una única variable independiente se puede visualizar la relación con dos variables se puede visualizar la relación pero con más de dos variables no podemos verlo pero da igual, da igual porque los conceptos se amplían Las ecuaciones se introducen en más niveles pero los conceptos siguen siendo exactamente los mismos. Entonces vamos a prestar mucha atención al análisis de regresión simple que es lo más interesante. El análisis de regresión simple fue desarrollado inicialmente por Galton Sir Francis Galton, primo de Charles Darwin el creador de la teoría de la evolución Este señor era muy interesante Galton iba por las ferias de los pueblos con una serie de aparatos para medir fuerza física, velocidad de reacción capacidad visual, una enorme cantidad de pruebas psicométricas y les hacía pagar a los propios sujetos por someterse a esos experimentos y el sujeto se iba al final con una hoja en oré tenía una estadística de los resultados que había obtenido las diversas capacidades que consideraba y encima le pagaba a Galton, es decir, era un tío listo. Cuando Galton graficó la altura del padre en relación a la altura del niño supongamos que me coge a mí, me mide mi altura y mide la altura de mi hijo entonces tendríamos un punto en un gráfico, en un diárama bidimensional en donde esta sería mi altura, su bajito y esta sería la altura de mi hijo, el más alto que yo cada uno de los puntos que estuvo en el diárama era un par hijo-padre y observó esta nube de puntos sin demasiada complicación matemática, él dijo hay una relación muy clara estadísticamente aunque no se cumple en todos los casos en la población cuanto más alto es el padre, más alto tiende a ser el niño de hecho parece que hay una línea recta una relación lineal entre la altura del padre y la altura del niño que podría ser una ley que subyace a estos datos así comenzó a investigar y a desarrollar los conceptos de correlación y de regresión lineal y es muy sencillo verlo en un caso de la vida real este caso es de la vida real pero sabemos que los datos aunque tiene una tendencia muy clara más alto es el padre, más alto es el hijo hay mucha discusión de los datos, la relación lineal mucha gente me disputaría que eso es una relación lineal ¿por qué? pues porque no todos los sujetos cumplen hay muchos otros factores en la altura del padre y del hijo hay muchos factores que alteran la relación lineal en un caso comercial por ejemplo vemos que la relación lineal está muy clara si yo voy a comprarme un coche y grafico y pido presupuesto a la empresa está muy claro que cuanto mayor sea la velocidad máxima que alcanza el coche, mayor va a ser el precio y además la relación va a ser absolutamente lineal ¿por qué? porque la establecen matemáticamente y podría ser una relación de este tipo aquí no hay ningún tipo de distorsión es una línea recta clara pero porque la ha definido el comerciante pero claramente lo que indica el término de la relación lineal relación lineal a mayor valor de la variable independiente mayor valor de la variable dependiente la relación podría ser inversa pero voy a hacerlo con los coches en este caso lo importante es que sea una línea recta las líneas rectas básicamente pueden ser positivas como la que vemos en rojo es decir, a mayor variable independiente mayor variable dependiente inversas a mayor variable independiente menor variable dependiente en diversos grados cada una de ellas o podrían ser también planas si fuesen planas veremos que en el contexto de la regresión lineal diremos que la pendiente es cero el grado de inclinación de esa recta vamos a dibujarla en verde para diferenciarla del anterior si tuviéramos una regresión de este tipo vemos que el valor de la variable independiente no me permite predecir nada de la variable dependiente entonces lo que tiene interés son relaciones lineales porque son las más sencillas que sean o positivas o negativas y de hecho uno de los contrastes estadísticos que vamos a utilizar es ver si la pendiente de la recta de regresión que vayamos a utilizar es cero o distinta de cero porque si es cero no podemos utilizar la variable independiente para predecir la variable dependiente aquí tenemos otra serie de datos reales que claramente si a mí me piden juzgarlo se distribuyen de forma lineal yo diría que una buena línea que ajusta esto es la que acabo de dibujar en verde en este caso por ejemplo la relación supongo que habré sacado algún texto empírico entre la edad de años y la tasa de mortalidad de las personas obviamente a mayor edad la tasa de mortalidad se incrementa pero si digo eso nada más estoy haciendo una afirmación cualitativa queremos afirmaciones cuantitativas recordemos lo que dijo un físico hasta que mi conocimiento no esté expresado en números no está el conocimiento por lo consiguiente, aunque todo el mundo estaría de acuerdo que casi como una perugullada diría que a mayor edad la tasa de mortalidad es mayor pero lo importante no es eso lo importante es ver en términos médicos esa relación en este caso podríamos decir que parece lineal y que nos gustaría ver la tasa de esa función lineal eso es asignar números a lo que estoy investigando ahora bien tenemos en este contexto dos variables la dependiente y la independiente la relación empírica en función del fenómeno entre estas dos variables puede ser de muy distinto tipo en este gráfico una nube de puntos cada punto representa una combinación para un objeto de dos variables x e y si me piden juzgar aquí cuál es la relación que existe entre estas dos variables yo diría que es una relación curvilínea si me piden juzgar cuál es la relación en el segundo diagrama yo diría que es lineal y en este otro diagrama diría que es exponencial aquí es lineal negativa y aquí es perfecta vamos, esto no se encuentra en la realidad de ninguna forma lo importante es que los scatter plots es decir, los diagramas de puntos o diagramas de dispersión los diagramas de dispersión cuando graficamos los datos de dos variables puedes seguir distintas tendencias y la tendencia más simple es la lineal todos los conceptos que vamos a ver aquí se pueden aplicar a otro tipo de relaciones curvilíneas, polinómicas, exponenciales de muchos tipos pero hay que aumentar siempre como lo más simple en términos de relaciones entre dos variables es la relación lineal aquí por ejemplo tenemos otro ejemplo que puede mostrarnos la importancia y las precauciones que tenemos que tener con la regresión al no ser una técnica experimental tiene sus pequeños problemas lo que estamos viendo aquí es una gráfica no sé si se ve bien donde en el eje de afisas tenemos los años va desde 1840 al 2020 bueno, 2020 estamos en el 2010 2011 ya estamos aquí vale y en el eje de ordenador la variable dependiente tenemos la temperatura no sé cómo lo han medido porque está entre 0.8 y 0.6 suponemos que es la temperatura media porque la gráfica es incremento de la temperatura global la media de una diferencia de temperaturas vemos que al menos entre 1960 al 2011 donde estamos la relación vamos a ponerlo en otro color en verde por ejemplo que se vea mejor la relación en estos años voy a alinear esto es yo tengo que alinear claramente por debajo de 2060 parece que hay fluctuaciones vemos como si fueran ondas senosidales pero a partir de 1960 donde la industrialización de los países occidentales se produce una especie de boom básicamente después de la Segunda Guerra Mundial 1950 empieza un periodo importante de desarrollo 1960 eso parece ser que empieza a notarse en el clima entonces vemos yo en los años de 1960 al 2011 plantearía una ecuación de regreso lineal como la mejor tendencia de estos datos y es por eso por lo que los ecologistas dicen si esta tendencia es correcta y ahora la extrapolo más allá del 2011 veo los peligros veo los peligros de un incremento importante de la temperatura global de nuestro planeta que puede llevar a gravísimos problemas si la tendencia se extrapola más allá del 2011 y no parece que haya duda siempre hay personas que lo ponen en duda diciendo bueno son técnicas correlacionales no está demostrada la causalidad entre nuestra emisión de CO2 y el incremento de temperatura lo cual es cierto no está demostrado pero la tendencia es tan clara que hay que estar sordo o ciego para no verla este es un ejemplo de aplicación de la regresión lineal y de uno de los aspectos importantes de las precisiones que vamos a ver más adelante si hacemos análisis de regresión múltiple lo que tenemos es lo siguiente tenemos una variable dependiente en vertical y luego tenemos dos variables predictoras la primera podría ser perfectamente este eje y la segunda este otro eje tenemos aquí x2 y aquí tenemos x1 como variable predicha cada uno de estos puntos ahora el gráfico es tridimensional cada uno de estos puntos representa la combinación de tres puntuaciones para cada objeto del que se esté tratando y ahora lo que se ajusta no es una línea recta sino un plano el plano que se ve en color en este gráfico se ajustaría se buscarían los parámetros del mismo y estaríamos en análisis de regresión múltiple si tuviéramos más variables predictoras una x3 o x4 ya tendríamos sería lo mismo pero no podríamos visualizarlo estaríamos en hiperplanos lo que se llama hiperplanos en los casos que vamos a ver tenemos regresión lineal en este caso regresión lineal solamente entre ciertos valores de la variable independiente en este caso entre el año 1960 y 2011 y en este caso ajustaríamos un plano anteriormente tendría sido recta y este sería el plano en las aplicaciones reales de este tipo de análisis por ejemplo uno de los que he contado es el costo estimado para vehículos espaciales del futuro sería una regresión múltiple porque la NASA o cualquier agencia aeroespacial tiene que determinar los costos previsibles de los viajes del futuro para para establecer el budget en inglés el presupuesto futuro, pero obviamente no sabe lo que va a costar un vehículo espacial dentro de 20 años lo tiene que estimar a partir de lo que sabe de cómo han ido creciendo o decreciendo el costo de los vehículos espaciales hasta ahora que es lo que sabemos Entonces comencemos ya con los aspectos formales designaremos a la variable dependiente por i es la variable predicha mientras que las variables independientes por i no representan el grupo representan la variable independiente que estoy utilizando si estoy utilizando solamente una tenemos una x sub 1 si estoy utilizando dos variables para predecir tenemos x sub 1 y x sub 2 etc es decir según el número de variables independientes que se incorporen en el análisis de regresión múltiple hemos visto que la forma de la relación independiente puede ser muy diversa en el caso de análisis de regresión simple se pueden dar relaciones lineales que son las que vamos a tratar exponenciales, potenciales, polinomiales eso ya depende de la realidad depende de lo que nos diga el fenómeno con el que estemos tratando en este texto solamente en el curso solamente vamos a apreciar las relaciones de carácter lineal pero recuerden que todo esto el resto de funciones con la complejidad añadida que eso tiene lo mismo sucede con las relaciones que se pueden dar en análisis de regresión múltiple pero sólo estudiamos el caso en que la variable independiente se puede considerar o expresar como una combinación lineal de dos variables independientes más de dos no se va a utilizar aquí aunque son muy frecuentes en la investigación psicológica aunque el análisis de regresión múltiple es una técnica de análisis para los reseños expofactos también se puede aplicar a situaciones en las que se manipulen condiciones experimentales hemos dicho inicialmente que ANOVA condiciones experimentales REGRESIÓN experimento expofacto eso no excluye que yo no pueda utilizar REGRESIÓN para situaciones experimentales pero por regla general experimentos ANOVAS diseños correlacionales con variables cuantitativas REGRESIÓN conforme se va introduciendo uno en esta área se da cuenta que existen una enorme cantidad de posibilidades de análisis que el análisis de datos no es una cuestión cerrada no es una receta de cocinas tengo esta situación exige una aplicación crítica de mis conocimientos una evaluación inteligente de lo que estoy buscando entonces por esto esta precisión en condiciones experimentales también se puede utilizar la REGRESIÓN por eso las variables independientes pueden tener una ocurrencia natural el sensor, el CI el tiempo que se tarda en aprender palabras la introversión, la ansiedad son cosas que yo no manipulo el senso de un individuo me viene dado su cociente intelectual me viene dado tiene una ocurrencia natural entonces las variables independientes pueden ser de ese tipo o pueden ser variables manipulables en un laboratorio y yo puedo manipular perfectamente el tiempo que presento una palabra en una lista de palabras entonces casi cualquier información que tenga interés para el estudio de la variable independiente puede ser objeto de incorporación en este tipo de análisis es lo que venimos a decir en el sentido de que el juicio del investigador del analista es un criterio fundamental para aplicar un análisis u otro y debería ser un juicio inteligente y crítico y dirigido a lo que quiere investigar no vale un recetario final entonces el análisis de reacción simple vale es que me he dado cuenta que esta transparencia la tenía que haber quitado y no lo he hecho cuando una variable que llamaremos independiente o predictora aporta información sobre otra variable a la que le daremos dependiente criterio que es lo importante que aporte información decimos que estas dos variables están relacionadas y esta información nos puede servir para saber más sobre el comportamiento de la variable dependiente que normalmente es la que nos interesa en el sentido de que el principal foco de referencia es la variable dependiente y estamos utilizando la variable independiente en la medida en que nos aporta información sobre la que realmente nos interesa esto lo hemos visto bueno, las relaciones de esos tipos y el tipo de relación entre las variables la forma de verlo es representando gráficamente todos los pares de valores de ambas variables para cada sujeto para cada elemento de estudio medimos las dos variables a las que estamos interesados x e y, variable independiente e independiente y representamos en un gráfico unidimensional el conjunto de datos visualmente vamos a tener que establecer para aplicar una técnica de regresión lineal, potencial, exponencial etc. la mayor parte creo que todo el tema parte de este ejemplo en donde tenemos 16 sujetos el primer sujeto es que se le han medido dos variables x e y x es una prueba de vocabulario e y el número de errores ortográficos que ese sujeto detecta en un texto entonces, este primer sujeto por ejemplo tiene una puntuación de 3 en esa prueba de vocabulario y detecta 9 errores estas dos puntuaciones pertenecen al mismo sujeto por lo siguiente en un gráfico en donde en el eje x pongamos vocabulario y en el eje y pongamos los errores ortográficos esas dos puntuaciones 3, 9 serán un punto en este diagrama de puntos de esta forma vemos que esa primera puntuación 3, 9 perteneciente al sujeto 1 es el punto donde se cruzan 3 de vocabulario y 9 de errores ortográficos un punto valga la redundancia el segundo pues, el segundo sujeto ha obtenido un 1 en vocabulario y un 7 en errores ortográficos en donde se cruzan esas dos líneas dibujamos otro punto y así seguimos el tercer sujeto con lo mismo ha obtenido un 7 en la variable x y un 12 en la variable y el punto donde se intersectan dibujamos otro punto y así tenemos un diagrama de dispersión en donde claramente si yo veo esto viene muy bien dada por una recta que le vamos a llamar recta de regresión el concepto de regresión proviene de Galton Galton observó que las personas trabajaban básicamente con variables motoras y perspectivas y físicas también observó que los hijos de padres muy altos eran altos pero menos que los padres de la misma forma observó que los niños de padres muy bajitos eran bajos pero menos que los padres es decir, es como si los descendientes de los padres que obtenían las puntuaciones extremas en la variable por ejemplo de altura sus descendencias no eran tan extremas como ellos era menos extrema tendían a la media las puntuaciones extremas tendían a la media regresaban a la media es por eso que este tipo de análisis se llama análisis de regresión lineal después de este curso vemos que yo en este caso veía una relación lineal muy clara ahora bien exactamente si veo una relación lineal muy clara entre este conjunto de datos lo que quiero es determinar una línea recta que ajuste mejor los datos y el problema está en el concepto que es mejor tenemos que cuantificarlo porque si no estamos en un juicio subjetivo del cual huimos absolutamente tenemos que cuantificar qué entendemos por mejor y posteriormente veremos un criterio para justificar ese mejor porque ¿quién me dice a mí que la recta adecuada sería esa y no por ejemplo la siguiente? no ¿por qué no esta? no son exactamente la misma y ¿por qué no esta? no son exactamente la misma ¿cuál de ellas debería escoger? ¿a ojo? ¿hago la recta del sol a ojo? no, lo vamos a hacer en términos matemáticos y una vez que tengamos la recta de regresión nos vamos a olvidar de los datos originales y nos vamos a olvidar de los puntos y todo lo que tenemos es una relación entre vocabulario y errores ortográficos una relación lineal clara bajo la cual aunque se produzcan variaciones creemos que la relación original es una relación lineal parece a mí me me asemeja mucho al concepto del mito de la cova de Platón por decirlo de forma rápida Platón decía que lo que vemos nuestros sentidos nos engañan lo que vemos es simplemente la imagen distorsionada, las sombras de la realidad se imaginaba aún en una cueva desde muy pequeñito y no veía nada más que las sombras que se proyectaban de la entrada sobre la pared que tenía enfrente para él esa era su realidad las sombras que proyectaba el árbol o el hombre que pasaba o el carro que pasaba por enfrente de la de la puerta bueno, la puerta de la entrada a la cueva él veía una sombra de la realidad Platón decía que eso nos pasaba siempre vemos sombras de la realidad dejemos de hablar de los conceptos filosóficos pero aplicado esto es como si la realidad fuera en la línea recta la realidad que se yace a la puntuación en vocabulario y los horarios ortográficos fuera la línea recta con etimedad pendiente y puntos de corte color ordenado y que se ve distorsionada por factores ajenos que es por eso por lo que los puntos no nos aparecen todos sobre la recta entonces buscando la recta de regresión estamos buscando la realidad subyacente a las sombras de Platón seguimos al correccionar el correspondiente diagrama de dispersión o diagrama de puntos de los 16 pares de datos tenemos que ver 16 puntos uno por cada sujeto también he dibujado aquí a la izquierda los datos de una forma distinta a como se presentan en el texto la razón es muy sencilla el texto se hace para ahorrar espacio pero si yo los tuviese que introducir en un ordenador tendría que introducir toda la variable X en una única columna y la variable Y en una única columna el ver esto podría confundirme y pensar que tendría que generar 6 columnas cuando no es así realmente esta sería la forma de introducir los datos en cualquier programa de análisis de datos una vez visto qué es lo que pretendemos al correccionar el diagrama de dispersión o diagrama de puntos de los 16 pares de datos un punto, un par de datos por cada elemento de observación vemos que hay una tendencia ya lo hemos visto y esta tendencia tiene carácter lineal claramente es una línea y positiva en el sentido de que a mayor puntuación en el vocabulario corresponde un mayor número de errores ortográficos sería negativa si se dice la situación inversa hoy estamos hablando de una tendencia, claro porque esta relación a mayor puntuación en el vocabulario mayor puntuación en errores ortográficos no se corresponde siempre en todos los casos no se corresponde con mayor detección de errores por ejemplo, los sujetos 2 y 13 el segundo obtiene una puntuación superior al primero el primero tiene 7 puntos en vocabulario y el segundo 9 y vemos en cambio que el error ortográfico sucede justamente lo contrario entonces esa relación lineal no será en todos los casos no le será siempre por eso se dice que es la tendencia general es directa y positiva es lo que siempre pasa en estadística los datos no se pueden aplicar hay que tener mucha cautela a la hora de aplicarlos al individuo porque los datos estadísticos se aplican al grupo es el clásico chiste bueno, chiste no es... muchas veces sorprende a muchos estudiantes su hilaridad cuando dicen bueno, pues el promedio de hijos por mujer en España es de 0,7 pero cómo puede ser eso si no puede ser qué pasa que han partido un niño obviamente están tratando de un dato estadístico de un promedio no de casos individuales el que el español de 1960 tuviese una altura no sé, de 1'65 eran bajitos o éramos bajitos en aquel tiempo no significa que Pedro alguien puntual tuviera que tener esa altura era un promedio aquí pasa exactamente lo mismo hablamos de tendencias generales y la tendencia general en este conjunto de datos es directa y positiva o antitativas obviamente tenemos que recurrir al coeficiente de correlación de Pearson este coeficiente de correlación es simplemente un valor numérico un número que va entre menos 1 y 1 y que indica el grado de asociación entre dos variables así como su relación positiva o negativa si el coeficiente de correlación de Pearson es 0 no existe relación entre esas variables cuanto más se acercan a los valores extremos 1 o menos 1 más relación existe entre esas variables pero si la correlación es 1 significa que la relación es positiva y si la correlación es menos 1 significa que es negativa a más de uno, menos del otro y cómo podemos calcular el coeficiente de correlación de las dos formas aquí tenemos la fórmula en puntuaciones directas vemos que vamos a denominar a R esa correlación R será correlación cómo subíndice ponemos las variables o los símbolos de las variables de las que se esté calculando la correlación obviamente siempre tiene que ser 2 la correlación siempre se calcula sobre dos variables aquí lo está diciendo que la correlación entre las variables X e Y y es igual a en el numerador tenemos una diferencia en el primer término tenemos N que es el número de sujetos el número de casos, de elementos 16 en el caso anterior multiplicado por el sumatorio de los productos que es la tabla general donde eso se calcula menos este valor numérico que es el producto entre el sumatorio de X por el sumatorio de Y partido todo ello por la raíz cuadrada de otro producto de un producto en la primera parte del producto vemos que lo que hay dentro de cada uno de los factores del producto es similar en un caso que en otro solo que en este caso está relacionado con la variable X una de las variables de la correlación y el otro está relacionado con la otra variable pero vemos que la forma es la misma y la fórmula consiste en la multiplicación de N el número de casos calculamos X al cuadrado cada una de las contracciones divididas al cuadrado y lo sumamos todo ello multiplicado por N y a esto le restamos el sumatorio de X es decir, las X sin elevar al cuadrado la sumamos y luego ese único valor lo elevamos al cuadrado y lo mismo lo hacemos pero con las contracciones de Y y este coeficiente nos da un valor numérico que es el coeficiente de correlación de Pearson obviamente como aquí estamos utilizando las contracciones X e Y directas sin hacer ninguna transformación de las mismas estamos utilizando la fórmula de las contracciones directas a las puntuaciones tipificadas recordemos que las puntuaciones tipificadas se representan con las mismas letras latinas que las directas pero en minúscula si hemos utilizado X e Y para las directas en este ejemplo tenemos que utilizar X e Y para las diferenciales pero en minúscula entonces, si tenemos las mismas puntuaciones iniciales transformadas en diferenciales de correlación se simplifica un poco ahora, en el numerador tendríamos el sumatorio de los productos de las puntuaciones diferenciales de X por Y y en el denominador tendríamos la raíz cuadrada del producto entre los sumatorios de las puntuaciones diferenciales de X al cuadrado por el sumatorio de las puntuaciones diferenciales directas a diferenciales y en el caso de que esta es otra fórmula para establecer el mismo cálculo anterior pero en puntuaciones típicas es decir, sabemos que las puntuaciones se pueden transformar las puntuaciones originales en X e Y las podemos transformar a puntuaciones diferenciales pero es que además las puntuaciones diferenciales se pueden transformar en puntuaciones tipificadas tendríamos tres conjuntos de puntuaciones que representan exactamente el mismo fenómeno pero expresadas en distintas métricas y si tuviéramos esas puntuaciones expresadas en puntuaciones diferenciales perdón, puntuaciones tipificadas o si no las tenemos las podemos calcular ahora el cálculo del coeficiente de correlación de Pearson se nos simplifica un poquito tenemos de nuevo R indicando el coeficiente de correlación y al indicar Z de X y Z de Y estamos indicando que estamos utilizando las puntuaciones típicas y en este caso también tendríamos simplemente el sumatorio de las puntuaciones Z de X por las puntuaciones de Z de Y partido por el total de datos que existen observemos que en todos los casos estamos utilizando sigma para indicar sumatorio sin subíndices ¿por qué? porque es obvio y en ese caso se eliminan ese sumatorio tiene que ir en este caso desde el primer individuo al último si eso está claro muchas veces se eliminan los subíndices el próximo día seguimos con este tema y ya nos vamos al primer ejemplo del texto en donde utilizamos las fórmulas que estamos viendo para calcular el coeficiente de correlación de este conjunto de datos es un cálculo mucho cálculo pero relativamente sencillo lo importante es que son más los conceptos he hablado de Galton este tema he hablado de Darwin mucha mitología nos presentan los científicos algunas veces nos presentan como seres despistados que no saben donde viven a veces suceden otras veces nos presentan como personajes malvados y pocas veces nos presentan como personajes rencorosos personajes malvados pues sí a veces sucede o si no juzguen ustedes como calificarían al matemático suizo Johann Bernoulli que se apropió de unas ecuaciones desarrolladas íntegramente por su hijo Daniel pionero de la hidrodinámica y la teoría cinética de los gases es decir, su hijo desarrolla una serie de ecuaciones y él se las coge se las roba es decir, son mías las publica y para Maximilien la flecha de publicación la manipuló de tal forma que hizo que su hijo pareciera el que estaba copiando el plagiador es algo inconcebible que un padre le hagase a su hijo tal era la competencia que se produce en algunos casos se ha producido fue paradigmática fueron muchos los matemáticos de Bernoulli que destacaron había una competencia atroz entre ellos y hubo un físico no recuerdo el nombre de principios del siglo XX Heisenberg si creo que fue Heisenberg que también tenía una relación de competencia atroz con su hermano químico por ver quién conseguía establecer una una preponderancia en el mundo científico aunque no estaban en el mismo área hubo físicos y otros químicos luchaban encarrejadamente casi no se hablaban por esa relación de competencia existente entre ellos y en este caso todo había sido debido a que el padre se había ido de la vida hasta el próximo día