Venga, vamos allá entonces. Comenzamos con el tema 4. Empezamos a ver un poco la parte más de inferencia. Es decir, dejamos de hacer solo... A partir de ahora vamos a empezar a ver relaciones entre variables e intentar predecir unas variables en función de otras. Hasta el momento solo hacíamos descripción de variables, etc. Vamos a intentar ser capaces de explicar una variable en función de otra. En fin, hacer la estadística de verdad y no la que hemos hecho hasta ahora que es un poco jugar, digamos. Entonces, ¿la idea cuál es? Vamos a tener casi siempre ya en esta situación, por no decir siempre, dos variables. Por ejemplo, tomar ese que está ahí. Eso es una tabla de contingencia en el sentido de que tengo una variable que le puedo llamar i y una variable que le puedo llamar x. Que en este caso x es el sexo y i es la mano. O no sé cómo se dice eso exactamente, pero bueno, diestro zurdo. Entonces, es importante que seáis capaces de entender que, por ejemplo, 4 es lo que se llama la frecuencia conjunta. Que es cuánta gente es mujer y zurda a la vez. Esto es bastante importante. Conjunta significa... A la vez. Importante en el sentido de que os lo van a preguntar en el examen, tenéis problemas con esto, etcétera. Entonces, si a mí me dicen cuánta gente... ¿Cuál es la frecuencia de ser mujer? O cuántas mujeres hay. Obviamente es esta columna de aquí. De tal manera que tengo un 52% de hombres independientemente de que si eres diestro o de zurdo. Esto que parece absurdo, luego no lo es y os cuesta mucho. Eso es lo que se llaman las frecuencias. Marginales. Conjunto es dos variables a la vez, ya lo dice su nombre. Marginales son los márgenes o... Bueno, se llaman marginales en estadística siempre. Entonces, lo normal que es sería esto trasladarlo a porcentajes. Tengo un 0,43 de hombres diestros, un 0,09 de hombres zurdos y un 0,44 de mujeres diestros. Y un 0,04... Lo he pasado a relativo. Bueno, ya veis, ¿no? Más o menos yo creo que se entiende. No es un muy buen número, pero vamos. La pregunta importante es la siguiente. Por eso construyo esto. 0,09 y 0,04. Estoy replicando esto en relativo. Entonces, esto me serviría para dar probabilidades. ¿Cuál es la probabilidad de ser hombre? Pues el 0,52. Aquí y aquí, ¿no? Que alguien se pierda y que me lo avise. Y 0,48, 0,87 y 0,13. Bien. Vamos a completar si queréis. Hombre, mujer... Bueno, no me salió muy diferente, pero vamos. Diestro y zurdo. Vale. Esto es el concepto que es importante. ¿Vale? Yo sé cuál es la probabilidad de ser mujer, que es 0,48. Pero lo pongo así, ¿no? A ver si somos capaces de pillar la notación. Esta barra significa sabiendo que o condicionado a. ¿Vale? ¿Cuál es la probabilidad de ser hombre? Sabiendo que soy diestro. Por ejemplo. ¿Vale? Las condicionadas es una cosa súper importante. ¿Por qué? Porque lo que estoy haciendo es restringir el espacio. La probabilidad de ser hombre es 0,52. La probabilidad de ser diestro es 0,87. Pero, ¿cuál sería la probabilidad de ser hombre sabiendo que soy diestro? Solo. 0,43 dicen por aquí. ¿Alguien nada más? Ojo, eh. Ese es el matiz. 0,43 es la probabilidad de ser hombre y diestro. No la probabilidad de ser hombre sí, sí, ya, si, ya eres diestro. Es decir, sería 0,43 entre 0,87. ¿Por qué? Porque solo me muevo. Solo me muevo en los diestros. Entonces, mi total ya no son 100, son 87 personas. ¿Vale? Ese es un matiz bastante importante. En términos más matemáticos, esto es la probabilidad de ser hombre y diestro, que es lo que significa ese símbolo, partido la probabilidad de ser diestro. Vamos a entrar muy en matemáticas, pero bueno, me hacen falta por más adelante. Por eso lo pongo, si no, no lo pondría. Pero sí que es importante que entendáis las condicionadas. ¿Vale? Por ejemplo, ¿cuál sería la probabilidad de ser zurdo sabiendo que eres mujer? No, 0,48. La estoy restringiendo ahora por fila. Muévete solo entre las mujeres, como si no hubiera hombres, y dime cuál es la probabilidad de ser zurdo ahí. Y esto es importante porque es lo típico que veis, encuestas de intención de voto. El PP tiene un 45, el PSOE un 44. Dentro de los votantes del PSOE, el más votado es no sé qué. Se restringe el espacio. Entonces las probabilidades normalmente suben. Bien. Esto es lo más común en vuestro mundo, ¿vale? Trabajar con dos variables. Entonces, un mecanismo sencillo que lo que pongo aquí es un diagrama de barras conjunto en donde yo tengo dos variables. Aquí estaría hombre, mujer y aquí estaría zurdo y diestro. Entonces se levanta una variable, otra barra, otra barra aquí en 3D. Esto no nos lo suelen preguntar, así que tampoco me lo he dicho. Entonces, importante que distingamos. Estos son variables cualitativas. Después trabajaremos con cuánto. En principio, quali en este tutoría y el tema 5 es cuánto. Cualitativas, porque hay hombre, mujer, zurdo, diestro, PSOE, PP. Todo esto que no son números. La asociación o bueno, una de las cosas o de los contrastes y hipótesis típicos es el chi cuadrado. Este es un estándar bastante importante que lo tenéis ahí. Luego haremos un ejercicio calculando todo. Pero lo importante que quiero es que se quedáis para qué. Porque esto es para ver si hay independencia. Yo cojo la tabla de contingencia de antes y quiero ver si ser hombre o mujer es independiente de ser zurdo y diestro con la muestra que tengo. Y me sale un numerito. Con ese numerito decidiremos. Pero en principio, por ahora, hasta que echemos cuentas, esto es lo que más me interesa. Este numerito es lo mismo que nos pasaba con la varianza. Tiene unidades el problema, es decir, no es siempre... No está acotado. Entonces, para eso surge el coeficiente de contingencia. Que insisto, estoy en la página 6, no me estoy inventando nada. Estoy en la página 6. ¿Qué nos dice esto? Cuanto... Y esto es lo que os van a preguntar más. Cuanto más alto sea este c, más relación tienen entre ellas. Es un numerito que si me sale 08, más relación tienes que cuando te sale 04. Y es interesante, en el ejemplo de hombre-mujer y zurdo y diestro es absurdo, pero si pensáis en partidos políticos, clase social, ya tiene mucho interés. Por ejemplo, si eres una clase social alta, a lo mejor tienes más relación a cierto partido. Pues el hacer ese tipo de estudios es interesante. O en vuestro ámbito, psicomotriz baja con percepción sensorial. No lo sé, lo que sea. Entonces, primero, chi cuadrado. Cuidado porque la chi es algo así, es un poco raro, es una letra griega. Lo tenéis en el libro. Es una letra un poquito griega, o sea, un poquito griega, un poquito rara, perdón. Eso es muy tarde. Y este es el coeficiente de contingencia. Lo importante es que este contingencia siempre está entre 0 y 1. El chi cuadrado por sí mismo no me va a decir grande información, pero el chi cuadrado entra dentro de la fórmula de C. Por eso lo necesito. Ahora haremos alguna cuenquilla sencilla. Bien, sigo. Por último, el coeficiente de Cramer. También anda por ahí, la V de Cramer. Que no es más que otra formulilla. Ya lo vais a ver ahí, que no es difícil. Y otros coeficientes que en general no se usan. El ci y el ce lo usaremos la semana que viene, o sea, el curso que viene. Lo que más me importa de aquí hoy es chi cuadrado y C de Cramer, que siempre me lo pregunta. ¿Vale? Y tenemos que tener un poco de cuidado con las frecuencias teóricas y las empíricas. Ahora lo vais a ver. Yo y yo. Venga, vamos allá. Tenemos un par de ejercicios por aquí. Ah, no, me falta este, perdón. Confección de correlación por rangos de Spearman. Esto se suele usar, que es lo que ponemos aquí. Fijaos que aquí está fácil. Variables cualitativas y variables ordinales. Por eso os decía el primer hincapié los primeros días. Es muy importante saber en qué tipo de variable nos movemos. Este está siempre entre menos uno y uno y nos da el tipo de relación inversa o directa. Este, importante. Cuanto más cerca esté de los bordes, un grado de relación alta. Si es positiva, grado directo. Si es negativa, grado inverso. Eso significa que se aumenta una. Directo significa que se aumenta uno, aumenta el otro. Inverso significa que se aumenta uno, la otra baja. Esto de aquí es directo y esto de aquí es inverso. Si pensáis, por ejemplo, en clase social y... No quiero decir nada que tenga corte político, no lo sé. Clase social y... Nivel de hambre. Cuanto más alto estás en tu clase social, tu hambre es menor. Estoy inventándolo ahora mismo sobre la marcha, pero para que lo entendáis. Esto sería inverso y lo otro sería directo. Venga, por aquí vamos a los ejercicios. Vamos a meterle un poco de zoom. Pues nada, fantástico. ¿Veis bien o razonablemente bien? No, no. Es que el siguiente paso es este. Ahí está. Vamos a ver, en una tabla de contingencia con los valores X, tal, tal, tal. ¿Cómo se denomina el número de casos? Tal, tal, tal. ¿Qué me decís? Teoría, ¿no? Puro y duro, o sea, pero vamos. Número de casos de cada celdilla dividida por el total de casos de Y y multiplicado por 100. ¿Qué es lo que acabamos de hacer? Fijaos que teníamos... Vamos a usar este, por ejemplo. Este de aquí. Lo acabamos de hacer. Esto da 400 aquí. Aquí da 600, aquí da 200 y aquí da 800, ¿no? Me dicen X, Y, tal, tal, tal. Como si fuera esta tabla, da igual. Número de casos de cada celdilla a C. Un segundo que estoy dándole aquí, un minuto. 250 dividido por el total de casos de Y, es decir, de la columna. 250 entre 800. Multiplicado por 100. ¿Eso qué sería? Porcentaje condicionado a la columna, ¿no? Eso sería la probabilidad de ser altruista sabiendo que ya eres desvoluntario. Por lo tanto, la B. C caba leído será Claudia. ¿Está claro que es la B o no? Claudia, estás online, ¿eh? Bien. Entonces, fijaos, he puesto un ejemplo. 250 entre 800 sería la probabilidad de ser altruista sabiendo tú ya te estás moviendo solo en esta columna. Restringes el espacio o proyectas y vamos un poco más matemáticos. Venga, seguimos. Vamos de menos a más. Teniendo en cuenta que el altruismo puede influir en el voluntariado. Sería de utilidad conocer los porcentajes del total condicionados de la variable altruismo o condicionales de la variable voluntariado. ¿Qué me decís? El B. ¿Qué opináis? Podéis hablar en casa o donde estéis. Espero que estéis en casa. Nosotros no podemos. Es una pregunta un poco rara, ¿eh? A mí lo digo. Por eso la saco. Si hay una influencia entre el altruismo y el voluntariado, realmente yo marcaría la B. O sea, la B. Porque si conozco los que son condicionados al altruismo, yo ya sé cómo funcionan las demás. Venga, sigo. Vamos a intentar hacer el chi cuadrado para estos. ¿Vale? Para esta tabla que está aquí. Entonces, si... Déjame borrar esto. Borrar. Ay, esto no me hace falta borrar. Esto era 400. 200, gracias. O 800 y aquí 1000. Vale. ¿Tenéis el libro por ahí? El libro de teoría. Un segundo. El viejo, me da. Solo un segundo. En el chi cuadrado tenéis n-nt al cuadrado partido de nt. Eso es, el ne es frecuencia empírica, que es la que nos dan. Toda esta tabla es la de ne y tengo que construir la de nt, que es la frecuencia teórica que tendría. Entonces, yo construyo la tabla exactamente igual. Y entonces, ¿qué va en cada casilla? La fila por la columna partido del total. Eso es, 400 por 800 partido 1000. Aquí abajo, ¿qué iría? Este por este dividido entre 1000. Abajo iría este por este dividido entre 1000. ¿Lo veis? Fijaos que al final lo que está haciendo es, vale, yo tuve 550 personas que no eran altruistas pero sí eran voluntarios. O sí a la vez. ¿Cuál sería lo teórico? Que fueran 600 por 800. La probabilidad de ser, de no ser altruista por la probabilidad de ser voluntario entre el total. Eso sería lo teórico, digamos así. ¿Lo veis? Repito. Pues decirme, repito sí o repito no. Repito, ¿lo veis? A ver si hago una tabla un poco más grande. La tabla es la misma, ¿eh? Entonces, aquí va 400 por 800 partido 1000. Por ejemplo, aquí abajo iría 600 por 200 partido 1000. Su fila, el total de su fila por el total de su columna partido del total. ¿Qué iría aquí? Aquí, 400 por 200 partido 1000. Esta sería la tabla de NT. ¿Vale? Y aquí abajo iría 600 por 800 partido 1000. ¿Vale? Y ahora, una vez tengo esto, vea que la tengo ahí bien montada, el chi cuadrado me dice, coja usted, bueno, por si no lo veis por ahí es NE menos NT. Al cuadrado partido NT. Está ahí en la página 6, ¿eh? Porque tienes que sumar las filas de las columnas. Básicamente sumar todos, ¿vale? En este caso son cuatro casos. Pero se pone así porque sumas en las dos dimensiones, digamos. Matemáticamente, digamos. Entonces, el hacerle al chi cuadrado tiene su chicha. Y os lo van a preguntar, ¿eh? Seguro. Así que es bueno que lo practiquéis, ¿eh? Aquí salen números muy grandes. Luego hacemos uno, si queréis, con unos números más sencillos para que se haga más fácil, ¿vale? Pero, ¿alguien lo está haciendo? No, ¿no? Me imagino. Bueno. Es decir, para que me sigáis sería este número de aquí que es 4 por 8, 24, 240, ¿no? Perdón, sí, joder. 32, perdón. 320 menos 250. Menos 50 al cuadrado partido 320. Este sería el correspondiente a la primera casilla. Hago uno más. Más 4 por 2, 8. No sé si me lo sé. 800 menos 50 partido 800 al cuadrado. Y nos faltarían otros dos. Hice este. ¿Vale? Y así, pin, pin, pin, pin, pin, lo que dé. Pero el problema, o sea, el problema no, esto es hacer una cuenta y punto. Lo que os quería decir es, claro, esto hay que hacerlo, ¿no? No sé, de memoria no sé cuál da. Me da la sensación que va a dar muy alto. Me da la sensación que... ¿De dónde sacaste el 320? Eh... 4 por 8 es 32, ¿no? De aquí. 4 por 8, 32. De aquí sale este 320. Real. Vale, entonces, eso es lo importante, que seáis capaces de calcular bien el chi cuadrado. Porque os lo van a preguntar, seguro. Lo que quiero que os quedéis claros es, ¿me da información? No. Porque yo no sé si 125 es mucho o no. Depende de las unidades del problema. Ya no sólo para asignaturas, que también. Pero os pueden preguntar. ¿Un chi cuadrado de 120 demuestra una alta independencia? No demuestra nada. Porque no sabemos nada sobre las unidades del problema. Para calcular, imaginaos que... Vamos a suponer que me da un chi cuadrado de 120. ¿Cuál sería el coeficiente de contingencia? Que ese sí me da información porque siempre está entre 0 y 1. Pues sería la raíz de 120 partido... 120 más... Eran 1000, ¿no? Más 1000. Ese número va a estar entre 0 y 1. Lo que sea. ¿Vale? Si alguien lo puede hacer, 120 partido de 1120. Y la raíz de eso, fantástico. Si no, pasa nada. Pero lo que sé seguro es que va a estar entre 0 y 1. Y ese sí me va a decir 0, poca independencia. 1, mucha dependencia. Insisto, eso es lo más importante. Bien. Ahora... Bueno, el valor de phi es lo mismo. Se calcularía. ¿Cómo haríamos el 4.4? Este es otro coeficiente que también está entre 1 y 2 y que es sencillo. Fijaos. ¿Quién es quién ahí en el formulario? Mirad el formulario. Estoy en la página 6. Insisto. El coeficiente phi. N11. ¿Quién es? Este señor. Voy a coger azul. Este señor. Bueno, voy a limpiar toda esta basura. Este señor es el N11. Frecuencia de la primera fila, primera columna. Más N22 sería este. Estoy siguiendo la fórmula. N12, N21 son los cruzados. Y ahora, ¿quién es N1 más? Recordad que esto lo tenéis en el examen. Si lo sabemos leer, es cojonudo. ¿Quién es N1 más? Todos los... La suma de la primera fila. El que está aquí. Claro. Fijaos. El 1 está clavado. Los otros bailan. N2 más sería este de aquí. N más 1 es primera columna. Y las filas bailan libres. Y el que haría aquí sería N más 2. Lo metéis en la coctelera y sale un fi de lo que sea que va a estar entre menos 1 y 1. Relación directa, relación inversa. Lo que hablamos antes. Bueno. Es relativamente sencillo. Una vez que le pilláis tranquilo. Claro, no sé lo que sale porque no lo tengo hecho ahora mismo. Pero supongamos que... Bueno, en cualquiera de los tres casos. ¿Qué respondíais en la 4 o 5? Me da igual. Cualquiera que haya sido el resultado. Solo hay una respuesta válida. El valor de fi no es 0. Porque no está el 0 aquí. Así que no ha sido 0. Lo que sea. Yo sé que fi no es 0. La c, ¿no? Sí que hay relación. Eso es lo único que puedo saber. Si fuera negativo, que son estos dos. Sería una relación inversa. Y si fuera positivo, es este. Sería una relación directa. Pero esto es lo que soléis caer siempre. El valor de fi sea negativo no significa que no haya relación. Al contrario. Puede haberla muchísima. Si eso es menos 1. Es bastante relativa. Bien. Seguimos. Es trabajar sobre esto todo el rato. A ver. Si soy capaz. Ahí está. Decirme. La 13. Según los datos de la tabla 4, la distribución condicionada a ser mujer es... ¿Qué? La distribución condicionada a ser mujer. Es decir, sabiendo que ya soy mujer, cuál es la probabilidad de ser un itinerario clínico, la probabilidad de ser un itinerario de educación y la probabilidad de ser un itinerario de trabajo. Primero. Aquí hay tres elementos. Y aquí hay dos elementos. ¿Cuántos tienen que ser? Porque así ya descartamos algunos. Tres. Pues este fue. Intentar siempre ir por descarte. ¿Vale? Y ahora. Efectivamente. Tengo que ver aquí cuánto es en total. Esto suma 45, ¿no? Echarme una mano con las sumas que... Cuidado. Con que sepa uno ya me vale porque son los tres numeritos distintos. Entonces, por ejemplo. Pues yo que sé. Hacer 25 entre 45. Que sale 55% o algo así, ¿no? Era. ¿Por qué? Por lo que os decía. La probabilidad de ser clínico condicionado a ser mujer es la probabilidad de que sean las dos cosas a la vez partido el total de ser mujer. Es una idea que en estadística se repite muchísimo. ¿Vale? Condicionado es igual a las dos cosas a la vez partido la condición. 25 partido 45 que sale, pues eso, en torno al 55,5%. Entonces, la respuesta correcta es la A. ¿Vale? Ahora sí quiero que me hagáis el chi cuadrado. Venga. Que esto es fácil. Y luego el coeficiente de contingencia, el V de Cramer y lo dejamos cerrados. Acordaos, ¿eh? Esto es las empíricas. La tabla de empíricas. Aquí suma 45, aquí suma... 45 también, ¿no? 30, 30 y 30. Y un total de 90. Pues venga, hacemos la tabla de teóricas. Lo voy a poner por aquí. Venga, cuanto más calculemos aquí mejor que mejor. Yo voy a abrir un Excel por ahí para echaros una mano. Bueno, una calculadora me vale. Vale. A ver, más pequeñita para que la veamos todos. Vale. Entonces, primera celda. 45 por 30 entre 90. 15. Seguidme todos, ¿eh? Si no, no tiene sentido. ¿Vale? Segunda celda. 45 por 30 entre 90. Sale todo lo mismo, ¿no? Porque todas son las mismas filas y las mismas columnas. 15, 15, 15, 15 y 15. Repito por si alguien está perdido. Por ejemplo, esta celda de aquí sería esto de aquí por esto de aquí dividido entre el total. ¿Vale? Su fila por su columna dividida entre el total. Bien. Y ahora tengo que hacer NE menos NT al cuadrado partido NT. Vale. Pues NE es 5 menos 15 al cuadrado partido NT, 15. Más 15 menos 15 al cuadrado partido 15. Estoy yendo por filas, ¿eh? 25 menos 15 al cuadrado partido 15 más 25 menos 15 al cuadrado partido 15 más, más 15 menos 15 al cuadrado partido 15 más 5 menos 15 al cuadrado partido 15. ¿Ok? He hecho todo el rato empírico menos teórico al cuadrado partido teórico. Sí, todo el rato en cada una de las celdas. Esta de aquí me da igual porque es 0. 15 menos 15 es 0. Esta de aquí, tres cuartos de lo mismo. ¿Vale? Y las otras son todas iguales porque 5 menos 15 es 10 25 menos 15 también es 10 y 5 menos 15 también es 10. Entonces todas son 100 partido 15. Eso da igual si lo veis bien y si no pues lo hacéis. Entonces es esto por 4. Y entonces a mí me da 26 con 7. Más menos 26 con 7. ¿Vale? Insisto, ¿eh? Cuanto más os deis cuenta es mejor. Todas estas son iguales. Es decir, esto es igual a 4 por 100 partido 15. Porque todas tienen distancia 10. Ya os ponen el ejercicio a huevo para que sea sencillo. Entonces la respuesta correcta es la C. 26 con 7. Porque me salió. Decidme cuál es el coeficiente de contingencia, por favor. Lo tenéis delante, ¿eh? La fórmula la tenéis delante. ¿Cuánto da? 0.48 El que siga un poco de Excel fue lo que hice aquí, ¿eh? La raíz de 26 con 7 partido 26 con 7 más 90. Es lo que pone ahí. El chi cuadrado y la N. Me dice otra cosa, ¿eh? ¿Ok? Vale. Y el coeficiente V de Cramer, ¿quién es? ¿Quién es? Chi cuadrado 26 con 7. ¿Quién es N? 90. ¿Y quién es M? M es el número de casillas que tienes. 6, en este caso. Entonces hay que multiplicarlo por 5. Y ahí sale lo que veis ahí. 0.25 Es decir, la A. Este de aquí es el V de Cramer. Y este de aquí es el contingente. ¿Ok? Pues esto es lo que hay. Hoy es importante que machaquéis el chi cuadrado, que machaquéis el C de contingencia, etcétera, etcétera. Y esto es un poco el tema 4 y hoy acabamos un poquito antes. La semana que viene se complica un poquillo y luego probabilidad. Pues nada más. Muchas gracias a todos, chicos. Un abrazo.