Bienvenidos a esta videograbación acerca de la creación de módulos de simulación en estadística inferencial con matemática versión 8.0 realizada o enmarcada en los proyectos de redes de la UNED. El objetivo de esta videograbación es mostrar el funcionamiento de las simulaciones que hemos programado para que nuestros estudiantes puedan visualizar conceptos estadísticos que usualmente les resultan bastante complicados cuando simplemente los ven por medio de fórmulas matemáticas o de expresiones verbales. Esos mismos conceptos cuando se visualizan resultan perfectamente, esperamos, que resulten perfectamente claros y comprensibles. Es una forma de poner en funcionamiento. El sistema visual como una herramienta de comprensión. Para ello, hemos utilizado un formato específico de documentos llamado CDF. Un CDF es un, igual que el PDF, es el formato de documento portable, es decir, que se puede pasar de un sistema a otro, es compatible con varios sistemas. El CDF es un formato de comprensión. El CDF es otro formato de documento. Y la diferencia está en la C. La C significa computable. Este tipo de formato permite introducir dentro de un texto, dentro de los gráficos, etc., permite introducir código ejecutable. Cuando utilizamos, por ejemplo, Word para crear un documento, un archivo, podemos introducir texto, tablas, figuras, gráficos, pero todo lo que... todo lo que buscamos en ese documento de Word es estático, no cambia. El CDF solventa esto, de tal forma que nos permita manipular las gráficas, por ejemplo. Si yo hago una gráfica mostrando el concepto pendiente de una función, en un documento normal, como PDF o Word, la figura estará estática. No cambiará el punto X sub 0 ni la pendiente. Con CDF yo puedo hacer que el estudiante pueda manipular los puntos y la gráfica reaccione adecuadamente visualizándose la pendiente correcta en cada momento, en el propio documento. Es una mezcla de documento y archivo ejecutable de un programa. Para conseguir leer los documentos CDF en los que hemos programado nuestras simulaciones, hay que bajarse este programa de esta página web. La página web de Wolfram. Wolfram es el creador de estos documentos y el creador del software de análisis simbólico llamado Mathematica. Es un programa parecido o similar en sus características a MATLAB, que también es muy conocido. Desde mi punto de vista las características de cálculo simbólico en Mathematica lo hacen brillante. Wolfram fue su creador y ahora ha creado este documento que es el que vamos a utilizar. Afortunadamente no necesitamos Mathematica para ejecutar este tipo de documentos, porque Mathematica es un programa comercial. El creador de CDF, Wolfram, Nos proporciona un player, es decir, un software que nos permita visualizar estos documentos. Igual que Adobe, el creador, creo, de los documentos PDF, nos proporciona un player para leer los documentos CDF y los proporciona gratuitamente. En la página de Internet, para descargar el CDF, básicamente tenemos que identificarnos. ¿Quiénes somos? Estudiantes, profesores... Para ello elegiremos de una lista aquella característica que más nos caracterice, nos identifique. Y posteriormente nos pide una dirección de e-mail. Forzosamente. Una de todas estas dos... Aquí tenemos la pantalla en la que nos piden estas dos características. Aquí tenemos el... La elección de qué nos describe. Pulsaríamos en este triangulito para desplegarnos las opciones posibles. Mientras que en la siguiente caja de texto no hay ningún desplegable. Simplemente tenemos que introducir nuestra dirección de correo electrónico. Y una vez hecho esto, presionamos a Start Download. Comenzar descarga. Casi todo lo que viene a continuación. Siempre es la opción por defecto que nos proporciona el programa. Cuando hayamos terminado de grabar en nuestro ordenador el player CDF, podremos leer cualquier tipo de documentación que se haya generado en ese formato. Hay muchas en la red. Son demostraciones interactivas. Y vamos a ver por qué. Las demostraciones y simulaciones que pueden consultarse en los formatos CDF tienen un formato similar. Vamos a ver ese tipo de formato para aprender a manejar cualquier tipo de simulación. Vamos a ver que es realmente sencillo. Es jugar. Supongamos que tenemos una función de distribución normal. En estadística ya sabemos lo que es eso. Y sabemos que viene definida por su media y por su varianza. En un texto normal nos presentaría una distribución normal, con una media y una varianza concreta. Y no podríamos hacer nada más. No podríamos ver qué pasa si cambio la diversión típica, qué pasa si cambio la media. Con estos documentos sí vamos a poder hacerlo. Aquí tenemos una de las primeras simulaciones presentes en nuestros documentos CDF. En ella vemos una distribución normal, en azul, en la parte inferior, con media cero. Y diversión típica, no sé si será 1 o... El caso es que en la parte superior nos permite resolver esa ambigüedad. Si no sé la diversión típica o la media, lo importante es que con estos cursores vamos a poder cambiar esos dos parámetros y vamos a poder visualizar online casi simultáneamente el cambio que se produce en la figura. Cada vez que veamos un cursor de este tipo, significa que presionando en el mismo y llevándolo hacia un lado o hacia otro, el parámetro, en este caso la media, va a cambiar. Y la figura va a cambiar simultáneamente. Lo mismo va a suceder si presionamos este cursor, lo movemos a derecha o a izquierda, vamos a cambiar el parámetro de deviación típica en este caso. Y vamos a ver su efecto sobre la distribución. Tenemos en todas las simulaciones, son casi todas las simulaciones, de manera genérica, dos cursores a mano derecha, perdón, dos iconos a mano derecha de cada uno de los cursores con el símbolo más. Si presionamos en esos cursores, se nos va a desplegar en la parte inferior de cada uno de ellos una barra de herramientas un poquito más precisa, por si queremos determinar la media o la división típica de manera numérica, la escribimos. O, podemos presionar al más o al menos para ir incrementando o decrementando unos pasos especificados por el programador, la media o la división típica. También podemos darle a esta flechita que vemos aquí y en este caso lo que hará el programa de simulación será ir ciclando de forma rápida sin intervención del usuario todos los valores permisibles en el ejemplo programados para la división típica o para la media. Cuando llegue al final volverá al principio y se podrá visualizar. Estas dos flechas hacia arriba o hacia abajo lo único que hacen es incrementar o decrementar la velocidad de ejecución de ese bucle en el que entramos y presionamos a la barra, perdón, a la flecha hacia la derecha. Al mismo tiempo si hacemos ese ciclado veremos en la caja de texto cómo va cambiando el parámetro al que le hayamos presionado. Esta forma de manipular cualquiera de las simulaciones de los documentos CDF es tan genérica que conviene saberla. Esto es lo que hemos explicado, en el sentido de que el signo más a la derecha de cualquiera de los cursores, perdón, se está refiriendo a este más, nos abre estos otros cursores y que estos cursores nos permiten determinar el valor concreto de ese parámetro y nos permiten manipularlo de manera más específica si queremos hacerlo. Una vez visto el esquema de cualquier documento CDF, al ser genérico es fácil de utilizar aunque cambiemos de área completamente, siempre van a ser el mismo tipo de procedimiento para trabajar con la simulación. Vamos a ver las simulaciones que hemos realizado, además de esta muy simple en donde hemos manipulado media y dirección típica de una distribución normal. La primera que hemos utilizado ha sido el teorema central del límite. Recorremos este teorema fundamental en estadística. Dada una secuencia de variables aleatorias idénticamente distribuidas e independientes entre sí, x1, x2, x3, etcétera, recordemos que idénticamente distribuidas e independientes se suele representar en la literatura como y, y, d. Pon media mu, aquí la simulación me da el paso del powerpoint a INTECA me ha cambiado estos símbolos, la varianza sabemos que viene representada por este símbolo, y la media mu. Dada una secuencia de variables aleatorias idénticamente distribuidas con una determinada media y una determinada varianza, si calculamos la media de los primeros n valores de los x,y y a partir de esa media calculamos z sub n aplicando esta función que lo que nos hace es estandarizar el valor media mediante el valor mu y sigma y teniendo en cuenta el tamaño de n, resultará que z sub n se distribuirá o converge a la función normal tipificada n, de nuevo aquí me lo ha cambiado, normal tipificada quiere decir que la media vale 0 y la división típica 1, y esto independientemente de la forma en que se distribuyan los valores de x sub y. Podemos tener que la distribución de los valores de x sub y puede ser rectangular, triangular, bimodal, conforme n se incrementa este teorema nos asegura que z sub n converge a la distribución normal, independientemente de cómo era la distribución de los valores de x sub y. Ese concepto que parece bastante abstracto a los estudiantes se puede hacer bastante más concreto con la simulación que hemos realizado, en ella el estudiante puede elegir entre una gama de poblaciones la que quiera, observemos que estas dos primeras, estos dos primeros parámetros que puede elegir el estudiante no tienen la forma que hemos visto anteriormente, si viene dada por las otras tres posibilidades de elección. Estas dos primeras en donde elegimos población y estadístico que queramos calcular son simplemente botones, botones que si uno se activa otro se desactiva, si hay por ejemplo en la población podemos elegir cinco solamente puede estar activo uno de ellos y simplemente clickeando uno u otro se activará ese tipo de población, de la misma forma estadístico, podemos trabajar con la media o con la división típica, obviamente no con ambas. Entonces el estudiante puede, como está hecho aquí, trabajar con la función uniforme y esta sería la distribución poblacional de la que se extraen las x sub i y valores aleatorios idénticamente distribuidos. Vemos que la distribución uniforme no es la distribución normal, si a partir de las x sub i calculamos el estadístico media vemos en la parte inferior cómo se distribuyen todas esas medias y vemos el histograma, vemos que se distribuyen según la curva normal con una media de 76 y una división típica de 2,5. Una vez que tenemos esta simulación que nos muestra el tema central para una población de distribución uniforme y cuál es la distribución muestral del estadístico media podemos jugar con cuál de los parámetros tamaño muestral, número de muestras o semilla aleatoria afectan a la forma, a la precisión de la distribución muestra. ¿Qué pasa si cambiamos el tamaño muestral? Si en vez de 40 como hemos elegido ahora podemos elegir 5, podemos cambiar, pasar ese cursor hacia la izquierda o más de 40. ¿Qué le pasa a la distribución poblacional, a la distribución muestral del estadístico media? Pues el estudiante con mover el cursor va a poder ver si esta distribución sigue igual cambia su media, cambia su división típica ¿Qué es lo que va a cambiar? Desde aquí les puedo asegurar que lo que va a cambiar va a ser la división típica. Si cambiamos el número de muestras no va a tener ningún efecto va a tener un efecto de que los bings los pequeños rectángulos del histograma van a ser más finos van a poder ser más finos porque tenemos más muestras pero nada más. La semilla aleatoria tampoco va a cambiar nada porque recordemos que todo esto los procesos dependen de unos valores iniciales aleatorios para realizar la extracción de datos desde la población uniforme a la distribución muestral de ese estadístico. La semilla realmente no debe afectar. Lo importante es entonces una vez que hagamos esta simulación lo podemos probar con una población finita es decir, una población con un tamaño muestral finito con una población normal con una de la plaza o con una de gamma. La de la plaza es impresionante porque tiene una forma en forma de montaña y muestra mucho más claro cómo la diferencia que existe entre la forma poblacional y la forma de la distribución muestral. Esta es la primera simulación que hemos realizado. La segunda es el concepto de potencia y de nivel de significación. En esta demostración el alumno podrá manipular los valores de alfa, el estadístico muestral así como el tamaño del efecto modificando el valor de la hipótesis nula y verificar qué efecto tiene sobre la potencia del contraste. Este es el esquema que nos va a aparecer en la simulación. Tenemos casi todos los cursores del tipo que hemos dicho anteriormente excepto unos poquitos en los que cambia por ejemplo esta posibilidad es dicotómica mostrarle el estadístico muestral sí o no. Si hacemos clic en la casilla de verificación lo mostrará, si lo desactivamos nos desaparecerá de la pantalla el estadístico muestral. Mostrar el p-value lo mismo. Mostrar h1 lo mismo y mostrar la potencia lo mismo. Una vez que podemos mostrar unos u otros en función de que estemos más o menos familiarizados con la simulación. Lo importante es que ahora podemos manipular alfa el estadístico muestral que hayamos obtenido en el estudio concreto y podemos especificar h1 como con mayor o menor distancia de h0 y ver qué sucede con alfa la probabilidad de error tipo 1 aunque en este caso la estamos determinando a partir de los cursores y lo veremos en la figura mediante el color azul. Veremos al mismo tiempo qué sucede con beta si cambiamos alfa se incrementa o se decrementa y la potencia vemos que la potencia nos desaparecerá en rojo y veremos cómo cambia visualmente en la gráfica la potencia cómo cambia beta el error tipo 2 etcétera. Podemos hacer lo mismo manteniendo constante alfa y cambiando el estadístico muestral o podemos especificar h1 la distancia entre las dos distribuciones y ver cómo afecta al resto de valores beta y uno menos beta De tal forma y al mismo tiempo el programa nos permite visualizar numéricamente el valor más importante la potencia como probabilidad condicionada de que siendo h1 cierta se rechace a h0 Otro de los contenidos importantes del temario de la asignatura de diseños de investigación y análisis de datos es el de la regresión lineal simple En la regresión lineal simple se trata de predecir el valor de una variable de otra Obviamente esta predicción conlleva un error ya que la mayor parte de las relaciones no son absolutamente lineales, deterministas existe variabilidad Y en este proceso de cálculo de la recta de regresión utilizamos una serie de métodos para minimizar ese error Uno de los métodos que enseñamos en diseños de investigación es el método de mínimos cuadrados Muchos estudiantes ven algo un tanto difícil de comprender las fórmulas para para aplicar este método de mínimos cuadrados Pero realmente visualmente es muy sencillo y lo vamos a ver La simulación tiene este aspecto Es realmente sencilla porque simplemente nos permite elegir los datos para manipular para diversificar la simulación y luego nos permite manipular la pendiente y el intercepto mediante la consabida manipulación de los cursores hacia la derecha o a la izquierda Cuando modificamos la pendiente o el intercepto esta línea no me ha salido muy recta La línea azul que se ve en el gráfico va a cambiar la pendiente o el intercepto en función de lo que le estemos dando Lo importante son los cuadrados rojos que nos aparecen allí Observemos que los puntos negros son los datos los datos que hemos obtenido de X y de Y en un estudio X e Y son dos variables y están relacionadas según este gráfico linealmente Los puntos negros para cada observación son un punto en el gráfico bidimensional La distancia entre ese punto la distancia vertical entre ese punto y la línea recta azul representa el error que estamos cometiendo en la predicción mediante esta recta de regresión Si el error lo elevamos al cuadrado realmente lo que estamos calculando es un cuadrado y el método de mínimos cuadrados lo que pretende es hacer mínima la suma del área de todos esos cuadrados Cuando el estudiante empiece a manipular la pendiente o el intercepto verá que habrán ciertos valores en los que esos rectángulos se hacen enormes Cuando los vaya manipulando en el sentido inverso serán más pequeños y cuando llegue un determinado momento volverán a incrementarse Si en un momento de pendiente y intercepto la suma de esos rectángulos que es el error al cuadrado es mínima la respuesta a esa pregunta nos permite calcular la recta de regresión utilizando los valores de pendiente e intercepto que hayamos obtenido en esta simulación El programa nos permite calcular la suma de cuadrados que hagamos de pendiente e intercepto y vemos que numéricamente nuestra impresión visual va a ir acompañada con un incremento o decremento de esa suma de cuadrados Por último cuando el alumno haya ajustado la recta de regresión para obtener unos valores que considere mínimos podrá ver si su estimación visual es más o menos ajustada O, por ejemplo este botón que es tan grande que no parece botón que nos va a mostrar la línea de mínimos cuadrados real calculada por el procedimiento analítico de mínimos cuadrados Pero esta simulación nos permitirá comprender qué es esto de los mínimos cuadrados el método de los mínimos cuadrados en regresión lineal y dejará de tener un carácter abstracto Es simple Otra simulación que hemos realizado es una simulación de la ANOVA La ANOVA a análisis de varianza se utiliza para analizar datos cuando tenemos más de dos grupos tres como mínimo En la ANOVA se trabaja con medias cuadráticas, sumas de cuadrados grado de libertad, razones F casi todo de forma analítica En nuestra simulación el estudiante va a poder ver gráficamente en la parte de abajo las distribuciones poblacionales en este caso tres grupos no hemos querido hacer más compleja la simulación cómo afecta eso a la tabla de la ANOVA y básicamente a los dos valores finales el valor F y el valor P para ver si son significativos o no significativos para ello va a poder manipular tenemos tres poblaciones por tanto tenemos tres distribuciones como la ANOVA asume que las distribuciones son normales es lo que hemos hecho lo importante es que la ANOVA va a poder manipular de las tres poblaciones su media y su diversión típica o más o menos alejada y va a poder hacer que la dispersión sea mayor o menor y cómo afecta ello a la tabla del ANOVA va a poder hacer también otro de los supuestos del ANOVA es el de homoceasticidad si variamos la división típica de la primera población con un valor muy distinto al de la segunda y un valor muy distinto al de la tercera estamos violando el supuesto de homoceasticidad por ello tenemos aquí las opciones de colocar las tres divisiones típicas a unos valores predeterminados 0,75, 1 y 1,25 podemos reiniciar los valores de media y diversión típica a los valores iniciales tanto las medias como las diversiones típicas y podemos poner o quitar el resultado de la gráfica lo importante es darse cuenta de cómo modificando estos parámetros se ve aceptada toda la tabla de del ANOVA y cómo en determinados momentos el ANOVA puede llegar a ser significativo porque las distribuciones están lo suficientemente separadas entonces hay al menos dos distribuciones que difieren entre sí o están las tres lo suficientemente solapadas como para que el ANOVA no pueda detectar que haya diferencias entre esas tres poblaciones por último estamos implementando también el cálculo de probabilidades sin tablas el cálculo de probabilidades de la razón f, la normal t, chi cuadrado, etc ha sido una constante y sigue siendo una constante en todos los estudiantes de estadística debido a que el cálculo de esas probabilidades mediante las fórmulas analíticas es muy complicado herramientas analíticas de nivel superior integrales diferenciales, etc y por ello se simplificaba la tarea añadiendo a los textos una serie de anexos con esas tablas que no daban todos los valores posibles pero sí los más usuales esto hasta ahora era lo usual y era correcto pero con la posibilidad de introducir cálculos dentro de los documentos podemos ser mucho más precisos podemos hacer que olvidarnos de las tablas porque ahora con una simple figura podemos calcular la probabilidad para cualquier estadístico para cualquier valor del estadístico que nos interese de momento hemos realizado dos simulaciones una para la distribución normal tipificada y otra para la chi cuadrada la distribución normal tipificada solamente necesita un parámetro que es la z para una determinada z en este caso 2.26 que se encontraría aproximadamente aquí el programa nos permite visualizar el área que queda por debajo de ese valor probabilidad 0.988 y su inverso 1-p que casi no se ve aquí pero se muestra en la gráfica inferior que es exactamente idéntica a la superior excepto que muestra el área complementaria y nos muestra la probabilidad la tabla de la distribución normal tipificada lo único que hace es asociar a cada valor z su probabilidad y es lo que estamos haciendo aquí a cada valor z que nosotros estamos manipulando nos proporciona su probabilidad además con una precisión muy superior al que se puede dar en las tablas manipulando z con el cursor apropiadamente o introduciendo el valor z que queramos la gráfica nos va a dar esa probabilidad y su visualización lo mismo hemos hecho con la distribución chi cuadrado en este caso a diferencia de la anterior la distribución chi cuadrado exige dos parámetros exige el valor dn de grado de libertad y el valor del estadístico para un determinado número de grado de libertad aquí tenemos 14 y un determinado valor del estadístico que es en este caso 6.49 la distribución nos muestra el valor del estadístico en el eje x y el área que queda por debajo y por encima en la distribución chi cuadrado de ese valor aquí tenemos que el área que queda por debajo es 0.047 si leo correctamente de esta forma el alumno que quiera obtener una p para una distribución chi cuadrado solamente tendrá que ir a esta gráfica en el documento pdf introducir el valor n grado de libertad y el valor del estadístico obtenido en sus cálculos y obtendrá directamente el valor de la probabilidad en definitiva consideramos que en el futuro todas las tablas van a ir expresadas en este formato es muy cómodo de entender y es muy cómodo para el estudiante aunque hasta el momento solamente hemos programado estas dos tablas o estas dos formas de calcular probabilidades en dos distribuciones concretas y esto es lo que hemos realizado en nuestro trabajo de redes para el proyecto de simulaciones en estadística inferencial para las asignaturas de estadística y metodología en el área del departamento de metodología de la ciencia del comportamiento de la UNED