Un saludo a todos. Soy David Castilla, tutor del Centro Asociado de la UNED en Huelva. Me dispongo a presentar la primera de las sesiones dedicada al tema 7 sobre contrastes no paramétricos del grado en Economía. Esta sesión tiene como objetivos pedagógicos conocer el concepto de contraste no paramétrico, dominar los contrastes de bondad de ajuste, conocer e interpretar las tablas de contingencia y realizar contrastes de independencia y homogeneidad. Los alumnos del grado en Economía que pretendan contactar conmigo en la asignatura de Inferencia Estadística pueden hacerlo a través del foro del grupo de tutorías de la plataforma ADO. En cuanto a las referencias necesarias para abordar este tema, recomendaría especialmente el manual de Casas y Gutiérrez 2011, concretamente de las páginas 301 a 351, y el de Ruiz, Maya y Martín, 1999, de las páginas 271 a 308. En cualquier caso, por lo general, cualquier manual que aborde la Inferencia Estadística suele incluir algún tema relativo a los contrastes no paramétricos, como puede ser el caso de Novales 1997. El tema 1 de la asignatura de Inferencia Estadística del grado de Economía abordó el concepto de inferencia estadística. La inferencia estadística utiliza datos muestrales para llevar a cabo estimaciones, tomar decisiones, realizar predicciones, comprobar hipótesis o hacer otro tipo de generalizaciones relativas a un conjunto de datos más grande denominado población. La inferencia estadística viene justificada por la existencia del muestreo y la necesidad del mismo. El muestreo es necesario porque permite reducir significativamente el coste de estudio en ciencias sociales, debido al tamaño tan grande que suele tener la población y a otras razones como la rapidez de su aplicación, el detalle de la información que sostiene o algunas limitaciones como el carácter destructivo de la observación de la población. Entre los procedimientos de la inferencia estadística estudiados en este curso se encuentran los de estimación de parámetros poblacionales, que han sido abordados en los temas 2 al 4, y la contrastación de hipótesis estadísticas que están solicitadas por la Inferencia Estadística. En concreto, el tema 5 abordó los conceptos básicos de los contrastes de hipótesis, distinguiendo entre contrastes paramétricos y no paramétricos. Los contrastes paramétricos los definimos como aquellos que contrastan hipótesis sobre el valor que toman los parámetros de distribuciones poblacionales conocidas. Estos fueron abordados principalmente en el tema 6. Un ejemplo lo podría constituir el caso de contrastar la hipótesis sobre mu y sisma de una familia de distribuciones normales. El otro tipo de contrastes que existen son los del tipo no paramétricos, que serán los abordados en este tema. En concreto, los contrastes no paramétricos no contrastan hipótesis sobre parámetros poblacionales. En su lugar, contrastan hipótesis sobre otras características como pueden ser la forma, la localización, la aleatoriedad, etc. Estos contrastes son métodos de distribución libre, lo que quiere decir que en general no implican supuestos sobre las distribuciones de la población muestreada, en particular el supuesto de normalidad, que es requerido en la amplia mayoría de los contrastes paramétricos. Los contrastes no paramétricos, además, permiten trabajar con variables cualitativas tanto de escala nominal como ordinal, en particular aquellos que trabajan con variables distintas. En la escala ordinal constituyen lo que se conoce como estadística de rangos. Estos contrastes serán siempre más potentes que los contrastes paramétricos cuando la población no sea normal. En el caso en el que la población sea normal o se cumplan todos los supuestos establecidos por los contrastes paramétricos, estos serán muchos más potentes. Usualmente, los contrastes no paramétricos involucran simples cómputos frente a los contrastes de tipo paramétrico y, por lo tanto, estos son más fáciles de entender. Y de aplicar. Contrastes de bondad del ajuste Los contrastes de bondad del ajuste permiten comprobar si un conjunto de datos procede de una población de una cierta distribución de probabilidad. Los más usuales son el chi cuadrado de Pearson, de la bondad del ajuste, el Kolmogorov-Smirnov, el de normalidad de Lillefors, el de normalidad de Shapiro-Wilks o el Kolmogorov-Smirnov para dos muestras. No obstante, en este tema vamos a abordar únicamente los contrastes de bondad del ajuste. Por razones de espacio, el contraste chi cuadrado de Pearson de bondad del ajuste. El cual es uno de los más importantes y más frecuentemente utilizados. La idea básica de este contraste es la de comparar las frecuencias observadas en una muestra con las esperadas en el caso de que esa muestra procediera de una distribución que se pretende contrastar. Se emplea para distribuciones tanto de naturaleza discretas como continuas. Y en los dos casos es necesario que se disponga de una partición finita del espacio muestral para aplicar el contraste. Las hipótesis que se detectan en este contraste son las siguientes. La hipótesis nula sería que la muestra aleatoria procede de una población con función de distribución f . Mientras que la hipótesis alternativa sería que la muestra aleatoria no procede de una población con función de distribución f . Para aplicar este contraste, los datos se suelen disponer como se presentan en la siguiente tabla. En la primera columna se recogen las clases, modalidades o valores que toma la variable. En la segunda columna se suele recoger la frecuencia observada en la muestra para esas clases de la variable considerada. La tercera columna representa las probabilidades teóricas en el caso de que se cumpla la hipótesis nula. Mientras que la última columna representa la frecuencia esperada en caso de que se cumpla la hipótesis nula, que sostiene multiplicando el número total de observaciones existentes en la muestra por las probabilidades teóricas en caso de que se cumpla la hipótesis nula. Para aplicar el contraste de hipótesis chi cuadrado de bondad del ajuste, así como otros test de tipo chi cuadrado, es primordial que las frecuencias esperadas cumplan la condición de que sean mayores o iguales que 5. En caso contrario, será necesario agrupar clases de modo que se cumpla la condición. El estadístico de prueba chi cuadrado resulta ser bastante intuitivo y lo que hace es sumar la discrepancia al cuadrado entre las frecuencias observadas y esperadas respecto a las frecuencias esperadas para cada una de las clases, modalidades o valores de mi distribución de frecuencias. De tal modo que cabría esperar en el caso en el que las frecuencias observadas fueran muy parecidas a las esperadas, lo que ocurriría cuando se cumple la hipótesis nula, que su valor fuera muy próximo a cero. Lo que lleva a pensar que se tratará de un contraste de tipo unilateral en el que se rechazará la hipótesis nula cuando los valores de chi cuadrado sean muy altos. Luego será un contraste unilateral por la derecha. Bajo el supuesto de la hipótesis nula, el estadístico de prueba chi cuadrado se distribuye como un chi cuadrado con k-h-1 grados de libertad donde k sería el número de clases y h el número de parámetros desconocidos que son necesario estimar para determinar las probabilidades teóricas bajo el supuesto de la hipótesis nula. La región crítica del contraste, como ya he adelantado, es una región crítica para un contraste de tipo unilateral por la derecha, de tal modo que se rechazará la hipótesis nula cuando la chi cuadrado experimental supere el valor de un chi cuadrado con k-h-1 grados de libertad que deja a la izquierda una probabilidad de 1-alfa. Veamos a continuación un ejemplo de aplicación de este contraste. Una compañía eléctrica afirma, basándose en experiencias anteriores, que al final de invierno el 70% de las facturas han sido cobradas. Un 20% se cobrarán con pago aplazado a un mes, un 5% a dos meses y un 5% a más de dos meses. Al final del invierno actual, la compañía selecciona una muestra aleatoria de 400 facturas, resultando 287 de estas facturas cobradas, 49 a cobrar en un mes, 30 en dos meses y 34 a más de dos meses. ¿Podemos concluir, a raíz de los resultados, que la experiencia de los años anteriores se ha vuelto a repetir este invierno? Considere un nivel de significación igual a 0,05. Pues bien, lo primero que tenemos que plantear para resolver este ejercicio son las hipótesis nula y alternativa que se pretende testar. En concreto, la hipótesis nula será que este invierno es igual que los anteriores, mientras que la hipótesis alternativa será que este invierno es diferente de los anteriores. ¿En qué se traduciría la hipótesis nula? En que las frecuencias esperadas que se dieron en años anteriores se siguen cumpliendo. Pues bien, planteamos la tabla que se presenta a continuación donde se recogen los valores de las frecuencias absolutas para cuatro clases diferentes. Facturas cobradas, 0. Facturas cobradas a un mes, 1. Facturas cobradas en dos meses, 2. Y facturas cobradas en más de dos meses. Las probabilidades esperadas se detallan en el enunciado donde se indica que la probabilidad de que todas las facturas fueran cobradas el invierno pasado fue del 70%, la de que las facturas se cobren a un mes es del 20%, la de que se cobren en dos meses es del 5% y la de que se cobren a más de dos meses sería del 5%. Nótese que la suma de todas estas probabilidades es igual a 1, de tal modo que esta distribución constituye una partición finita del espacio muestral. El cálculo de las frecuencias absolutas esperadas se haría simplemente multiplicando las probabilidades esperadas de cada clase por el número total de observaciones, de tal modo que en el caso de la primera clase sería igual a 280. Una vez calculadas las frecuencias esperadas, sería conveniente calcular la diferencia entre las frecuencias absolutas y las esperadas y la proporción del cuadrado de esta diferencia respecto a las frecuencias esperadas para que una vez sumadas nos permitan obtener el estadístico chi cuadrado, que en este caso es igual a 26,99. Este estadístico, bajo el supuesto de la hipótesis nula, se distribuye como un chi cuadrado con k-h-1 grados de libertad, donde k sería el número de clases, en este caso 4, h el número de parámetros a estimar para determinar la probabilidad esperada, que en este caso ha sido 0 dado que viene especificada en el enunciado y por lo tanto los grados de libertad serán 3. De modo que el valor crítico para un alfa igual a 0,05 será el de un chi cuadrado que deja a la izquierda un 95% de la probabilidad que es igual a 7,81. Como se observa en el presente gráfico la región de rechazo se encuentra a la derecha de 7,81 donde podemos localizar el valor del chi cuadrado experimental que es igual a 26,99 De modo que podemos concluir a la luz de este gráfico que se rechaza la hipótesis nula y por lo tanto podemos afirmar que la experiencia de otros años no se ha vuelto a repetir este invierno. Veamos otro ejemplo. Los siguientes datos son las edades de una muestra de personas seleccionadas entre los asistentes a una sala de cine. Compruebe mediante un contraste chi cuadrado de bondad el ajuste si podemos aceptar que las edades siguen una distribución normal con un nivel de significación del 5%. Esto permite que se utilicen cuatro intervalos de igual amplitud para la distribución empírica. Esto es, que se empleen cuatro clases. Comencemos como en el caso anterior definiendo nuestras hipótesis. Nuestra hipótesis nula es que la muestra pertenece a una familia de distribuciones normal mientras que la hipótesis alternativa es que la muestra no pertenece a una familia de distribuciones normal. A continuación se han construido cuatro intervalos de igual amplitud para nuestra distribución y se han calculado las frecuencias absolutas para cada uno de esos intervalos. Dado que nuestro enunciado no nos da los parámetros de la distribución normal tendremos que estimarlo empleando la muestra. Por eso, se computan tal y como se realiza en esta diapositiva. De modo que nuestra distribución teórica tendrá una esperanza matemática igual a 55,83 y una varianza igual a 329,63. Para calcular las probabilidades teóricas vamos a suponer que el primer intervalo es abierto por la izquierda hasta el menos infinito y el último intervalo es abierto por la derecha hasta el más infinito para poder conseguir así una mejor aproximación de la normal. De tal modo, que para calcular las probabilidades teóricas bastará con calcular en el primero de los intervalos la probabilidad de que x sea menor que 41,50 que es igual a 0,21 en el segundo intervalo la probabilidad de que x está entre 41,50 y 60 0,38 en el tercero la probabilidad de que x esté entre 60 y 78,5 0,3 y en el último la probabilidad de que x sea mayor que 78,5 0,11 Una vez calculadas estas probabilidades teóricas bastará con multiplicar las mismas por el número total de observaciones muestrales para obtener las frecuencias absolutas esperadas. Aplicando la fórmula del estadístico chi cuadrado se obtiene que este toma un valor igual a 0,7 el cual se distribuye bajo el supuesto de la hipótesis nula como un chi cuadrado con k-h-1 grados de libertad donde es k es 4 el número de clases en las que se ha dividido mi distribución muestral y h el número de parámetros mu y sigma cuadrados estimados para calcular las probabilidades teóricas 2 en este caso Luego se trata de un chi cuadrado de 1 grado de libertad De modo que el valor crítico que sería el de un chi cuadrado que deja a la izquierda un 95% de la probabilidad será igual a 3,84 Considerando que el valor del chi cuadrado experimental de nuestro estadístico de prueba se encuentra a la izquierda del valor crítico podemos concluir que se acepta la hipótesis nula y nuestra muestra procede de una población normal Tablas de contingencia-correlación Las tablas de contingencia son empleadas para mostrar distribuciones bidimensionales de atributos o variables cualitativas Cuando éstas se emplean para representar variables cuantitativas se emplea el término tabla de correlación A continuación se representa una tabla de contingencia En ésta se representan en la primera columna las modalidades del atributo a a1, a2, así hasta ar y en la primera fila las modalidades del atributo b b1, bj, así hasta bs En el interior de la tabla se representan lo que se conoce como frecuencias absolutas conjuntas En este caso por ejemplo la frecuencia absoluta conjunta n11 b1 representa el número de veces que la modalidad a1 y b1 aparecen a la vez en mi muestra La última fila representa las frecuencias marginales del atributo b mientras que la última columna, los ni puntos representan la distribución de frecuencias marginal del atributo a La esquina inferior derecha recoge el sumatorio de los n.j y los ni puntos que coincide con el valor del tamaño muestral Las tablas de contingencia permiten dos aplicaciones de interés del estadístico chi cuadrado de Pinson El contraste de independencia y el contraste de homogeneidad Contraste de independencia Este contraste se aplica para contrastar la independencia entre atributos Las hipótesis del contraste serían las siguientes Hipótesis nula Los atributos a y b son independientes Hipótesis alternativa Los atributos a y b no son independientes Bajo el supuesto de independencia las probabilidades teóricas conjuntas de cada celda de nuestra tabla de contingencia se podrían calcular mediante el producto de las probabilidades marginales de las modalidades correspondientes a esa celda De tal modo que la frecuencia esperada se obtendrá tal y como se presenta en la diapositiva El estadístico de contraste o prueba es el mismo que empleamos en los casos anteriores lo que ocurre que sustituyendo las frecuencias esperadas con las que corresponderían en el caso de independencia Y este se distribuye como un chi cuadrado con r-1 por s-1 grados de libertad donde r sería el número de modalidades del atributo a y s el número de modalidades del atributo b La región crítica, como en los casos considerados anteriormente es una región crítica unilateral por la derecha en la que se rechazaría la hipótesis nula cuando el estadístico chi cuadrado experimental supere a una chi cuadrado con r-1 por s-1 grados de libertad que deja a la izquierda una probabilidad de 1 menos alfa Veamos un ejemplo A los efectos de comprender mejor cómo la gestión de la calidad total se practica en España se entrevistó a 86 empresas andaluzas Los datos obtenidos se presentan en la siguiente tabla de contingencia ¿Se puede decir que no hay diferencias entre la práctica de la calidad total entre las empresas de servicio e industria? Como hemos hecho en casos anteriores lo primero que habría que hacer es plantear las hipótesis de nuestro contraste La hipótesis nula sería la práctica del TQM es independiente del sector de actividad mientras que la hipótesis alternativa sería la práctica del TQM es dependiente del sector de actividad Una vez representados nuestros atributos en nuestra tabla de contingencia convendría calcular las frecuencias esperadas para cada una de las celdas A modo de ejemplo la frecuencia conjunta de la celda 2-2 se podría calcular multiplicando la frecuencia marginal de industria por la frecuencia marginal de no practicar TQM dividido entre el número total de observaciones que es 11,47 Una vez calculadas las frecuencias esperadas el cálculo del estadístico de prueba es trivial tal y como se presenta en esta diapositiva y es igual a 0,05 el cual se distribuye bajo el supuesto de la hipótesis nula como un h cuadrado de r-1 por s-1 grados de libertad donde r sería el número de clases del atributo a 2 en este caso y s el número de clases del atributo b 2 en este caso Luego los grados de libertad serán un grado de libertad De modo que el valor crítico será el de un h cuadrado de un grado de libertad que deja a la izquierda una probabilidad del 95% que es igual a 3,84 Como vemos en la siguiente gráfica y considerando que el h cuadrado experimental cae a la izquierda de 3,84 y por tanto en la región de aceptación se acepta la hipótesis nula y por lo tanto la práctica de la gestión de la calidad total es independiente de los sectores industria o servicios Contraste de homogeneidad del h cuadrado Bien, a diferencia del contraste de independencia en el contraste de homogeneidad la tabla de contingencia presenta una especificación ligeramente diferente En este caso por filas se recogen las distintas muestras que se pretenden comparar mientras que por columnas se recoge la característica o atributo que se pretende comprobar en relación con estas muestras De modo que lo que se pretende testar es que estas muestras son todas iguales considerando el atributo establecido por columnas La hipótesis del contraste en este caso sería que las muestras 1 a r son homogéneas mientras que la hipótesis alternativa sería que las muestras 1 a r no son homogéneas El estadístico de contraste se calcularía de manera similar a como se hacía en el caso del contraste de independencia con la única diferencia de que en este caso los valores de la última columna representarían el número de observaciones de cada una de las muestras Este estadístico de prueba se distribuye como un h cuadrado de r-1 por s-1 grado de libertad donde r sería el número de muestras y s el número de modalidades del atributo b La región crítica sería una región crítica como en los casos anteriores unilateral por la derecha cuyo valor crítico sería el de un h cuadrado de r-1 por s-1 grado de libertad que deja a la izquierda una probabilidad de 1 menos alfa En resumen Se ha indicado que los contrastes no paramétricos contrastan características de la distribución distintas de los parámetros son métodos de distribución libre y pueden ser también empleados a atributos nominales u ordinales Se ha explicado y ejemplificado el contraste chi cuadrado de bondad del ajuste y se ha explicado que es una tabla de contingencia y ejemplificado los contrastes chi cuadrados de independencia y homogeneidad