El presente vídeo tiene por objeto introducir los contrastes no paramétricos de Kolmogorov-Smirnov y de normalidad de Lilliefors para la asignatura Inferencia Estadística del Grado en Economía de la UNED. A continuación se muestran las principales referencias en relación con los contenidos tratados en este vídeo. Comencemos con el contraste de Kolmogorov-Smirnov. El contraste de Kolmogorov-Smirnov es un contraste no paramétrico de bondad del ajuste. La idea básica que existe detrás de este contraste es que un conjunto de datos muestrales puede considerarse procedente de una determinada distribución, de tipo continua, ya sea normal, exponencial, gamma, uniforme... Las hipótesis de contraste son las que se presentan en la diapositiva para los contrastes bilaterales, unilaterales por la izquierda y unilaterales por la izquierda. Este contraste se usa como alternativa a la prueba chi-cuadrado cuando el modelo propuesto bajo la hipótesis nula es de tipo continuo y el tamaño muestral es pequeño. Este tipo de contrastes no requieren que las observaciones muestrales se agrupen en intervalos o clases, aunque exige que los parámetros de las distribuciones teóricas de la hipótesis nula sean conocidos. Este contraste se lleva a cabo comparando las funciones de la distribución de la hipótesis nula. La distribución empírica de una muestra extraída de la población con la función teórica de distribución que correspondería para esa muestra bajo el supuesto de la hipótesis nula. Si hay evidencias de que las discrepancias existentes entre estas dos funciones de distribución medidas por medio de la diferencia entre las mismas es lo suficientemente grande, entonces se procederá a rechazar la hipótesis nula. Para la resolución de este contraste se seguirán los siguientes pasos. En un primer lugar, se obtiene la función de distribución empírica por medio de la formulación que se presenta en esta diapositiva, donde nx no es más que el número de observaciones existentes a la izquierda o iguales a cada valor de nuestra muestra, ordenada de menor a mayor, dividida por n que sería el número total de observaciones existentes en nuestra muestra. Por otra parte, en el segundo paso se calculará... ...la función de distribución teórica bajo el supuesto de la hipótesis nula para cada uno de los valores de la muestra de datos que se ha obtenido. A continuación, se calcularán las magnitudes que se presentan en la diapositiva dependiendo del tipo de contraste. Estas diferencias en el cálculo de las mismas tienen como objeto principal evitar que salgan números negativos para el estadístico de contraste finalmente obtenido. A continuación, y para terminar... ...se calculará el estadístico de contraste, cuya formulación depende del tipo de contraste de hipótesis. Esto es bilateral, unilateral por la izquierda o unilateral por la derecha. De modo que la región crítica vendrá definida tal y como se presenta en la siguiente tabla, donde lo que se hará es comprobar el valor del estadístico de contraste con el valor crítico, de modo que si el estadístico de contraste supera a este valor crítico, se procederá a rechazar la hipótesis nula. Los valores críticos de este estadístico de contraste... ...pueden encontrar en las tablas elaboradas para el test de Kolmogorov-Smirnov, disponible en la mayoría de los manuales de inferencia estadística. Pasamos ahora a introducir el contraste de normalidad de Lilly y Sforz. Este contraste es también un contraste no paramétrico de bondad del ajuste de la distribución empírica con la distribución normal. Este contraste pretende testar la hipótesis de que los datos provengan de una familia de distribución... ...de probabilidad normal. Las hipótesis nula y alternativas son las que se muestran a continuación... ...y se basan en la comparación de las funciones de distribución empíricas y teóricas de una distribución normal, de modo que la hipótesis nula será que las dos funciones de distribución son iguales, mientras que la alternativa, que ambas funciones de distribución son diferentes. Este contraste se emplea cuando la distribución teórica de la hipótesis nula... ...es normal, el tamaño de la muestra es pequeño y los parámetros de la distribución son desconocidos. Este contraste, al igual que el de Kolmogorov-Smirnov, no requiere que las observaciones muestrales se agrupen en intervalos o clases... ...y se diferencia de este en que no es necesario que los parámetros de la distribución de probabilidad teórica sean conocidos. Al igual que ocurría en el contraste de Kolmogorov-Smirnov, habrá evidencias para rechazar la hipótesis nula cuando la discrepancia... ...medida por medio de la diferencia entre la función de distribución empírica y la teórica sea lo suficientemente grande. Los pasos para la resolución del mismo son muy similares a los del contraste de Kolmogorov-Smirnov. Se comienza obteniendo la función de distribución empírica de la muestra. A continuación se obtiene la función de distribución normal para los distintos valores de la muestra. Se requeriría tipificar la variable y si se va a ampliar las tablas de la distribución normal tipificada. Esto no se ha hecho. Esto se hará en el ejemplo que vamos a presentar a continuación debido a que vamos a utilizar una función de Excel específica que no requiere esta tipificación. A continuación se calculará el estadístico de contraste y finalmente se obtendrá la región crítica, cuyo valor crítico se puede obtener empleando las tablas de valores críticos del texto de normalidad del IDF-Force, disponibles en la mayoría de los manuales de inferencia estadística. Veamos un ejemplo. Compruebe si la edad de los habitantes de un pequeño pueblo se distribuye de acuerdo con una familia de distribuciones de probabilidad uniforme con parámetros A igual a 0 y B igual a 100 y normal con parámetros mu-sigma desconocidos, empleando los contrastes de hipótesis no paramétricos estudiados. Utilice para ello la muestra aleatoria simple de edades de 40 habitantes del pueblo que se muestra a continuación. Nótese que la distribución de probabilidad uniforme tiene la siguiente función de distribución. Lo primero que tenemos que tener en cuenta es que utilizaremos los dos contrastes estudiados. ¿Por qué? Porque en el caso de distribución uniforme conocemos los parámetros de la misma y por tanto podemos aplicar sin ningún tipo de problemas el contraste de Kolmogorov-Misnov. Sin embargo, para el caso de la normal, los parámetros de la distribución son desconocidos, por lo que será necesario estimarlos. Luego tendremos que utilizar el test de normalidad del IDF-Force. Vamos a resolver este ejemplo empleando Excel. En la siguiente tabla de Excel se muestran las edades de los habitantes del pueblo ordenadas de menor a mayor. Lo primero que vamos a hacer es obtener la función de distribución empírica. Para ello, sabiendo que tenemos un total de 40 observaciones, lo que vamos a hacer es determinar las frecuencias relativas acumuladas de la tabla de frecuencias que presentamos en el Excel. De modo que la primera frecuencia relativa acumulada será 1 partido 40, mientras que la siguiente será 1 partido 40 más la frecuencia absoluta acumulada inmediatamente anterior. De esta forma, repetimos esta última formulación hasta el final de nuestra tabla de frecuencias para obtener la totalidad de la función de distribución empírica. A continuación, obtendremos para aplicar el test de Kolmogorov-Misnov con el objeto de comprobar... ...que mis datos provienen de una distribución uniforme, los valores de la función de distribución teórica uniforme con parámetros a igual a cero y b igual a cero. Empleando la formulación que presentábamos en la presentación, obtendríamos que la función de distribución teórica sería cada uno de los valores de las edades dividido por 100. Si arrastramos esta formulación hasta el final, obtendremos la distribución teórica uniforme. Para los datos de nuestra muestra. Una vez hecho esto, tendremos que calcular la diferencia entre las frecuencias relativas empíricas y las frecuencias relativas teóricas de la distribución uniforme en valor absoluto. Hecho esto, para determinar el estadístico de Kolmogorov-Misnov, simplemente habrá que buscar el máximo de esta última columna que hemos elaborado. En nuestro caso será 0,5. A continuación... Buscará en tablas el valor crítico del test de Kolmogorov-Misnov de tipo bilateral para un alza igual al 5%. Su valor es 0,21. Como el estadístico de contraste es inferior al valor crítico, se procederá a aceptar la hipótesis nula. Por lo que se puede concluir que no existe evidencia suficiente para rechazar la hipótesis nula de que la distribución de la población es uniforme con parámetros a igual a cero y b igual a cero. Para llevar a cabo... El test de Lillie-Force de normalidad bastará con determinar los valores de la función de distribución teórica normal. Para ello emplearemos en un primer lugar la función distri.norm.n, indicando que se calculará el valor de la función de distribución para cada una de las edades de nuestra muestra con los valores de media y desviación típica que se presentan en el Excel, los cuales han sido calculados por medio de la función. La función de distribución media aritmética y la cuasi-desviación típica o desviación típica muestral. En esta función se indica verdadero, puesto que se pretende obtener el valor de la función de distribución acumulada. Una vez hecho esto, se calculará la diferencia entre la función de distribución empírica y la función de distribución teórica, calculando en todo caso su valor absoluto. Finalmente, se obtendrá el máximo de esta columna. En este caso concreto es 0,11. Después de buscar el valor crítico en las tablas del LibreForce, obtenemos que este valor crítico es 0,01. De modo que el estadístico de contraste supera el valor crítico, por lo que existen evidencias suficientes para rechazar la hipótesis nula de que la distribución de probabilidad de la población es de tipo normal, con la parametrización. En la gráfica que se presenta a continuación, podéis observar cuáles son las diferencias existentes entre la función de distribución empírica, la función de distribución teórica uniforme para los datos de la muestra y la función de distribución teórica normal para los datos de la muestra.