Un saludo a todos, soy David Castilla, tutor del Centro Asociado de la UNED en Huelva y me dispongo a presentar la segunda sesión del tema 7 dedicado a contrastes no paramétricos. Los objetivos pedagógicos de esta sesión son elaborar contrastes de aleatoriedad, en concreto los de rachas de Wald-Wolfowitz y el del cuadrado medio de diferencias sucesivas y manejar los contrastes de localización de signos, de signos para una muestra pareada y de Wilco-Song. Los alumnos de la Asignatura de Inferencia Estadística del Grado en Economía puedan contactar conmigo a través del foro del grupo de tutoría correspondientes en la plataforma ALF. En cuanto a las referencias necesarias para abordar este tema, cabe destacar Casas y Gutiérrez 2011, páginas A, 301 a 351 y Ruiz, Maya y Martín 1999, de las páginas 271 a 308. Otros manuales que aborden la inferencia estadística suelen incluir temáticas relacionadas con los contrastes no paramétricos. Cualquiera de ellos serviría y abordaría las cuestiones consideradas en esta sesión. En concreto, un ejemplo podría ser Novales 1997. En el tema 5 se han abordado los contrastes de hipótesis y se ha distinguido entre contrastes de hipótesis paramétricos y no paramétricos. Los contrastes paramétricos, que contrastan hipótesis sobre el valor que toman los parámetros de distribuciones poblacionales conocidas, se abordaron en el tema 6 y por lo general exigen fuertes supuestos distribucionales. Los contrastes no paramétricos se comenzaron a abordar en la primera sesión de este tema y como ya se comentó, contrastan características de las distintas hipótesis. Los contrastes no paramétricos son métodos de distribución libre y pueden ser también empleados a atributos nominales u ordinales. En concreto, en la sesión anterior se abordaron los contrastes chi cuadrado de bondad del ajuste y algunos contrastes de independencia y homogeneidad. Contrastes de aleatoriedad Permiten contrastar si un conjunto de datos se ha extraído aleatoriamente. Los más usuales son el contraste de rachas de Wall-Wolfowitz y el contraste del cuadrado medio de diferencias sucesivas. Antes de comenzar, sería conveniente introducir algunos conceptos necesarios para la aplicación de estos contrastes. Definamos rachas. Sea una sucesión en la que intervienen dos tipos de símbolos, A y B. Una racha es una sucesión de uno o más símbolos idénticos que están precedidos o seguidos por un símbolo diferente, o por ninguno. En este caso concreto, podréis observar que aparece tres veces A y a continuación tres veces B, luego A A A sería una racha y B B B sería otra racha. La longitud de la racha es el número de símbolos iguales que ésta incluye. La primera racha, constituida por A A A, tendría una longitud igual a 3. A continuación, se presenta el número de rachas y de la longitud de cada una de ellas en el siguiente ejemplo. La filosofía de la aplicación de los contrastes de aleatoriedad es la siguiente. Cuando existen pocas rachas, esto indica claramente que la secuencia no es aleatoria, porque existe una persistencia en la aparición de determinados símbolos. Mientras que cuando existen demasiadas rachas, estas son síntomas de que existe también un zigzag en los símbolos, lo que también sería indicador de que no existe aleatoriedad. También puede ocurrir... que se den variaciones cíclicas, lo que indicaría también ausencia de aleatoriedad por existir correlación serial. Contraste de rachas de Wald-Wolfowitz. Las hipótesis de este contraste serían... Hipótesis nula. La muestra es aleatoria. Hipótesis alternativa. La muestra no es aleatoria. El estadístico de contraste sería R experimental, que representa el número de rachas de la muestra. Y la región crítica podría ser bilateral o unilateral. En el caso de una región crítica bilateral, simplemente habría que ver los valores que dejan a la izquierda una probabilidad de alfa media y a la derecha una probabilidad de alfa medio de la distribución de probabilidad de las rachas bajo el supuesto de la hipótesis nula. Los contrastes a la izquierda y a la derecha, que tienen las especificaciones que se muestran en la diapositiva, se aplicarán cuando existe una tendencia a que tengan lugar pocas rachas o cuando existen una tendencia a que tengan lugar pocas rachas. o cuando existen una tendencia a que tengan lugar muchas rachas, respectivamente. Bajo el supuesto de la hipótesis nula, las rachas se distribuyen conforme a la distribución de probabilidad que se presenta en la diapositiva, donde R es el número de rachas, N1 sería el número de elementos de A en la muestra y N2 el número de elementos de B en la muestra. Esta distribución se encuentra tabulada. La naturaleza discreta de esta distribución hace difícil obtener el valor crítico, por lo que se debe seguir el criterio de aproximación. Se debe aproximarse todo lo posible a alfa o alfa medio sin superarlo. Cuando se verifica que N1 es mayor que 10 y N2 es mayor que 10, la distribución de probabilidad discreta considerada converge a una distribución normal con la siguiente parametrización. En este caso, se podría aplicar la región crítica bilateral o unilateral propia de un contraste que utilice la distribución normal. El estadístico a emplear sería Z experimentar, que sería el resultado de tipificar las rachas por los parámetros mu y sigma considerados. Como ejemplo, se presenta aquí, en esta diapositiva, la región crítica de un contraste bilateral. El contraste de rachas también puede emplearse cuando los datos no son dicotómicos. Cuando tengamos datos cuantitativos, simplemente habría que hacer las diferencias respecto a la mediana y computar los signos positivos y negativos para de esta manera determinar las rachas. Se despreciarían en este caso las diferencias iguales a cero, reduciéndose el tamaño muestral. También se pueden aplicar para el caso de series temporales, aplicando un procedimiento similar, y en este caso habría que indicar que el contraste debería ser unilateral por la izquierda. Finalmente, también se podría emplear este contraste para llevar a cabo la comparación de dos poblaciones. Veamos un ejemplo. El director de tesis de un joven investigador tiene dudas de que la muestra de edades extraída por su doctorando sea aleatoria, al comprobar que existe cierto patrón en la muestra extraída. Las características de la muestra del doctorando en relación con la edad se presentan a continuación. Compruebe si el director de tesis está en lo cierto empleando el contraste de rachas de Wolfe-Wolfowitz para un nivel de significación alfa igual a 0,05. En un primer lugar procederemos determinando nuestras hipótesis del contraste. La hipótesis nula sería la muestra es aleatoria mientras que la hipótesis alternativa sería la muestra no es aleatoria. Una vez calculada la mediana de la distribución, que en este caso es 31 con los procedimientos ya conocidos, habría que hacer las diferencias de los distintos valores observados con respecto a la mediana y computar los signos correspondientes. De este modo podemos comprobar que en este caso concreto existen 6 rachas. Considerando que n1 es igual a 11 y esto es por tanto mayor que 10 y n2 es igual a 12 y por tanto también mayor que 10 la distribución de probabilidad del estadístico de contraste R experimental converge a una distribución normal con lo que el valor del estadístico de contraste y la región crítica serían los que se presentan a continuación. Z experimental sería menos 2,77 y dado que la región crítica es bilateral se deberá cumplir que el valor absoluto de Z experimental sea inferior a Z de alfa medio que no sería más que el valor de una distribución de probabilidad normal que deja a la derecha una probabilidad igual a alfa medio. La siguiente gráfica representa una distribución normal estándar y se presenta la región crítica definida por los valores críticos 1,96 y menos 1,96. En este caso dado que el estadístico Z experimental se encuentra en la región de rechazo de la izquierda podemos concluir que se rechaza la hipótesis nula. Luego la muestra de edades no se puede considerar aleatoria. Contraste del cuadrado medio de diferencias sucesivas. Este se emplea cuando existe variación de naturaleza cíclica en las observaciones. En este caso los valores contiguos tendrán a ser altos o bajos existiendo correlación entre las observaciones sostenidas. Esto es, existirá correlación serial. Las hipótesis del contraste son las siguientes Hipótesis nula La muestra es aleatoria Hipótesis alternativa La muestra no es aleatoria El estadístico de contraste sería el que es la ratio entre el cuadrado medio de las diferencias sucesivas y la varianza muestral que sostienen con las formulaciones presentadas en esta diapositiva Donde N sería el tamaño de la muestra despreciando las diferencias iguales a cero. Bajo el supuesto de que la hipótesis nula sea cierta D cuadrado y S cuadrado son los dos estimadores insesgados de la varianza por accionar Por lo que el estadístico R toma valores próximos a 1, en el supuesto de que se cumpla la hipótesis nula Si la hipótesis nula no es cierta, entonces el cuadrado medio de las diferencias sucesivas es inferior a la varianza muestral Por lo que R tenderá a tomar valores cercanos a cero Esto nos permite concluir que el contraste que debemos emplear es un contraste unilateral por la izquierda Si la población de la que se ha extraído la muestra es normal, o se puede considerar asintótica normal esto ocurre cuando N es mayor que 20 Bajo el supuesto de la hipótesis nula se verifica que el estadístico R mayúscula se distribuye con una normal y varianza igual a partido La región crítica sería la correspondiente a la de un contraste unilateral por la izquierda de la distribución normal, donde el estadístico de contraste sería el resultado de tipificar el estadístico de prueba con la parametrización considerada en esta diapositiva Veamos un ejemplo Compruebe para el caso del ejemplo 1 la existencia de correlación serial con un retardo Considérese un nivel de significación igual a 0,05 En un primer lugar habría que definir las hipótesis del contraste. En este caso la hipótesis nula, la muestra es aleatoria y la hipótesis alternativa la muestra no es aleatoria Dado que en este caso D cuadrado es igual a 16,98 y S cuadrado es 48,81 el estadístico R toma el valor que se muestra a continuación 0,334 Considerando que el tamaño muestral es mayor que 20 R converge a una distribución normal, por lo que el estadístico de contraste y la región crítica son las que se presentan en la diapositiva El siguiente gráfico muestra la cola izquierda de una distribución normal Dado que el valor de Z experimental es igual a se puede concluir que se rechaza la hipótesis nula luego la muestra de edades no es aleatoria Contrastes de localización Permiten contrastar el valor de alguna medida la posición o localización de la distribución que sigue la población considerada En concreto suele contrastar un determinado percentil Sea una muestra aleatoria simple de tamaño n extraída de una población x procedente de una población de función de distribución fx continua, pero desconocida Y sea p un número real entre 0 y 1 y cpf el percentil de orden p de la distribución fx Entonces los contrastes de localización pueden contrastar para K0 conocido las siguientes hipótesis bilateral, unilateral por la izquierda y unilateral por la derecha Contraste de signos Este requiere como único supuesto la continuidad de la población de la que procede la muestra Las hipótesis del contraste serían cualquiera de las indicadas en la diapositiva anterior El estadístico de contraste en este caso sería S más que es el número de observaciones muestrales mayores que la medida de localización K0 que como hemos dicho corresponde a un percentil determinado que podría ser por ejemplo el cuartil primero o la mediana Se deben despreciar aquellas diferencias iguales a 0, dado que al considerarse como supuesto básico que la distribución continua la probabilidad de que esto ocurra es 0 La probabilidad de que una diferencia tome signo positivo es 1-p igual a q dado que p es el percentil y se distribuye como un fenómeno de Bernoulli de parámetro q La distribución del número total de signos positivos será el resultado de sumar n experimentos de Bernoulli dependientes lo que se distribuye conforme una familia de distribuciones binomial de parámetros nq De este modo, se puede concluir que el estadístico de prueba S más se distribuye como una binomial nq La región crítica puede ser bilateral unilateral por la izquierda o unilateral por la derecha como ya se ha indicado en casos anteriores A los efectos de determinar el valor crítico se debe considerar que dado que la distribución binomial es discreta es difícil obtener el valor exacto de cada alfa medio por lo que se debe exigir el criterio de aproximarse todo lo posible a alfa medio sin superarlo Si se cumplen las condiciones de convergencia de la distribución binomial a la normal n mayor que 30 n por p mayor o igual que 5 y n por q mayor o igual que 5 conviene emplear en este caso la distribución normal para determinar los valores críticos Veamos un ejemplo Un estudio sugiere que los trabajadores de banca españoles dedican en mediana 34 minutos en el descanso del almuerzo La directora provincial de un banco anotó el tiempo que 16 empleados elegidos al azar dedicaban al almuerzo sin que se enteraran Los datos obtenidos en minutos se muestran a continuación Al comprobar los datos, la directora quedó atónita al dar la impresión de que sus empleados parecían dedicar menos de 34 minutos al almuerzo Compruebe si esto es cierto para un nivel de significación alfa igual a 0,05 En un primer lugar habrá que establecer las hipótesis del contraste en este caso que la mediana sea mayor o igual que 34 o que la mediana sea inferior a 34 Hipótesis alternativa Para el cálculo del estadístico de contraste nos hemos ayudado de la tabla de continuación en la que se han calculado las diferencias de los valores de la variable con respecto a la mediana y a continuación se han identificado los signos negativos y positivos Podemos comprobar que existen cuatro signos positivos luego el estadístico de prueba S más es igual a 4 Dado que nuestro contraste de hipótesis es unilateral por la izquierda habrá que buscar el valor de una binomial con parámetros n igual a 15 y p igual a 0,5 debido a que estamos contrastando el percentil 50% esto es la mediana que deja a la izquierda una probabilidad menor o igual que 0,05 en este caso sería el valor 3 dado que el estadístico de prueba se encuentra en la región de aceptación debido a que es mayor que 3 se acepta la hipótesis nula para un nivel de alfa igual a 0,05 en el almuerzo Como se ha podido comprobar en el ejemplo anterior en el caso concreto de que se quiera contrastar el valor de la mediana de la distribución bastaría con considerar que p es igual a q e igual a 0,5 Este contraste también es posible aplicarlo al caso de muestras pareadas Una muestra pareada es aquella que de cada elemento de la muestra se observan dos características diferentes que pueden ser xy e yj Las hipótesis de contraste para el caso bilateral serían que la mediana de x sea igual a la mediana de y mientras que la hipótesis alternativa sería que la mediana de x es distinta a la mediana de y El estadístico de contraste sería en este caso igualmente S más que representa el número de signos positivos de la diferencia entre los valores xy e yj para cada una de las observaciones Cuando las medianas de x e y son iguales, se debe verificar que la mediana de la distribución de las diferencias debe ser igual a 0 lo que implicaría que se dejarían igual número de signos a la derecha y a la izquierda desde sus i De modo que el estadístico de prueba S más se distribuiría como una binomial con parámetros n y q igual a 0,5 La región crítica para el caso bilateral sería la que se muestra en la diapositiva Veamos un ejemplo Un nutricionista está investigando el efecto del consumo de un complemento alimenticio en la pérdida de peso Para ello extrae una muestra aleatoria simple de nueve voluntarios para tomar parte en el experimento consistente en pesarse antes de tomar el complemento alimenticio y un mes después de tomárselo Los resultados se muestran a continuación Compruebe si el complemento alimenticio ha tenido un efecto positivo a los efectos de reducir peso para un nivel de significación alfa igual a 0,05 En un primer lugar habrá que establecer cuáles son las hipótesis en este caso concreto la hipótesis nula sería que la mediana de x sea menor o igual que la mediana de y y la hipótesis alternativa que la mediana de x sea mayor que la mediana de y Para calcular el estadístico de contraste nos hemos servido de la tabla que se presenta a continuación donde hemos computado la diferencia entre el peso inicial y el peso final y a continuación identificado el signo correspondiente Una vez sumados los signos positivos obtenemos que el estadístico de prueba S más es igual a 6, el cual se distribuye con parámetro n igual a 9 y parámetro p igual a 0,5 dado que estamos contrastando la mediana. El valor crítico obtenido después de buscar en las tablas de la binomial sería igual a 6 por lo que se acepta la hipótesis nula para un alfa igual a 0,05 luego no se puede afirmar que el complemento alimenticio considerado ayude a perder peso Este contraste requiere además del supuesto de continuidad de signo la simetría de la población de la que procede la muestra Las hipótesis del contraste en el caso bilateral sería que la mediana es igual a un valor concreto m y la hipótesis alternativa que la mediana sea distinto de ese valor m El estadístico de contraste es T más, que no es más que la suma de los rangos de las diferencias positivas Esta distribución T más está tabulada La región crítica para el caso bilateral tendría una forma similar a la presentada en casos anteriores e implicaría, dado las características del estadístico de prueba, que valores grandes o pequeños del mismo suponen grandes desviaciones respecto a la mediana propuesta en la hipótesis nula Se cumple la condición de que cuando n es mayor que 5, la distribución de este estadístico de prueba se aproxima a una familia de distribuciones normales con parametrización que toma la formulación que se presenta en la diapositiva Luego la región crítica bilateral sería la propia que emplea la distribución normal estándar Y para calcular el estadístico de prueba simplemente habría que calcular z experimental que es el resultado de tipificar con la parametrización considerada el estadístico de prueba T más, el cual se distribuiría bajo el supuesto de la hipótesis nula como una normal estándar Veamos un ejemplo La directora del ejemplo 3 ha tenido conocimiento de que el contraste de signos rangos de Wilkinson es más fiable que el de los signos debido a que no sólo considera los signos, sino también la magnitud de las diferencias entre los tiempos y la mediana Considerando que tiene sentido asumir que la distribución es simétrica decide repetir el contraste con esta nueva especificación Ayúdela en su cometido para un nivel de significación de alfa igual al 5% En un primer lugar, como en casos anteriores habrá que establecer las hipótesis en contraste en este caso que la mediana es mayor o igual que 34, hipótesis nula y que la mediana es inferior a 34 hipótesis alternativa Para calcular el estadístico de contraste nos ayudaremos de la tabla que se presenta a continuación donde una vez calculadas las diferencias de los valores de la variable respecto a la mediana de la hipótesis nula 34 se toman los valores absolutos de estas diferencias para a continuación asignar rangos ordenando estos valores absolutos de menor a mayor Si varios valores absolutos de estas diferencias son iguales se les asigna a todos el promedio de los rangos que les hubiese correspondido si no hubiesen sido iguales Por ejemplo, para el valor absoluto de la diferencia igual a 1 dado que son los dos primeros entonces les correspondía el orden 1 y 2 por lo que se le asigna el rango igual a 1,5 que sería el resultado de sumar 1 y 2 y dividir por el número de elementos que tienen el mismo valor absoluto en este caso 2 y sería igual 1,5 Para obtener el estadístico Tm simplemente habría que sumar todos los rangos correspondientes a las diferencias positivas que en este caso sería 18,5 dado que en este caso el tamaño muestral es inferior a 15 debido a que se ignoran las diferencias iguales a 0 y por tanto no es posible aplicar en este caso la convergencia a la normal debido a que no se cumple su condición Habría que buscar en las tablas correspondientes propuestas por Kraft y Van Enden en 1968 de este modo y considerando que el contraste es unilateral por la izquierda pues habría que buscar para un tamaño n igual a 15 el valor que deja a la izquierda una probabilidad de 0,05 en este caso sería 30 como consecuencia rechazamos la hipótesis nula para un alfa igual a 0,05 luego los trabajadores emplean menos de 34 minutos en el almuerzo Veamos otro ejemplo La directora del ejemplo 5 ha caído en la cuenta de que no había considerado una de las observaciones de las que disponía de modo que ahora su muestra consta de las siguientes 17 observaciones donde aparece una nueva observación que es el valor 16 Repita de nuevo el contraste de rangos signos de Wilcoson en este caso para un nivel de significación de alfa igual a 0,05 en este caso las hipótesis del contraste serían las mismas que las del ejemplo 5 y a la hora de calcular el estadístico Tmás obtendríamos que su valor ahora es 19,5 utilizando el mismo procedimiento que se explicó en el ejercicio anterior dado que en este caso n igual a 16 es mayor que 15 se puede aplicar la converencia a la distribución normal de modo que el estadístico de contraste será ahora el resultado de tipificar Tmás y es igual a menos 2,59 en este caso la región crítica sería una región crítica unilateral por la izquierda de un contraste de tipo normal la siguiente gráfica muestra la cola de la izquierda de una distribución normal donde se ha representado la región de rechazo que son los valores inferiores a menos 1,64 dado que el valor de z experimental es menos 2,59 y está situado en la región de rechazo se rechaza la hipótesis nula luego los trabajadores empiezan a emplear menos de 3,4 minutos en el almuerzo en resumen se han explicado los contrastes de aleatoriedad en concreto se han introducido los contrastes de rachas de Wall-Wolfowitz y del cuadrado medio de diferencias sucesivas se han ejemplificado los dos contrastes de aleatoriedad explicados para el caso en el que se empleen datos de naturaleza cuantitativa se han introducido los contrastes de localización en concreto se han introducido los contrastes de signos y el de rango signos de Wilkerson se han ejemplificado los contrastes de signos para una muestra y muestras pareadas así como el contraste de rango signos de Wilkerson aplicando y sin aplicar la convergencia a la distribución normal