Un saludo a todos, soy David Castilla, tutor del Centro Asociado de la UNED en Huelva. Como tutor intercampus de la Asignatura de Inferencia Estadística, me dispongo a presentaros la primera sesión del tema 5, dedicado a los contrastes de hipótesis estadísticas. Los objetivos pedagógicos de esta sesión son los siguientes. 1. Conocer el concepto de hipótesis estadística. 2. Conocer y estimar los distintos errores que se cometen a la hora de realizar un contraste de hipótesis, así como los conceptos de potencia de un contraste y nivel de confianza. 3. Y finalmente, conocer las fases de elaboración de un contraste de hipótesis estadística. Durante el desarrollo de esta sesión podéis contactar conmigo online a través del chat o bien en mi sitio web. A través de la herramienta de web conferencia, pidiendo el turno de palabra. Por otra parte, los alumnos que no hayan podido asistir online a esta sesión pueden consultar sus dudas en relación con la misma en el foro de mi grupo de tutorías. En relación con la bibliografía básica de esta sesión, se recomienda el manual de Casas y Tutorías. Estadística 2. Inferencia estadística. En la última de sus ediciones. No obstante, cualquier manual de estadística que aborde la inferencia es también apropiado. Este es el caso, por ejemplo, de Novales 1997 o Ruiz Maya y Martín Pliego 1999. En el tema 1 se definió el concepto de inferencia estadística. La inferencia estadística usa datos musicales. La inferencia estadística usa datos muestrales para llevar a cabo estimaciones, tomar decisiones, realizar predicciones, comprobar hipótesis u otras generalizaciones acerca de un conjunto de datos más grande denominado población. Por ejemplo, en el control de calidad se suele recurrir a una muestra para no testar todos los productos de un lote, de tal modo que de esta manera se ahorran los costes, tanto temporales como económicos, de revisar uno por uno los resultados de cada uno de los productos de un lote, extrayéndose una muestra que represente a la totalidad. Este podría ser el caso de una empresa que fabrique jamones, en las que para controlar la calidad de los jamones se recurre a una muestra de estos, en lugar de analizarlos todos uno por uno. Como ya se ha comentado con anterioridad, la inferencia estadística consta de dos procedimientos principales. Por un lado, la estimación de parámetros poblacionales, que ha sido abonada por la Secretaría de Población, y por otro lado, la contrastación de hipótesis estadísticas acerca de la población, que será abordado en este tema y en los dos siguientes. CONCEPTOS GENERALES Una hipótesis estadística es una conjetura sobre alguna característica desconocida de la población. Realmente, un contraste de hipótesis estadística no es más que el procedimiento por el que se verifica una hipótesis estadística, mediante el empleo o el uso de la información que tiene una muestra. Existen dos tipos de contrastes, los paramétricos, los cuales contrastan hipótesis sobre el valor que toman los parámetros de distribuciones poblacionales conocidas a este tipo de contraste se dedicará el tema 6 y, por ejemplo, permitirán contrastar la hipótesis sobre mu o sisma de una familia de distribuciones normales. El otro tipo de contrastes de hipótesis estadística son los contrastes no-procesados. Estos contrastes testan hipótesis sobre otras características de las distribuciones distintas de los parámetros, tales como la forma, la localización, la aleatoriedad. A este tipo de contrastes se dedicará el tema 7 de esta asignatura. EXISTEN DISTINTOS TIPOS DE HIPÓTESIS ESTADÍSTICAS Son hipótesis simples las hipótesis estadísticas que se refieren a una hipótesis que tiene un solo valor del parámetro poblacional, mientras que son hipótesis compuestas aquellas que se refieren a una región del espacio paramétrico y puede tomar por lo tanto varios valores diferentes. Estas suelen tomar la forma de mayor que, menor que o distinto. También se distingue entre hipótesis nula e hipótesis alternativa. La hipótesis nula contiene aquello que se supone cierto a priori. Representa el estatus quo y siempre ha de incluir la igualdad. Se contrasta comparando la discrepancia existente entre su valor y el estimado mediante una muestra. Si la discrepancia es pequeña, se acepta, en caso contrario, se rechaza. La hipótesis alternativa es el complementario de la hipótesis nula, es aquello que aceptamos en caso de que la hipótesis nula sea rechazada. En relación con los contrastes de hipótesis paramétricos, se distingue entre contrastes de tipo bilateral o de dos colas y unilaterales o de una sola cola. Los bilaterales o de dos colas son aquellos en los que la hipótesis alternativa es compuesta y no especifica una dirección concreta. En estos casos, la hipótesis alternativa toma la forma distinta. Los contrastes unilaterales o de una sola cola son aquellos en los que la hipótesis alternativa es compuesta y especifica una dirección. En estos casos, la hipótesis alternativa toma la forma mayor que o menor que. Veamos el siguiente ejemplo. Formule las hipótesis nula y alternativas e indique si el contraste es bilateral o unilateral en los casos que se describen a continuación. Un fabricante de bombillas afirma que en promedio la duración de cada bombilla es de al menos mil horas. En este caso, estaríamos hablando de un contraste unilateral en el que se testan las hipótesis nula mu mayor o igual que mil y alternativa mu menor que mil. Una empresa recibe un lote de productos. A priori, se considera el envío válido. Salvo que se compruebe. En este caso, estaríamos hablando de un contraste unilateral en el que la hipótesis nula es que la proporción es menor o igual que 0,05 y la alternativa que la proporción es mayor que 0,05. Un investigador quiere saber si el salario medio de los hombres y las mujeres son iguales o no. En este caso concreto, se trata de un contraste de tipo bilateral en el que la hipótesis nula sería que la diferencia de las medias es igual a 0 y la alternativa que la diferencia de las medias es distinta de 0. Región crítica y de aceptación. En general, el esquema de todo contraste de hipótesis es el siguiente. En un primer lugar, se establecen las hipótesis del contraste. Por ejemplo, en el ejemplo del control de calidad de las piezas defectuosas. La hipótesis nula sería la proporción menor o igual que 0,05 y la alternativa la proporción mayor que 0,05. La hipótesis nula es la que se supone cierta a priori. A priori, en nuestro caso, se considera que el pedido es válido, salvo que se demuestre lo contrario. Se recoge a continuación información muestral que trata de verificar la hipótesis nula, obteniéndose de esta manera una proporción de piezas defectuosas. Si existe una discrepancia muy grande, entre lo que establece la hipótesis nula y lo que se obtiene con la muestra, pues la solución del contraste será que se rechaza la hipótesis nula. Mientras que cuando esta discrepancia sea pequeña, se aceptará la hipótesis nula. De tal modo que lo que se establece es una regla de decisión basada en la discrepancia entre los valores muestrales y los de la hipótesis nula. En nuestro ejemplo, si la proporción muestral es menor o igual que 0,07, se podría aceptar la hipótesis nula. Mientras que si la proporción muestral es mayor, 0,07, se rechazaría la hipótesis nula. En nuestro caso concreto, dado que la proporción muestral es 0,04, procederemos a aceptar la hipótesis nula. Al conjunto de muestras que llevan al rechazo de la hipótesis nula se las denomina región crítica. La región crítica está por tanto constituida por el conjunto de muestras para las que se rechaza la hipótesis nula. Mientras que la región de aceptación está constituida por el conjunto de muestras para las que se acepta la hipótesis nula. En el supuesto de que tuviéramos una región crítica y de aceptación de un contraste bilateral, la siguiente ilustración representa las regiones crítica y de aceptación de un contraste de tipo bilateral. En este caso, se puede observar que la región crítica está dividida en dos colas, una en el lado derecho y otra en el lado izquierdo, dado que se rechaza cuando existe una discrepancia con respecto al valor establecido en la hipótesis nula tanto a la alza como a la baja. Por otra parte, la región de aceptación indicará los valores centrales cercanos al valor establecido en la hipótesis nula. Los límites que definen las dos regiones estarían determinados por los valores críticos del contraste. Errores y potencia de un contraste La siguiente tabla de doble entrada muestra por columnas los distintos estados de la naturaleza que pueden tener lugar en un contraste de hipótesis. Esto es, cuál es la hipótesis cierta en cada uno de los casos, mientras que por filas muestra la decisión adoptada por el investigador. En este sentido, se puede observar que se pueden cometer dos tipos de error. Por un lado está el error de rechazar la hipótesis nula, a este error se lo denomina error tipo 1, alfa o nivel de significación y su tamaño se mide mediante la probabilidad de rechazar la hipótesis nula siendo ésta cierta. El otro tipo de error es el error tipo 2 o beta, que sería el error de aceptar la hipótesis nula siendo ésta falsa. Su tamaño se mide mediante la probabilidad de aceptar la hipótesis nula siendo ésta falsa. Existen además dos tipos de decisión correctas. El complementario del error tipo 1 o alfa sería el que se denomina nivel de confianza y sería el resultado de decidir aceptar la hipótesis nula siendo ésta cierta, mientras que el complementario del error tipo 2 o beta sería lo que se conoce como potencia de un contraste, que no sería más que la probabilidad de rechazar la hipótesis nula. Rechazar la hipótesis nula siendo ésta falsa. A modo de ejemplo, podría considerarse el caso de un juicio contra un imputado por un delito de tipo fiscal. A priori, el juez debería presumir la inocencia del imputado, de tal modo que en principio la hipótesis nula sería que el imputado es inocente, mientras que la alternativa sería que el imputado es culpable. El error tipo 1 o nivel de significación sería la probabilidad de declarar culpable al imputado siendo éste inocente, mientras que el error tipo 2 sería aquel que vendría definido por la probabilidad de declarar inocente al imputado siendo éste culpable. Por lo general, a la hora de establecer un contraste de hipótesis, se fija, a priori, el error tipo 1. Y una vez definido esto, se trata de buscar aquel contraste que tiene un menor error tipo b, o lo que sería lo mismo, una mayor potencia. Considérese el siguiente ejemplo. Sean las hipótesis simples en relación con la media de una población normal mu sigma las siguientes. Hipótesis nula mu sub cero igual a mil. Hipótesis alternativa mu sub uno igual a noventa. En el caso en el que la hipótesis nula sea cierta, la media muestral se distribuiría como una normal como la que se presenta sombreada en amarillo. En ésta, el eje de simetría vendría definido por el valor que toma la hipótesis nula, en la medida en que la media muestral es un estimador insesgado de la esperanza matemática de una distribución normal. El valor crítico definiría el límite a partir del cual los valores arrojados por las muestras llevarían al rechazo de la hipótesis nula, de tal modo que a la izquierda de ese valor crítico rechazaríamos la hipótesis nula. Estaríamos hablando de la probabilidad definida por el área sombreada en naranja. En el supuesto en el que la hipótesis alternativa fuera cierta, la densidad de la distribución normal vendría representada en el área de la curva de color blanco, en la que la media muestral, como estimador insesgado de la media poblacional, debería arrojar un valor igual al parámetro poblacional Mu1 . En aquellos casos en los que se hubiera aceptado la hipótesis nula siendo ésta falsa, estaríamos hablando del área que se encuentra a la derecha del valor crítico, que constituye lo que hemos venido a denominar el error tipo 2 o beta. Si observar por medio de las regiones de aceptación y de rechazo o crítica definidas en este contraste de hipótesis, el incremento del área alfa implicaría un decremento del área beta, lo que implica que ambos errores no pueden ser minimizados a la vez, sino que es necesario fijar en un primer momento uno de los dos errores y a continuación tratar de buscar el contraste de hipótesis que minimice el otro error. Veamos un ejemplo. Sea una variable aleatoria que se distribuye según una distribución normal Mu . Sobre el parámetro Mu de esta distribución se desea contrastar la hipótesis nula Mu igual a 110 frente a la alternativa Mu igual a 130 mediante una muestra aleatoria simple de tamaño 81, siendo la región crítica el intervalo media mayor o igual que 114. Determine los errores tipo 1 y 2, así como la potencia del contraste. Calculo del error tipo 1 alfa o nivel de significación. Este vendría dado por la probabilidad de que la media muestral fuera mayor o igual que 114 para el caso de que la hipótesis nula fuera cierta, esto es, que Mu fuera igual a 110. Tipificando y buscando en las tablas normales obtendríamos que esta probabilidad es igual a 0,0912. Calculo del error tipo 2 beta. Este error se correspondería con la probabilidad de aceptar la hipótesis nula siendo ésta falsa. En otras palabras, la probabilidad de que la media muestral fuera inferior a 114 siendo cierta la hipótesis alternativa, esto es, que Mu fuera igual a 130. Pues bien, tipificando y buscando en las tablas normales vemos que este valor es aproximadamente igual a 0. Finalmente, la potencia del contraste sería el complementario del error tipo 2 o beta, que en este caso es igual a 1. Obsérvese que para un error tipo 1 alfa, conforme el tamaño muestral crece, la varianza del estimador disminuye y consecuentemente la potencia del contraste mejora. Veamos otro ejemplo. Los errores de fabricación de un cierto proceso se distribuyen de acuerdo con la función de densidad que se presenta a continuación para valores de x mayores o iguales que 0 y de teta mayores que 0. Sobre el parámetro de esta función de densidad se desea contrastar la hipótesis nula de que el parámetro es igual a 1 frente a la alternativa de que el parámetro es igual a 2 mediante una muestra aleatoria simple de tamaño 1, siendo la región crítica el intervalo de los valores de x entre 0 y k. Calcule los errores tipo 1 y 2 en función de k, así como la relación entre estos dos tipos de errores. Solución. Cálculo del error tipo 1 alfa. Sería la probabilidad de que nuestro estadístico de contraste estuviera en la región crítica bajo el supuesto de que se cumpla la hipótesis nula. Integrando entre 0 y k obtendríamos que este valor es igual a 1 menos e elevado a menos k, de donde se puede deducir que k sería igual al menor logaritmo neperiano de 1 menos alfa. Cálculo del error tipo 2 o beta. Este error no es más que la probabilidad de aceptar la hipótesis nula siendo esto falsa. En otras palabras, la probabilidad de que x1 sea mayor que k siendo cierta la hipótesis alternativa, esto es, que el valor del parámetro sea igual a 2. Integrando entre k y más infinito se obtiene que esta cantidad es igual a e elevado a menos 2k. De modo que sustituyendo la expresión obtenida en el cálculo del error tipo 1 para k podríamos obtener una relación entre el error tipo 2 beta y el error tipo 1 alfa, cuya representación gráfica se presentará a continuación. Obsérvese que la relación entre los errores tipo 1 alfa y 2 beta es inversa y consecuentemente la relación entre el nivel de significación alfa y la potencia del contraste 1 menos beta es directa. Fases de un contraste de hipótesis. A la hora de resolver un contraste de hipótesis se deben seguir las siguientes fases. En un primer lugar se deben formular las hipótesis del contraste. Por ejemplo, la hipótesis nula mu igual a mu sub 0 igual a 3 y la hipótesis alternativa mu distinto de 3. Estamos hablando en este caso concreto de un contraste de tipo bilateral sobre la media. A continuación, la segunda fase será determinar el estadístico de prueba apropiado, el cual debe cumplir que tenga una función de probabilidad conocida dada la hipótesis nula, que debe contener el valor del parámetro contrastado y que salvo el parámetro el resto de términos son conocidos o estimables. En nuestro ejemplo supongamos que la población es normal y que la varianza es desconocida. En este caso el estadístico de contraste sería la media a mostrar menos el valor de la esperanza matemática contrastada en la hipótesis nula partido la cuasi-varianza a muestrar dividido entre la raíz cuadrada del tamaño muestral. Este estadístico de contraste se distribuye de acuerdo con una t de student de grados de libertad, al ser el resultado del cociente de una normal y la raíz cuadrada de un h cuadrado entre sus grados de libertad. La tercera fase consiste en seleccionar el nivel de significación. Generalmente se fija un nivel de significación que oscila entre el 1 y el 10%. En este caso concreto vamos a elegir un nivel de significación del 1%. Fase 4. Determinar la región crítica o de rechazo. En el caso concreto de este contraste vendrá determinada por la probabilidad de que el valor absoluto de una t de student de 17 grados de libertad deje a la derecha una probabilidad de alfa partido por 2. Buscando en las tablas de la t de student este valor sería 2,898. Fase 5. Seleccionar una muestra aleatoria del tamaño que se considera apropiado para calcular el estadístico de prueba. En este caso si se selecciona una muestra de tamaño igual a 18 nuestro estadístico de prueba tomaría el valor 18,247 suponiendo una cuasi-varianza muestral de 0,04486. Finalmente en la fase sexta se da la regla de decisión y su interpretación. De este modo, de acuerdo con este contraste de hipótesis, si el valor del estadístico de contraste t está entre menos 2,898 y 2,898 se acepta la hipótesis nula. Esta representaría la región de aceptación. Si el valor del estadístico de contraste es inferior a menos 2,898 o superior a 2,898 se rechazaría la hipótesis nula. En nuestro caso concreto dado que el valor del estadístico de contraste es 18,247 y que este es mayor que 2,898 rechazaríamos la hipótesis nula. En resumen. Se han definido contrastes de hipótesis estadísticas y se ha distinguido entre hipótesis simples y compuestas así como nula y alternativa. Además se ha distinguido entre contrastes de hipótesis unilaterales y bilaterales. Se han introducido los distintos tipos de error que se pueden cometer a la hora de realizar un contraste de hipótesis, alfa y beta. Igualmente se han introducido los conceptos de nivel de confianza y potencia de un contraste. Se ha ejemplificado además el cálculo de estas magnitudes en distintos casos. Finalmente se han detallado y ejemplificado las fases de un contraste de hipótesis estadística. Sin más me despido con un coliar saludo. Hasta la próxima sesión.