Ya estamos empezando a grabar esta sesión de hoy del Seminario de Econometría Aplicada. Y bueno, ya veo que tenemos unos cuantos compañeros conectados. Está, como digo aquí en presencial, Margarita y Patricia. Y en internet tenemos a Ana Ruiz, Aurora, Carvallido, Carles, Carlos, Cipriano, Ignacio, Jesús Alberto, Alberto, Dolores, Manuel Perea, María José Lara, Victoria Martínez. Un grupo interesante. Vamos a empezar ya, como digo, con el seminario. Ya estamos grabando y voy a mostrar en pantalla la presentación que vamos a manejar hoy. Estáis ya viendo todos en pantalla la página web del seminario, ¿verdad? Os mandó Cipriano un correo explicando que todo... Todos los contenidos van a estar disponibles desde esta página web. Es muy sencillo. Tenéis que ir bajando. Igual que accedéis a Teams desde aquí mismo, ¿no? Desde este enlace. Un poquito más abajo os explicamos que a medida que se vaya avanzando en el seminario los contenidos estarán disponibles en diferido a través de este enlace. ¿Lo veis ahí? Siempre hay que ir ahí a buscar los contenidos, ¿de acuerdo? A ver, porque sigue llegando gente en sala de espera. Entonces, antes de seguir, vamos a admitir a la gente que va llegando. Vale. Entonces, está bien la página web. Si pinchamos en este enlace, ahora veréis que ya hay unos cuantos contenidos disponibles. Se desplegará... Además, esto es responsive. Esto lo vais a poder ver también en el móvil, si queréis. Se desplegará un menú como este, en el que ya, si empezamos a navegar, pues hay unos cuantos contenidos. O sea, hay una breve introducción que hemos hecho aquí para que todo el mundo lo tenga un poquito presente. Aquí tenéis también enlaces al software Gretel IR. Esta parte ya os la explica Cipri el martes, que seguiréis con la parte práctica los martes a la misma hora, a partir de las 4. Y si vamos avanzando aquí en la parte superior derecha, pues veremos que aquí tenéis el vídeo de la semana pasada. ¿Lo veis? El vídeo de la semana pasada, la sesión que expliqué yo, lo tenéis aquí. Y no solo eso, sino que tenéis también el PDF que yo estoy manejando en la sesión. ¿Lo veis? El PDF, el PDF ahí arriba, donde pone presentación del seminario, y abajo el vídeo. De la misma forma, si seguimos avanzando arriba a la derecha, este es el vídeo que grabó Cipriano, ¿lo veis aquí? Y ahí tenéis la presentación que usa Cipriano. ¿Vale? Y así sucesivamente, si seguimos avanzando hacia arriba y hacia la derecha, pues lo subimos. Y en los siguientes casos que vamos a ver, tanto conmigo como con Cipriano, tendréis un caso 2, que es un supuesto básico de regresión lineal múltiple. Un caso 3, de función de demanda a través de regresión lineal múltiple. Un caso 4, de función de producción de tipo copduglas. Y ya tenéis aquí el PDF también. Si los queréis ir ya ojeando, ahí estarán los casos 2, 3 y 4, que serán los que veremos a continuación. Y de hecho, si seguimos avanzando arriba a la derecha, aparecerán los casos 5 y 6, demanda u oferta de tabaco y la tuba de philips. ¿Y ya veis el enlace ahí? ¿Vale? O sea que todo el material, tanto vídeos como PDFs, irá apareciendo aquí además con la suficiente antelación. ¿Vale? Fijaros que ya están 6 casos subidos con la suficiente antelación. ¿De acuerdo? Entonces vamos a seguir. Vamos a seguir. Voy a seguir yo con la presentación. Que tocaba en la sesión en la que estamos, que insisto, estamos dentro de la introducción al seminario. Nosotros, el vídeo de la semana pasada mío lo tenéis aquí. Y estábamos usando un PDF, que es este, que vamos a seguir usándolo hoy. ¿Vale? Bueno, por dicho esto, espera, que tenemos agentes. Tenemos agente, no, ya está toda la gente dentro del sistema. Vamos a ver, la semana pasada, ¿dónde lo habíamos dejado? Os enviaremos algún correo más, lo enviará Cipriano de vez en cuando recordando de dónde podéis encontrar el material. ¿Eh? Pero bueno, ya veis que va a ser muy fácil. Teníamos este caso, que vamos a llamarle caso número 1, que es el que estáis viendo con Cipriano, ¿verdad? La semana pasada lo visteis con Greter, cómo empezar a trabajar con este caso, que es muy sencillo. Habíamos comentado su gráfico. Habíamos explicado la semana pasada la metodología de mínimos cuadrados ordinarios de manera muy básica, tanto para lo que es una regresión lineal simple. A ver, seguimos aceptando compañeros en la sala. Regresión lineal simple, aquí tenéis lo básico. Y regresión lineal múltiple, que también habíamos insistido que hay dos planteamientos. Datos originales y los sumatorios, o mucho más. Lo más habitual, varianzas, covarianzas y media. Y habíamos insistido mucho que fijaros bien lo que hay dentro de las matrices. Aparece la n multiplicando a las varianzas y covarianzas y sólo cuando se haga el cálculo para la estimación de los parámetros beta1 y beta2 y se haga la inversa de x'x a la menos 1 y se multiplica por x'y, en ese momento desaparecerán las n's, porque una que multiplica se simplifica con una que divide. También hicimos un breve recordatorio de cuestiones básicas de estadística que necesitamos manejar. ¿A que sí? Por ejemplo, definiciones de esperanzas matemáticas, de varianzas y de covarianzas. Y hoy vamos a añadir estos conceptos clave que van a ser imprescindibles para seguir avanzando. En esta diapositiva veis varios conceptos clave. Veis por una parte el concepto suma de cuadrado residual, SCR, suma de cuadrado residual. Y tenéis su expresión matricial. La expresión matricial que es muy importante manejarla que nos permite calcular la suma de cuadrado residual. La expresión matricial es y'y menos beta' que multiplica por x'y. Se le puede llamar suma de cuadrado residual o también de mayúscula de discrepancias, o residuos, o errores. En definitiva es la suma de cuadrados de los errores. La semana pasada vimos con todo detalle lo que era x'y. Si trabajamos en desviaciones a las medias, ahí lo veis ¿verdad? Vector columna de dos filas por una columna. Y si trabajamos no en desviaciones a las medias sino que trabajamos con los datos de sumatorios, lo veis ahí. Vector columna tres filas por una columna. ¿A que sí? O en el supuesto de regresión lineal simple, ahí lo veis. Vector columna dos filas por una columna. Entonces está claro que x'y lo tenemos bien identificado ¿verdad? ¿Qué será el beta'? Pues es el vector traspuesto ¿de cuál? Del vector b que lo veis ahí. Veis el vector b que tiene tres filas por una columna y tres filas por una columna. Vector b, tres filas por una columna. Son el vector de estimación de los parámetros estructurales del modelo. En una regresión lineal múltiple como esta que vemos aquí con dos regresores x1 y x2 los tres parámetros a calcular son alfa, beta1 y beta2. Luego el vector b, tres filas por una columna. ¿Qué será beta'? El traspuesto. Una fila por tres columnas. ¿De acuerdo? Y si estuviésemos en esta estimación de regresión lineal simple sólo estamos estimando alfa y beta, el vector b sería de dos filas por una columna y beta' que sería una fila por dos columnas. Bien, ya tenemos identificado también lo que es beta', ¿qué será y'y? Y era el vector columna original, el vector columna original de doce filas por una columna, ¿qué es y'? El traspuesto. Una fila por doce columnas. ¿No? ¿Y'y por i se puede multiplicar? Sí, porque el número de columnas del vector que premultiplica coincide con el número de filas del vector que posmultiplica, siendo el resultante una fila por una columna. O sea, es un número, es una constante. ¿Cómo es posible que podamos hacer un ejercicio matricial en el que tenemos una constante y'y menos una expresión matricial beta'x'y, que también habrá de ser una constante? Vamos a razonarlo. Estas cosas son muy sencillas en la Algebra Lineal, pero por si acaso lo quiero dejar claro, ¿no? El beta' hemos quedado que era, en los ejemplos, por ejemplo, en este ejemplo de Regresión Lineal Múltiple, el beta' quedamos que era una fila por tres columnas. Y el x'y es tres filas por una columna. ¿Se puede multiplicar? Sí. ¿Cuál es el resultante? Una fila por una columna. Es un número. Conclusión. Siempre el resultado de esta expresión matricial que veis ahí, y'y menos beta' que multiplica por x'y, siempre va a ser un número. La resta de los números. ¿De acuerdo? Es una constante. A esa constante la llamamos suma de cuadrados residual. Suma de cuadrados de los errores. ¿De acuerdo? Otro concepto muy importante. La suma de cuadrados explicada. SCE. También tenéis aquí una expresión matricial. El beta' x'y es justamente el mismo beta' x'y que teníamos en la expresión anterior. Es el mismo. ¿Lo veis? Beta' x'y, por tanto lo hemos reflexionado ya, que es una constante. Una fila por una columna. ¿Sí o no? A esa constante hay que restarle menos n, tamaño de la muestra en este ejemplo 12, que multiplica por el cuadrado de quién? El cuadrado de la esperanza matemática de la variable dependiente y. ¿Cómo se hallaba la esperanza matemática de y? Fácil, ¿verdad? En este caso sumatorio de y partido por n. Bueno, si ya tenemos definida la suma de cuadrados residual y la suma de cuadrados explicada, ahora vamos a definir la suma de cuadrados total. SCT. Que es suma de cuadrados explicada más suma de cuadrados residual. ¿Lo veis ahí? Suma de cuadrados total. Y de ahí saltamos, saltamos al concepto que está abajo del todo, a la última fila. Pone R cuadrado, coeficiente de determinación, se define como un cociente. Un cociente. ¿Un cociente entre quién? La suma de cuadrados explicada dividido la suma de cuadrados total. ¿No? Además se nos recuerda R cuadrado, coeficiente de determinación, siempre estará comprendido entre 0 y 1. Porque la suma de cuadrados explicada es más pequeña con carácter general que la suma de cuadrados total. Más pequeña. Por tanto, con carácter general R cuadrado estará comprendido entre 0 y 1. Y R cuadrado, coeficiente de determinación, lo que representa es una bondad del ajuste a nivel muestral. Bondad de ajuste a nivel muestral. Si nosotros estamos estimando en regresión lineal simple, lo que estamos estimando es la ecuación de una recta. Una recta. Una recta de regresión cuya ecuación es I sub T igual a alfa más beta que multiplica por XT. Eso es una recta. Que se ajustará mejor o peor a una nube de 12 puntos. Si imagináis una nube en el espacio bidimensional, bidimensional eje X y eje Y, una nube de 12 puntos, esa recta se ajustará mejor o peor. ¿Y si estamos en una regresión lineal múltiple y pasamos al espacio tridimensional? Pues I igual a alfa más beta1 que multiplica X1 más beta2 que multiplica por X2 es un plano de regresión. Es un plano, por tanto, bidimensional. Y ese plano bidimensional se ajustará mejor o peor a la nube de puntos en el espacio de tres dimensiones X1X2Y. ¿De acuerdo? Bueno, voy a cambiar de presentación un momentito. Tengo aquí otro caso que vamos a llamarle el caso 1 bis, caso 1 bis, que es un caso en el que vamos a empezar a hablar con regresión lineal múltiple. Regresión lineal múltiple. Es el siguiente caso que con CIPRI vais a ver el martes que viene. ¿Vale? Caso 1 bis. Claro, ya no es tan sencillo como el que veíais el martes pasado con CIPRI. En este caso hay dos variables explicativas. X1, T... Perdón. X2T y X3T. La variable explicada es y las explicativas son X2 y X3T. ¿Lo veis? Caso 1 bis. Lo vais a ver con CIPRI y con Gretel y etcétera, etcétera. Claro. Ahí tenéis las gráficas las gráficas correspondientes a las tres variables objeto de análisis. La variable dependiente Y y las variables explicativas X2 y X3. ¿Las veis? Y en color rojo X2 en color azul X3 en color verde. ¿Veis el plano de regresión? Hay una nube de puntos que están marcados ahí con estas X. ¿Las veis? Esa es la nube de puntos y veis el plano que es una trama de color rojo, rosaje, ¿verdad? Plano de regresión que se ajustará mejor o peor a la nube de puntos. ¿De acuerdo? Vale. Volvemos al caso que nos ocupaba. Hombre, evidentemente nosotros deberíamos tener unos conceptos matemáticos básicos y estadísticos básicos, claro. Yo ahora todo esto no debería estar explicándolo mucho. Esto no os va a puntuar nada en el examen, ¿eh? Todo esto se supone que lo sabéis. Por eso yo no voy a explicarlo justo pero no voy a profundizar más porque no hay tiempo material de profundizar, ¿no? Vale. Entonces, insisto. ¿Qué mide R cuadrado? Vamos a reflexionarlo muy bien. ¿Por qué mide la bondad de ajuste a nivel muestral? Y solo a nivel muestral con lo poco que eso significa porque a nosotros no nos interesa nada. Esos 12 puntos que salen de una población mucho mayor es una simple muestra de las muchas muestras con las que podríamos estar trabajando. Esta aproximación muestral solo es una aproximación al problema. Nosotros estamos interesados siempre en el nivel poblacional. Poblacional. Por tanto, siempre es crítico la parte que veremos más adelante de inferencia estadística. De pasar de lo muestral a lo poblacional. Si tuviésemos una sólida base estadística lo que os estoy contando me estaríais entendiendo muy bien de lo que es una muestra, de lo que es una población y de lo que implica la inferencia. Bueno, ¿por qué? ¿Por qué el R cuadrado solo mide la bondad de ajuste a nivel muestral? ¿Por qué mide eso? Claro, mide eso porque fijaros en la definición. Suma de cuadrados explicada dividida por suma de cuadrados total. La suma de cuadrados total sumatorio de i al cuadrado i prima i sumatorio de i al cuadrado concepto también muy simple de algebra lineal representa de manera muy sencilla, es una aproximación al total de la variabilidad de la variable i. Vamos a expresarnos en nuestros términos coloquiales. Total de variabilidad de la variable i. De ese total de variabilidad de la variable i hay una parte que viene explicada por el modelo. Por la recta o por el plano de regresión. Esa parte que viene explicada por el modelo, la recta o el plano de regresión es lo que llamamos SCE. Suma de cuadradas explicada por el modelo. Pero hay una parte que no viene explicada por el modelo. Esa parte que no viene explicada es el error discrepancia, residuo o perturbación aleatoria. ¿Verdad? La SCR o D mayúscula. ¿Qué representa por tanto el cociente SCE partido por SCT? Lo podemos interpretar o en tanto por uno, que es como está en la fórmula. O si multiplicáis ese cociente por cien, lo podemos interpretar en tanto por ciento. Si no multiplicamos por cien, tanto por uno. Si multiplicamos por cien, tanto por ciento. ¿Qué es? Es el tanto por ciento que representa la suma de cuadrado explicada respecto de la suma de cuadrado total. Es decir, del total de variabilidad de la variable I la parte que sí viene explicada por el modelo. Y a eso nos referimos con la bondad del ajuste a nivel muestral. Parte de variación de I que viene explicada por el modelo. Hay otra parte que no, que es la discrepancia, error, residuo o perturbación aleatoria. Bueno, esta parte es muy sencilla y tampoco tiene demasiada importancia. Es muy sencilla. Mucho más importante es el concepto penúltimo que veis ahí. El penúltimo que pone sigma cuadrado igual d mayúscula partido por n menos k. ¿Lo veis ahí todos? Hoy hablamos un poco de la perturbación aleatoria. Es crítica. La perturbación aleatoria es crítica. Tenéis que pensar aquí lo ideal es que tuvieses una base muy sólida de estadística teórica o estadística probabilística o estadística inferencial. Que viene a ser más o menos lo mismo. Un buen curso de estadística, en definitiva. No la estadística introducida o descriptiva que es el preámbulo o antecedente de esto que estoy diciendo. Si tuviésemos esos conceptos estadísticos claros no tendríamos ningún problema con ese tema. La perturbación aleatoria o error o discrepancia o residuo es una variable aleatoria que debe cumplir cuatro hipótesis de trabajo para que nosotros realmente podamos aplicar esta metodología de los mínimos cuadrados ordinarios a un planteamiento lineal lineal, sea recta de regresión o sea plano de regresión estamos hablando de planteamientos lineales, o sea las variables x no están elevadas al cuadrado ni son raíces son expresiones lineales las cuatro hipótesis eran os lo recuerdo esperanza nula homoscedasticidad no autocorrelación y normalidad o sea el error se comporta con una variable normal cuya media es cero y tiene una varianza constante a la varianza del error que por la hipótesis de homoscedasticidad es constante la llamamos en general sigma cuadrado sigma cuadrado es la varianza de la perturbación aleatoria o error o residuo o discrepancia y nuestra hipótesis de trabajo es que es constante sea cual sea el periodo t en el que estamos trabajando en nuestra serie temporal nuestra hipótesis de trabajo es que esa varianza se va a mantener constante homoscedasticidad pues bien como se podría estimar como se podría estimar esa varianza esa varianza que es desconocida nosotros suponemos que es constante es una hipótesis de trabajo pero en realidad es una varianza desconocida pues esta expresión que aparece aquí en penúltimo lugar es una estimación insesgada es un estimador insesgado de esa varianza de la perturbación aleatoria o error o sea una forma de estimar esa varianza de la perturbación aleatoria o error cuál es pues es dividir la suma de cuadrado residual entre qué entre n menos k siendo n el tamaño de la muestra y siendo k el número de regresores incluyendo el término independiente es decir en una regresión lineal simple como esa dos regresores k igual a 2 en una regresión lineal múltiple como esta tres regresores k igual a 3 en k incluimos el término independiente este es un concepto importantísimo varianza de la perturbación aleatoria o error y un estimador insesgado de dicha varianza que se obtiene a partir de la suma de cuadrado residual bien os acordáis que habíamos dicho el otro día de los estimadores alfa beta1 y beta2 que se obtienen por ejemplo por mínimos cuadrados ordinarios con esta expresión matricial que veis aquí este alfa sería el alfa estimado alfa estimado alfa con un sombrerito que le pondríamos aquí un sombrerito el beta1 le pondríamos un sombrerito es el beta1 estimado y el beta2 le pondríamos un sombrerito beta2 estimado estimado quiere decir que a partir de una muestra concreta con la que estamos trabajando hemos obtenido una estimación concreta a la que le ponemos el capuchito otra cosa es que a nivel poblacional o sea a nivel de cualquier muestra con la que pudiésemos trabajar cuál es el alfa poblacional cuál es el beta1 a nivel poblacional y cuál es el beta2 a nivel poblacional la semana pasada os dije todos estos estimadores de estos parámetros estimador de alfa estimador de beta1 y estimador de beta2 se comportan como una distribución t de studen con n-k grados de libertad eso quiere decir que son variables aleatorias con esa distribución que me muestre él pues bien claro esas variables aleatorias t de studen con n-k grados de libertad como cualquier variable aleatoria tendrán sus medias y tendrán sus desviaciones típicas y tendrán pues todas las características de una variable aleatoria su puntosi, su simetría lo que sea lo que tiene cualquier variable aleatoria de momento sabemos aquí tenemos gente en la sala de espera perdonad un momentito sabemos que la distribución es t de studen con n-k grados de libertad en esta expresión que está aquí ahora la la expresión que está debajo de la suma de cuadrados total la expresión que pone es una expresión matricial que pone sigma cuadrado multiplica por x prima x a la menos uno la veis esa expresión es crítica es muy importante qué significa qué significa sigma cuadrado lo acabamos de decir sigma cuadrado significa varianza de la perturbación aleatoria o error y un estimador insesgado de dicha varianza de la perturbación aleatoria o error acabamos de decir que sería la suma de cuadrado residual dividido entre n-k pues ahí veis y por cierto estamos estimando un número es una constante es un número en términos matriciales una fila una columna una fila por una columna pues esa constante está multiplicando a la matriz inversa de x prima x la matriz inversa de x prima x que esa matriz inversa de x prima x en un caso como éste sería una matriz de dos por dos y en un caso como éste sería una matriz de tres por tres o sea un número que multiplica por una matriz ¿cómo se multiplica un número por una matriz? buena pregunta ¿verdad? algebra lineal muy básica ese número multiplica a todos los elementos de la matriz ¿vale? a todos los elementos de la matriz pues esa expresión resultante que evidentemente es una expresión matricial es la matriz de varianzas y covarianzas de los estimadores de los parámetros estructurales del modelo repito porque es muy importante es la matriz de varianzas y covarianzas de los estimadores de los parámetros estructurales del modelo imaginaros que estuviésemos en el ejemplo que estabais trabajando con Cipri el martes pasado dos por dos la matriz X'X a la menos uno dos por dos la multiplicáis por sigma cuadrado y sigue siendo una matriz de dos por dos ¿verdad? hay una diagonal principal de esa matriz de dos por dos una diagonal principal en la que están los elementos fila uno, columna uno fila dos, columna dos y además de esa diagonal principal por encima de la diagonal principal está el fila uno, columna dos y por debajo de la diagonal principal el fila dos, columna uno deberíamos tener un dominio exquisito de álgebra matricial ya ves que no estoy explicando muchas cosas porque sé que tenéis un dominio exquisito de álgebra matricial ya doy por hecho que tenéis un dominio al cien por cien de álgebra lineal bueno entonces ¿qué será el elemento fila uno, columna uno? el elemento fila uno, columna uno será la varianza del estimador de alfa y en el fila dos, columna dos ¿qué tendremos? la varianza del estimador de beta y en el fila uno columna dos y en el fila dos, columna uno que va a ser simétrico va a ser simétrico ¿qué tendremos? la covarianza la covarianza de los estimadores alfa y beta estas covarianzas a nosotros no nos van a ser útiles ¿de acuerdo? llegado a este punto dichas covarianzas no van a ser útiles pero las varianzas que están en la diagonal principal son críticas las varianzas de la diagonal principal la varianza de alfa y la varianza del estimador de alfa y la varianza del estimador de beta son críticas y ahora vamos a hacer una reflexión teórica muy importante si todo lo que os dije el otro día es cierto y lo que os dije el otro día es que estamos en un modelo helio o bleue ¿os acordáis? en inglés bleue en castellano helio estimación lineal insesgada óptima dado que hemos aplicado mínimos cuadrados ordinarios a una estimación lineal en base a unas premisas a unas hipótesis de la perturbación aleatoria quedan cuatro normalidad, esperanza nula no autocorrelación y que me queda homosedasticidad claro, insesgado y óptimo si es insesgado ¿cuál será la esperanza matemática de alfa capuchito? del estimador de alfa respuesta, si es insesgado esa esperanza matemática será igual a alfa al alfa poblacional ¿de acuerdo? la esperanza matemática de la variable aleatoria que estamos utilizando para estimar dicho parámetro estructural variable aleatoria que tiene una distribución en el muestreo t de student con n-k grados de libertad dado que dicha estimación es insesgada dicha esperanza matemática coincide con el parámetro que pretendemos estimar a nivel poblacional ¿de acuerdo? es una afirmación muy importante la varianza de dicho estimador la varianza del estimador alfa capuchito ¿de dónde la estamos sacando? de esta expresión matricial que tenéis en pantalla de la expresión matricial sigma cuadrado que multiplica x prima x elevado a menos uno y concretamente de la diagonal principal concretamente del elemento fila uno, columna uno si el estimador es bueno si el estimador es eficiente si el estimador es óptimo es que esa varianza que sale de esa estimación matricial fila uno, columna uno es pequeña es mínima para que sea óptimo y para que la eficiencia sea máxima dicha varianza sea mínima no sólo nosotros en realidad en la práctica no vamos a trabajar con la varianza vamos a trabajar con la desviación típica que es la raíz cuadrada de la varianza por tanto nos tenemos que quedar con una idea nuestro estimador alfa que es una distribución en el muestreo TED-STUDENT con n-k grados de libertad tiene dos características básicas su media y su desviación típica la media dado que es insesgado, la esperanza matemática dado que es insesgado es el parámetro alfa que queremos estimar a nivel colacional y la desviación típica de dónde se saca se saca de esa diagonal principal de la matriz sigma cuadrado que multiplica x'x a la menos uno ahí estaría la varianza en el fila uno, columna uno y aplicando raíz cuadrada tendríamos la desviación típica toda esta información que os he dado es crítica para el siguiente paso que es el más importante de todos ahora estamos llegando a la hora de la verdad aún nos queda mucho en realidad pero bueno, estamos bastante más cerca esto ya es muy importante claro porque os dije antes, vamos a ver el r cuadrado a nivel muestral nos mide la bondad del ajuste si r cuadrado nos da cero cero ocho cero ocho es que a nivel muestral al nivel de los doce puntos con los que estamos trabajando la resta que estamos calculando pasa por el 80% de los puntos de la nube por decirlo de alguna manera así gráfica y no pasa en absoluto por el 20% restante o mucho mejor dicho el modelo representado por esa resta explica el 80% de la variabilidad de la variable dependiente que pretendemos explicar habiendo un 20% de error de residuo de discrepancia que no está explicado por el modelo variabilidad de i que no explica por el modelo y por tanto es el error pero francamente eso a nivel muestral es poco relevante lo que es mucho más relevante es esto la parte de inferencia estadística la inferencia estadística como todos sabéis nos lleva de la muestra a la población aquí vamos a plantearnos cuestiones relativas a la población a lo que está pasando al nivel poblacional ¿qué tenéis en pantalla? tenéis una reflexión teórica muy sencilla que todos deberíamos manejar muy bien que es oye cómo se hará cómo se hará un proceso de inferencia estadística eh como el que aquí tenemos que plantear es decir imaginaros que yo tengo un parámetro beta el beta de la relación lineal simple por ejemplo ¿no? que pretendo estimar a nivel poblacional y de momento lo que he calculado con este metodología de mínimos cuadrados ordinarios he calculado el beta capuchito que al final bueno podría demostrar que es la covarianza de i respecto a x partido por la varianza de i o sea es un número que he estimado ya bien tengo su estimación a nivel muestral pero yo ahora me pregunto ¿pero qué estará pasando a nivel poblacional? ¿qué estará pasando? y me planteo un proceso de inferencia estadística un contraste de hipótesis que se llama inferencia estadística a nivel individual individual porque me estoy centrando en un solo parámetro el beta después en un segundo paso me podría centrar en otro parámetro distinto el alfa serían planteamientos individuales por separado para beta y para alfa recordad cómo se trabajan los contrastes de hipótesis en estadística ¿qué es lo primero que hacemos siempre? definir unas hipótesis la hipótesis nula y la alternativa ¿cuál es el segundo paso que hacemos siempre? definir un estadístico de contraste nos suena ¿verdad? el estadístico de contraste adecuado para esas hipótesis ¿cuál es el tercer paso que hacemos siempre? definir en consecuencia las regiones críticas y las zonas de aceptación y de rechazo de las hipótesis zonas de aceptación y de rechazo ¿en base a qué? en base a lo que llamamos una región crítica que tiene que ver el tamaño de dicha región crítica tiene que ver con el nivel de significación que queramos asumir en dicho contraste de hipótesis una vez que tengamos definidas esas zonas de aceptación y de rechazo en base a ese tamaño de la región crítica y en función del nivel de significación lo último que tenemos que hacer el último paso es verificar si nuestro estadístico de contraste que nos ha dado lugar a un dato concreto a un dato que llamamos empírico el resultante de este contraste concreto si ese resultado empírico del estadístico de contraste cae en la zona de aceptación se acepta la hipótesis nula y si el estadístico empírico de contraste cae en la zona de rechazo se rechaza la hipótesis nula esto suena a estadística en estadística nos dedicamos todo el tiempo a hacer esto estas cuatro fases del contraste pues bien, fijaros porque aquí tenemos ya unas hipótesis tenemos una hipótesis aquí hipótesis nula H0 la veis abajo hipótesis nula H0 que el parámetro beta a nivel poblacional el parámetro estructural beta a nivel poblacional sea cero una alternativa H1 que dicho parámetro beta a nivel poblacional sea distinto de cero esto es una forma de plantear el contraste ¿no? lo podríamos plantear de muchas otras formas podríamos haber planteado hipótesis nula que beta sea igual al número que vosotros queráis 1,76 o cualquier otro se puede plantear el contraste como queramos como queramos una forma muy práctica de hacerlo y muy sencilla de hacerlo es plantear hipótesis nula que beta es igual a cero ¿por qué? porque es muy práctico y muy sencillo y muy útil el beta está multiplicando ¿por quién? acordaros en nuestro modelo econométrico ¿por quién multiplicaba beta? por x y si no fuese una regresión lineal simple y fuese una regresión lineal múltiple habría un beta 1 multiplicando por x1 y un beta 2 multiplicando por x2 o un beta 2 multiplicando por x2 y un beta 3 multiplicando por x3 etc etc etc si esos betas son cero ¿qué implica inmediatamente desde el punto de vista económico barra econométrico? económico en definitiva si ese beta es cero es que dicha variable x al multiplicar por cero se va del modelo no es significativa en el modelo eso ya tiene una interpretación económica directa esa variable x que tendrá una interpretación económica concreta no es significativa en el modelo explicativo si el beta es cero por el contrario si el beta es distinto de cero esa variable económica x si tendrá un peso tendrá un papel explicativo en el modelo no se va del modelo no multiplica por cero por tanto no se va del modelo por tanto es muy útil y muy pragmático plantear de esta forma las hipótesis beta igual a cero beta distinto de cero insisto se puede plantear de otras muchas formas pero una forma muy sencilla y muy práctica de hacerlo es esta claro en la parte de arriba tenéis toda una formulación lo veis en la parte de arriba que vosotros deberíais conocer porque es de estadística pura y dura ahí dice una t de studen con n-k grados de libertad si mi estimador beta capuchito se comporta como una t de studen con n-k grados de libertad cuál debería ser el estadístico de contraste a utilizar en este proceso de inferencia fijaros en la expresión que está a la derecha del todo que es la que seguro que vais a recordar más fácil la que está a la derecha del todo pone beta i perdón pone bi no beta bi menos beta i dividido por d paréntesis bi qué será el bi que está en el numerador será el valor que nosotros hemos estimado concretamente en este caso por mínimos cuadrados ordinarios el valor que hemos estimado para ese parámetro beta o sea es la estimación muestral concreta que hemos obtenido para el parámetro beta eso es el bi menos donde pone beta i en el numerador eso sería el valor que la hipótesis nula establezca para el parámetro a nivel poblacional en este caso hemos reflexionado que podría ser cero una forma práctica de hacerlo ¿verdad? repito valor que la hipótesis nula establezca para el parámetro a nivel poblacional por ejemplo cero podría ser otro pero por ejemplo cero y en el denominador qué significará d paréntesis bi d paréntesis bi significa la desviación típica del estimador del parámetro beta desviación típica del estimador del parámetro beta que nosotros hemos obtenido de qué expresión matricial hemos obtenido de la expresión matricial sigma cuadrado que multiplica x prima x a la menos uno de la correspondiente diagonal principal si en este caso hablamos no de alfa y hablamos de beta hablamos del fila dos columna dos ¿vale? bueno por tanto ya tenemos un estadístico de contraste típico estadístico de contraste típico que además nosotros podríamos calcular a través de esta fórmula que veis arriba a la derecha podríamos calcular lo que se define como el T empírico o sea el estadístico de contraste empírico con ese bi que hemos calculado a nivel muestral con esa desviación típica de bi que hemos también calculado a nivel muestral y estableciendo la hipótesis nula de que beta es igual a cero operáis y os da un número concreto un dato concreto del estadístico de contraste empírico ¿de acuerdo? vale y ahora hay que definir como tercer paso las regiones críticas y las zonas de aceptación y de rechazo y abajo veis veis una gráfica que se parece a la normal se parece a la típica campana de Gauss ¿verdad? pero no es la normal es la T de Studen con n-k grados de libertad que tiene un comportamiento gráfico similar a la normal T de Studen con n-k grados de libertad y aparece ahí menos tc y más tc ¿lo veis? menos tc y más tc esos no son los T empíricos esos son los T críticos ¿qué es eso del T crítico? que no es el T empírico recordad estadística todo esto lo sabemos de estadística ¿qué es el T crítico? en la práctica es un valor que sacamos de unas tablas de la T de Studen ¿os acordáis? es un valor que sale de una tabla pero ¿cómo lo sacamos de la tabla? sabiendo dos cosas en el caso de la T de Studen los grados de libertad n-k y sobre todo el nivel de significación ¿os acordáis de cómo se manejan las tablas? ¿qué es el nivel de significación en un contraste de hipótesis? os voy a recordar varios conceptos básicos de cualquier contraste de hipótesis vamos a ver nosotros podemos cometer varios tipos de errores básicamente dos tipos de errores el error de tipo 1 y el error de tipo 2 el error de tipo 1 tiene que ver con el nivel de significación y el error de tipo 2 tiene que ver con la potencia del contraste hay dos grandes conceptos en los contrastes el nivel de significación y la potencia ¿os suena? vale vamos con el error de tipo 1 que tiene que ver con el nivel de significación el error de tipo 1 consiste en rechazar la hipótesis nula cuando ésta es cierta rechazar la hipótesis nula cuando ésta es cierta la probabilidad de que se cometa un error de tipo 1 es el nivel de significación y lo contrario del nivel de significación se llama nivel de confianza por tanto el nivel de confianza nos da la probabilidad de no cometer ese error de tipo 1 la probabilidad de no rechazar la hipótesis nula cuando sea cierta en la práctica ¿con qué valores solemos trabajar de nivel de significación habitualmente? solemos trabajar con el 1% o con el 5% eso es lo habitual podríamos trabajar con cualquier otro con lo que nos dé la gana pero habitualmente el 1% o el 5% si el nivel de significación es el 1% el nivel de confianza es el 99% si el nivel de significación es el 5% el nivel de confianza es el 95% el nivel de significación nos da el tamaño de la región crítica la región crítica se dibuja en función de lo que nos diga la hipótesis alternativa H1 ¿os acordáis? y en ese caso siempre había dos grandes opciones los contrastes unilaterales o los contrastes bilaterales en el caso que tenemos pintado en la pantalla es un contraste bilateral porque la hipótesis alternativa H1 que dice β distinto de 0 y distinto significa que o bien es mayor que 0 o bien es menor que 0 ¿qué habría sido un contraste unilateral? habría sido aquel en el que la hipótesis alternativa opta por sólo una de las dos opciones o mayor o menor pero no ambas pero dicho esto como estáis viendo ahí en el β distinto de 0 ya implica automáticamente una región crítica de dos colas a la derecha de más tc y a la izquierda de menos tc ¿verdad? a la derecha de más tc y a la izquierda de menos tc región crítica de dos colas si el nivel de significación fuese el 1% el área el área que tiene esta gráfica que veis aquí a la derecha de más tc y a la izquierda de menos tc sería un área igual a 0,01 y por tanto el área entre menos tc y más tc sería el 99% aquí tenemos pintado otra cosa aquí pone 95% entre menos tc y más tc porque estamos trabajando con un nivel de significación del 5% con lo cual a la derecha de más tc habrá 2,5% de probabilidad y a la izquierda de menos tc 2,5% de probabilidad ¿vale? 0,025 a la derecha 0,025 a la izquierda bueno ya no os digo nada de que en realidad todas estas áreas se darían con integrales integrales porque la distribución t de student es continua continua integrales y nosotros deberíamos saber calcularlo eso es lo que se estudia en estadística ¿verdad? os voy a pedir que cerréis unos micros por favor para que no tengamos retornos ¿a qué sabríamos hacerlo con cálculo integral? yo creo que se estudia en estadística el cálculo integral a hacer funciones de tipo continuo ¿a que si? os va sonando ¿no? bueno pues ya por último por último si hemos dibujado la región crítica o zona de rechazo porque hemos sacado de la tabla t de student con n-k grados de libertad y con el nivel de significación requerido por ejemplo 5% esos t crítica y menos t crítica el último paso del contraste ¿cuál es? comprobar si ese estadístico que estaba arriba a la derecha arriba a la derecha, el t empírico t empírico es el que sale de este cálculo muestral concreto comprobar si ese t empírico cae o bien en la zona de aceptación o bien en la zona de rechazo la zona de aceptación es la zona comprendida entre menos tc y más tc de área 0,95 de nivel de confianza 95% y la zona de rechazos a la derecha de más tc y a la izquierda de menos tc con un área total del 5% 0,05 distribuida en dos colas iguales de 0,025 ¿os suena verdad que si? bueno, pero podemos hacer también y esto lo explicaremos el próximo día porque no nos da tiempo hoy otro tipo de inferencia podemos hacer una inferencia que no sea a nivel individual es decir a nivel de parámetro por parámetro primero alfa después beta 1 después beta 2, después beta 3 y así sucesivamente de forma individual hay otra alternativa que es lo que se llama la inferencia a nivel global no parámetro estructural por parámetro estructural a nivel global el enfoque es distinto el enfoque es coger el modelo en su conjunto ¿qué es eso del modelo en su conjunto? en la regresión lineal simple la resta de regresión en la regresión lineal múltiple con solo dos regresores x2, x3 o x1, x2 el plano de regresión etcétera ¿no? el modelo en su conjunto y ver si ese modelo es adecuado o no adecuado válido o no válido en términos para que me entendáis muy intuitivos vendría a ser algo así como decir hipótesis nula no simplemente que beta sea igual a cero sino que hipótesis nula que todos los betas todos sean simultáneamente iguales a cero ¿por qué? porque si todos los parámetros estructurales son simultáneamente iguales a cero ¿qué le ocurre al modelo? que se evapora desaparece, no hay modelo ¿me entendéis? esa es la filosofía de la inferencia a nivel global, la inferencia a nivel global ya no trabajamos con la T de student trabajamos con la F de Fisher o de Snedecor la F de Fisher o de Snedecor a su vez si repasáis estadística depende de las distribuciones chi cuadrado aquí tenéis ahora dos distribuciones chi cuadrado que lo veremos el próximo día y tendremos que reflexionar tendremos que reflexionar cómo se plantea cómo se plantea todo esto y en los tres minutos que nos queda, os dije el otro día que era muy importante la salida del ordenador ¿verdad? lo que estáis viendo con Cipri ¿verdad? pues mirad, aquí ya tenemos calculado lo que nos da, donde pone desviación típica, lo veis en esta columna donde pone el coeficiente ya sabéis que este es el alfa estimado alfa capuchito 86.2905 y el beta estimado, beta capuchito menos 1,10056 veis donde pone desviación típica eso ha salido ¿de qué matriz? sigma cuadrado que multiplica por x prima x a la menos uno de la diagonal principal las varianzas y tomando raíces cuadradas las desviaciones típicas fila 1, columna 1 8,88456 fila 2, columna 2 0,317864 siguiente columna donde pone estadístico t los t empíricos los t empíricos os recuerdo bi menos beta i dividido de paréntesis bi que es el estadístico de contraste que hemos reflexionado ¿verdad? 9,7124 resulta de dividir 86,2905 entre 8,88456 menos 3,4624 resulta de dividir menos 1,10056 entre 0,317864 ¿de acuerdo? esos son los t empíricos si tuviéseis unas tablas con 10 grados de libertad y con un nivel de significación en el que vosotros queráis ya resolveríais el contraste o alternativamente con lo que pone aquí a la derecha el valor de probabilidad que es una forma alternativa de hacerlo el valor de probabilidad esto también lo veremos el próximo día veis el triple asterisco 0,0001 y 0,000610 ambos son números más pequeños que 0,01 1% del nivel de significación o incluso 0,05 5% del nivel de significación esos valores de probabilidad son más pequeños que los dos niveles de significación con los que solemos trabajar el 1% o el 5% cuando esto ocurra el próximo día reflexionaremos el porqué y es muy importante dedicar un buen rato a reflexionarlo cuando eso ocurra vamos a rechazar las hipótesis nulas y vamos a aceptar las hipótesis alternativas y sí vamos a considerar significativos los parámetros estructurales o sea, no se va X del modelo y ni siquiera se va alfa del modelo me estoy explicando, ¿verdad? pues hasta aquí por hoy ¿vale? esto que hemos visto es todo muy importante ahora con Cipri el martes vais a seguir trabajando con el caso 1 y con el caso 1 bis igual todavía no el caso 1 bis que es una regresión lineal múltiple que ya tenéis los datos ya los tenéis en vuestro enlace lo podéis bajar ya en casa ese caso 1 bis regresión lineal múltiple yo lo empezaré a explicar también el próximo día ¿vale? pues nada, oye gracias por asistir y nos vemos yo el próximo viernes y con Cipri lo veis el próximo el próximo martes, ¿verdad?