En este vídeo vamos a acabar de ver la clase verde que no pudimos acabar ayer, 22 de octubre, por los problemas técnicos. Estábamos viendo los cuantiles que obteníamos a partir de la función cuantile en la que introducíamos los datos y la probabilidad que queríamos que dejaran a la derecha. Si yo tengo la frecuencia acumulada, relativa acumulada, también se puede obtener los cuantiles. Si quisiera obtener el primer cuantile que deja el 25% de los datos a la derecha, tendría que ver que en la primera clase tengo el 17% de los datos, con lo cual no estaría incluido ese valor. Y a partir del siguiente, como tengo 0.45, en este caso sí que estaría incluida la mediana, o digo, el primer cuantile. Como todos los elementos de este conjunto son los mismos, que es el valor 1, aquí estará el cuantile. Dato que deje el 25% de los datos a la derecha y será, por tanto, 1 el primer cuantile. Del mismo modo, para hallar la mediana o el segundo cuantile, veo que juntando el primero y la segunda clase tengo solo el 45% de los datos, con lo cual me tendría que pasar a la siguiente clase en la que ya tengo el 0.66% de los datos y en particular habrá uno que deje el 50% a la derecha. Como todos los datos tienen el mismo valor, esta clase, que es el 2, será la mediana de los datos. Por último nos faltaban las medidas de dispersión y las medidas de asimetría, y los gráficos de cajas y bigotes. En cuanto a las medidas de dispersión, la primera variable es el rango. La primera medida es el rango. El rango es la diferencia entre el valor máximo que obtenemos con la función max y el valor mínimo que obtenemos con la función min. En este caso es 6, ya que el máximo es 6 y el mínimo es 0. Sin embargo, si tengo algún atípico, puede parecer que el rango de valores sea muy amplio cuando en realidad la mayor parte de los valores toman un valor o están comprendidos en un intervalo más reducido, excepto 1 o 2 que se salen del rango. Para tener una medida más robusta podemos calcular el rango intercuartílico, que es la medida, la distancia entre el tercer cuartil y el primer cuartil, que en este caso es 2, que es una medida más razonable. Ya que, por ejemplo, sólo hay 6 datos, sólo hay 4 datos que tengan el valor 6. Luego, una medida muy importante es la varianza, sin embargo, la función var, que hay en R, lo que me está dando es la cuasi-varianza. A ver aquí, para calcular la cuasi-varianza, que recordamos que es la misma fórmula que la varianza, solo que dividido entre n-1 en lugar de entre n, ¿vale? la tendríamos con la función var, y si quisiéramos calcular la varianza, tendríamos que multiplicar a la cuasi-varianza por n-1, siendo n el número de datos, y dividirlo entre n para obtener la fórmula equivalente. Y de este modo, tendríamos que la cuasi-varianza es 2,58 y la varianza 2,57. Entonces, sé que estos valores son muy parecidos, ya que dividir entre 149 y 150 no hay tanto diferencia. De este modo, cuanto más datos tengamos, más parecidas van a ser la varianza y la cuasi-varianza. También tenemos la desviación típica. La desviación típica la obtenemos con la función sd. Nótese que la desviación típica, lo mismo que sucede con la varianza, es la raíz cuadrada de la varianza, de la cuasi-varianza. Eso comprobamos, que obtenemos el mismo valor. Sin embargo, si yo hiciera la raíz cuadrada de la varianza, tendría un valor similar, pero no exactamente el mismo. Una medida también muy robusta y que me permite comparar los resultados independientemente de la escala es el coeficiente de variación de Pearson. En ocasiones tenemos que comparar metros cuadrados con euros, y de manera que es imposible hacerlo. Sin embargo, si dividimos dos medidas que estén en las mismas unidades, eliminaremos la escala y podremos compararlas. Por ejemplo, podemos dividir la desviación típica entre la media. Esta medida va a ser un valor en el que se le ha quitado la escala y ya es comparable. Este coeficiente se conoce como coeficiente de variación de Pearson. En cuanto a la simetría, la simetría es una medida que me permite ver si mis datos están mayormente acumulados a la derecha, mayormente acumulados a la izquierda, o están igualmente distribuidos a ambos lados de una posición central, como puede ser la media o la mediana. Hay muchas medidas para medir la... para medir el... en la simetría. En el libro se proponen dos, que son las de Pearson y las de Fisse. Las de Pearson se definen como la media menos la mediana de manera que me estoy evitando min de x menos el median de x, de manera que me estoy evitando los atríficos y dividido entre la desviación típica. De x no de datos. Y la desviación no la calculo tampoco igual si es de datos. De este modo obtengo una medida de 0,01. Como tiene un valor positivo significa que hay... un poco... hay unos pocos más de datos a la derecha que a la izquierda. Si fuera exactamente cero, la distribución sería simétrica. Como es un valor bastante cercano al cero, esta distribución sería bastante simétrica aunque con un poco de asimetría a la derecha. La segunda medida de asimetría es la de Fisser. La de Pearson y la siguiente sería la de Fisser. La de Fisser tiene una formulación un poco más complicada pero la interpretación es la misma. Para medir esta medida, por una parte vamos a calcular la diferencia entre x entre los datos y su media. A continuación vamos a elevar al cuadrado estas diferencias y ahí tendremos el sumatorio de xy menos a al cubo. A continuación vamos a... Como la fórmula está multiplicada por n si miráis los apuntes o las diapositivas vamos a hacer que se multiplique a cada uno de estos elementos de datos de este vector por su frecuencia. Para sacar la frecuencia de cada uno de estos datos por una parte vamos a sacar las clases con la función unique sacamos cada uno de los valores únicos que hay en el vector datos. Y ahí tendremos las clases. A continuación vamos a sacar su frecuencia en este caso ya la tendríamos pero si no, con la función table sacamos la frecuencia y a continuación voy a repetir cada uno de las frecuencias las veces que aparecen. De este modo obtengo la frecuencia de cada uno de los datos. Como el primer dato tiene clase 0, tiene una clase 26 frecuencia 26, el segundo también y así hasta que llegamos al 27 que tiene una frecuencia de 42, etc. Para multiplicar vectores elemento a elemento usamos en lugar del producto el producto entre los porcentajes. De esta manera estoy multiplicando matrices elemento a elemento. Haciendo una multiplicación de matrices. De manera que lo que estoy haciendo es sumar a cada uno de los sumandos de div3 lo estoy multiplicando todo por su correspondiente frecuencia. Y ya tengo la diferencia. Por último el coeficiente de asimetría de Fischer va a ser esta multiplicación dividido entre el número de datos por la desviación típica al cubo. Esto lo he ejecutado en el número, es mayúscula redistingue las minúsculas y las mayúsculas y si me lo invento otra vez pues tampoco. Ahora sí tengo una asimetría de menos 2. En este caso está indicando que los datos están acumulados a la izquierda y además hay una asimetría muy pronunciada. Y con esto hemos acabado el tutorial sobre R.