Bueno, entonces empezamos con la organización de datos, si no tenéis ninguna pregunta sobre los temas anteriores, con la organización de datos que sería el tema 4. La organización de datos hay que incluirla dentro del proceso de investigación, aunque esta materia, esta asignatura no sean diseños de investigación, sino que es estadística. Sin embargo, sí que tenemos que tener alguna idea sobre lo que es un diseño de investigación. Un diseño de investigación es aquel que nos guía a través del proceso de la investigación y fundamentalmente, eso lo veréis o en algún momento lo leeréis en esta materia, pero sobre todo aparecerá en otra asignatura que es diseños de investigación, tiene una serie de pasos que son el planteamiento. El planteamiento del problema, la revisión de fuentes, el planteamiento de hipótesis, la validación de las hipótesis y las conclusiones. Entonces, la organización, la recogida de datos está incluida dentro de lo que sería la validación de la hipótesis. El planteamiento del problema. Entonces, la revisión de fuentes y el planteamiento de hipótesis es previo a la recogida de datos. Pero bueno, no nos vamos a meter ahí puesto que no es objeto de esta asignatura. Entonces, nos vamos a dedicar exclusivamente a lo que es estadística y a lo que son datos. Entonces, ya he dicho, hay un paso que es planteamiento del problema, la revisión de fuentes y luego tendríamos la recogida de informe. Entonces, una vez que hemos hecho esto, vamos a hacer un paso que es planteamiento del problema. Entonces, nosotros hemos planteado la hipótesis, tenemos las variables definidas. Nosotros tenemos que recoger una información, tenemos que recoger datos. Si queremos realizar cualquier tratamiento estadístico, lógicamente nosotros tenemos que tener unos datos. No nos podemos inventar nada. No podemos decir creo que. Entonces, la recogida de información, ¿en qué consiste? Consiste en atribuir valores a las variables. Si una variable es, por ejemplo, el cociente intelectual, la recogida de información sería una recogida de datos sobre los cocientes intelectuales de determinadas personas. Eso es atribuir valores a la variable. La variable cociente intelectual tiene una serie de valores que nosotros medimos en una serie de sujetos y que son los que vamos a tratar posteriormente. Entonces, podemos atribuir valores. Atribuir valores a las variables pueden ser valores numéricos o no numéricos, pero en estadística nosotros lo que tenemos que hacer es transformar en números esa realidad observada. Si yo tengo una encuesta donde me dicen que aparece una escala de muy mal a muy bien, muy mal, mal, ni mal ni bien, bien, muy bien. Eso es estadística. Estadísticamente no se puede tratar. Lo que tenemos que hacer es transformarlo en números. Entonces, lo podemos transformar en una escala de 1 a 5. De muy mal 1 a muy bien 5. Entonces, eso es a lo que se refiere ahí transformar en números la realidad observada. No me estoy inventando nada, sino voy siguiendo vuestro texto para no confundiros. En algún caso, cuando me salga del texto, añado alguna cosa, os lo avisaré. Bien. Entonces, para atribuir valores... A los valores a las variables, nosotros necesitamos instrumentos de medida. Instrumentos de medida. Un instrumento de medida, por ejemplo, sería un metrolineal, pero nosotros no lo usamos. Un instrumento de medida sería un cuestionario para nosotros. Un instrumento de medida serían unos exámenes para nosotros. Serían instrumentos de medida que nosotros vamos a utilizar. Escalas, cuestionarios, etc. Y unos instrumentos de medida que pueden ser construidos, o sea, que nosotros lo construimos ad hoc. Nosotros queremos medir una variable, la opinión que tienen los alumnos sobre las sesiones de estadística aplicada a la educación. Entonces, construimos un instrumento de medida que puede tener 5, 10, 15, 20 preguntas. Y eso sería un instrumento de medida construido. O también podemos utilizar instrumentos de medida. Instrumentos de medida que ya están construidos y nosotros los elegimos porque nos viene bien para medir la variable que nosotros queremos. Y a partir de que nosotros tenemos los instrumentos de medida bien construidos o bien elegidos, lo que hacemos es el trabajo de campo. ¿Qué es el trabajo de campo? Aplicar ese instrumento de medida. Si yo tengo un cuestionario, yo lo aplico y eso es el trabajo de campo. Si yo tengo que hacer una observación, el trabajo de campo sería observar. Tengo que observar la conducta de determinadas personas. El trabajo de campo sería la observación de la conducta de esas personas. Bien, luego en vuestro texto aparecen los principios éticos. Tener en cuenta una serie de normas y de situaciones que no podemos traspasar. Entonces, podría ser una participación voluntaria. ¿Qué quiere decir? Participación voluntaria. Vamos a ver. Cuando estudiéis diseños, veréis que si yo elijo personas, elijo una muestra o bien esa muestra es voluntaria porque han querido, entonces, lógicamente, los resultados que yo obtenga, me refiero a otra asignatura que vais a tener que es de diseños, no podré generalizarlos a toda la población, puesto que las personas voluntarias, de alguna manera, tienen alguna característica. Hay personas que nunca aparecen como voluntarias y hay personas que siempre aparecen como voluntarias. Entonces, habría lo que se llama un sesgo de muestreo. Entonces, cuando hablamos aquí de participación voluntaria, de lo que estamos hablando es de que las personas aceptan participar. Una vez seleccionada la muestra, lo que las personas hacen es, se les pide si quieren participar. Luego aparece, por ahí, lo que se llama informe consentido. Eso sonará más, a lo mejor, porque eso en medicina se da mucho. Cuando no le van a hacer una intervención, un informe tiene que firmar, o sea, por si ocurre algo. Aquí nosotros no vamos a hacer semejantes cosas, pero sí que lo que tiene que saber es para qué se va a utilizar, qué datos se van a recoger y cómo se van a utilizar. Y consentir qué. Que los datos que nos estén proporcionando, nosotros los podamos utilizar. Por supuesto, evitar daños físicos o psíquicos. Luego, confidencialidad. Es una de las cosas que se exige. A veces hay una duda, sobre todo para los que no trabajan con cuestionarios y encuestas e investigaciones tipo encuestas, que dicen, bueno, ya saben quién soy yo. Y en la base de datos aparecerá mi nombre unido a las respuestas. Y eso es cierto. O sea, es cierto en parte. Vamos a ver. Yo, inicialmente, selecciono una muestra. Tengo que saber a quién he seleccionado para saber a quién le puedo aplicar, porque no puedo lanzar las encuestas a boleo y decir, bueno, pues a quien caiga. Entonces, lógicamente, tengo que llevar un control por una razón. Porque después los resultados de un cuestionario o de una encuesta, si ha habido lo que se llama mortandad desagradable, después de encuesta, o sea, que de la muestra ha habido gente que no ha contestado, saber cómo influye eso en los resultados. Por eso tengo que controlar exactamente a qué personas. Pero, ¿qué ocurre? Yo os digo por mi experiencia y por mi trabajo en eso. Yo tengo, por una parte, los datos personales. Por otra parte, la encuesta. Tengo un registro donde aparece el nombre junto con todos los resultados. Pero llega un momento en que yo independizo el nombre, ahí queda un número y desaparecen los nombres. Y ya nadie, nadie que tenga esa base de datos, podrá identificar a nadie. En eso consiste la confidencialidad. O sea, ahí desaparece el nombre y claro, dicen, ¿y cómo sé que va a pasar eso? Bueno, hay que fiarse de quien lo está haciendo y que lo hace bien. Es la única manera. Otra cosa que se pide es el anonimato, que es unido. Y otra cosa que hay que tener en cuenta es el lugar de realización. Por ejemplo, si uno va a un centro educativo, no alterar todo el orden de decir, bueno, hoy vamos a pasar, 10 encuestas en una aula, dentro de una hora, otras 10 en otra, y entonces estamos alterando todo lo que ocurre ahí en ese centro educativo. Bien, una vez que hacemos, que ya tenemos el instrumento construido, lo que hacemos es el trabajo de campo. Una vez realizado el trabajo de campo, entonces ya lo que tenemos que hacer es la codificación de las respuestas. ¿Qué es la codificación? La codificación es transformar en códigos las respuestas que nosotros tenemos. Transformar en códigos y normalmente códigos numéricos para que de alguna manera, mediante programas estadísticos adecuados, nosotros podamos realizar un tratamiento relativamente fácil. Y luego aparece el libro de códigos. ¿Qué es el libro de códigos? El libro de códigos es donde aparece el código de variable, la variable, el código de respuesta o de valor y el valor. Eso es un libro de códigos, es una tabla fundamentalmente. Claro, si es muy larga, pues tendrá varias páginas. Al ver libro parece que tiene que haber mucha información. Entonces, lo que aparece en el libro de códigos es el orden, pero bueno, eso normalmente los programas lo suelen poner automáticamente. Aquí en el ejemplo, ahí en el libro lo han puesto ellos, veréis que en la tabla pone C1, C2, C3, eso es un orden. No tiene otro sentido. Y lógicamente me da poca información. A mí se me dice si tengo 80 variables, la C75, pues no sé cuál es. Sin embargo, cuando ya tengo el nombre de variable o el código de variable, de alguna manera puedo identificarla. El nombre de la variable, el código del valor y el valor. Cuando... Cuando ahí aparece etiqueta de valor, quiero decir que es el valor en sí mismo el que nosotros tenemos. Y después, por fin, lo que hacemos es tabular los datos. ¿Tabular qué es? Tabular no es ni más ni menos que hacer una tabla. Por eso se llama tabular. Meter los datos en una tabla. O introducir los datos o como queráis llamarlo. Bien. Aquí hay un ejemplo de lo que podría ser un código, pero aquí me he omitido porque yo cuando hago estas cosas no suelo poner el orden, sino que como ya sé que los programas me van a poner el orden de variable, pues me da igual, lo dejo. Entonces, el código de variable, que a mí el código de variable sin saber lo que es, sin saber el nombre de variable, ya sé... Vamos, estoy diciendo lo que yo hago y cómo los construyo yo. Otros pueden decir otra persona, puede decir otra cosa distinta. Aquí sería comprensión lectora castellana. ¿No? Parte uno, la pregunta nueve y el ítem uno. Entonces, eso es lo que pone aquí. Pero yo viendo el código, que es lo que voy a manejar habitualmente, pues ya sé sin necesidad de ver lo que es. Entonces, luego aparece el nombre de variable. El nombre de variable es este. Aquí en vez de pregunta nueve, parte uno, etcétera, podría haber puesto cuál era la pregunta. O sea, que pues lo he puesto así para que no se identifique. Identifique de dónde viene toda esta información. Sin más, porque como va a ser pública, entonces diré, bueno, pues esto de dónde salió. El código de respuesta, bueno, solo tiene dos posibles respuestas, cero y uno. ¿Qué significa el cero? Que tiene cero puntos y el uno que tiene un punto. El siguiente sería código de centro. Aquí no lo he puesto. Veis que el código de variable y el nombre de variable coinciden. Lo único es que aquí no hay espacios, va todo junto. Y en este caso coincide. Y aquí habría un número de centro y la denominación del centro. No lo he puesto porque hay doscientos y pico centros. Entonces aparecería aquí el número, que sería el código, y el nombre del centro. Luego, la zona geográfica, veis que es lo mismo. ¿Por qué en mi caso hago esto? Porque con el código ya sé lo que hay detrás. O sea, no necesito estar mirándolo. Entonces, hay tres códigos de respuesta. El uno. El dos. Y el tres. ¿Qué significa el uno? El uno es la zona norte, el dos es la zona media y el tres es la ribera. Código de alumno. Es lo mismo. Entonces un número correlativo para cada uno de los alumnos. En realidad eso a nosotros no lo vamos a tratar para nada porque habrá si hay mil quinientos alumnos, pues cada uno tiene un número, entonces no me sirve para ningún tratamiento. El sexo tiene dos valores, el uno y el dos, el código de respuesta. El uno es alumno y el dos es alumno. Año de nacimiento, año NAC es año de nacimiento y tiene siete valores, van del uno, dos, tres, cuatro, cinco, seis, siete. El uno, haber nacido antes en 1986, el dos en 1986, el tres en 1987 y así sucesivamente. Estaba pensando pues en vez de números podríamos haber puesto estos números, pero claro, imaginaos una base de datos que tiene diez mil registros, son cuarenta mil números, en vez de cuarenta mil números podemos tener diez mil registros. Son diez mil que nos ocupan mucho menos espacio y son más fáciles de tratar en el sentido de que los procesos van mucho más rápido. Lugar NAC, lugar de nacimiento del alumno, entonces hay tres, Navarra, comunidad autónoma distinta de Navarra y fuera de España. Esto sería un libro de código, la diferencia con el que tenéis en el libro es que no he puesto el orden, ahí pone C1, C2, C3, podría haber puesto 1, 2, 3, etcétera pero no, sigue nivel de estudios del padre. Niveles padre, nivel de estudios del padre van de 1 a 7 sin estudios, el uno, el dos primarios o básicos, el tres primarios o básicos completos, el cuatro formación profesional, el cinco bachillerato, el seis titulo universitario, el siete otros. Seis helado a padre, situación laboral del padre. El número uno trabaja, el dos en paro, el tres jubilado, el cuatro trabaja solo realizando las tareas de la casa. Ordenador. ¿A qué variable se refiere cuando aparece ordenador? Al número de ordenadores en casa, hay uno, dos, tres, cuatro, uno, ningún ordenador, dos, un ordenador, tres, dos ordenadores, cuatro, tres más ordenadores. Satisf-rel-profes es la satisfacción por las relaciones con el profesorado del centro. Hay una escala de 1 a 5 y una, el uno dice no le satisface nada la relación con el profesorado del centro. Dos, le satisface poco la relación con el profesorado del centro. Tres, le satisface algo la relación con el profesorado del centro. Cuatro, le satisface bastante la relación con el profesorado del centro. Cinco, le satisface mucho la relación con el profesorado del centro. Estos son ejemplos. Entonces, en el caso real este pues había muchas más variables. Eso es un libro de código. Es aquel en el cual yo veo cuál es la información que luego me va a ser útil a la hora de depurar, a la hora de organizar los datos, ver si hay algún dato raro porque si aquí en nivel de estudios de padres me aparece un ocho. O un nueve. Pues eso no puede existir. Puede que alguien lo haya marcado mal, o yo lo haya escrito mal, o se haya transcrito mal. Pueden ser muchas cosas. Bien. Entonces, una vez que tenemos los libros de códigos, nosotros lo que tenemos que hacer es tabular los datos. Repito, tabular es meter los datos en una tabla. No es más. Hay que introducir los datos en una tabla, que las palabras nos confundan. Esto es las mismas. Variables que hemos visto en el libro de códigos. CL, CAS, P1, P9, P1. Entonces tenía uno cero, entonces aparece aquí, bueno, aquí aparece un trozo, son muchas más. El código del centro, el 02, 03, 03, 07, etcétera. Zona geográfica, la 1, la 2. Código de alumno, 1, 4, 10, 21, 7, 17. Aquí hay todo tipo de números. En este caso. Vais a ver que hay números repetidos. ¿Por qué? Porque dentro de cada centro se numeraban los alumnos para no tener excesivo, unos números muy largos. El sexo, 2, 1, 1, año de nacimiento, lo mismo. Aquí aparecen los códigos, lugar de nacimiento, nivel de estudios del padre. Aparecen algunos en blanco. Algunos en blanco quiere decir que no hay respuesta. No ha aparecido ninguna respuesta. Entonces. Aquí. Estos valores son valores perdidos. Entonces, cuando no aparece ninguna respuesta es porque no se ha respondido. Entonces se les considera valores perdidos por el sistema. Cuando aparece una respuesta que, pero no se corresponde, entonces serían valores perdidos simplemente. Se tratan igual, ¿eh? No se hará lo mismo en un caso que el otro. Ordenador, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, Entonces tendría, lo que pasa es que no tiene tratamiento estadístico y es más difícil de leer. Hay un ejemplo, esto es lo mismo que la tabla anterior, es exactamente lo mismo. Entonces en lugar de aparecer los códigos, que aquí no se ve prácticamente, pero bueno, aparecen las etiquetas de los valores. Bien, entonces una vez que ya tengo la tabla hecha, o sea, ya he hecho el libro de códigos, he hecho la tabla, ahora lo que tengo que hacer es depurarlos, o sea, ver si existen datos que no debieran estar, etc. Entonces tengo que hacer un primer análisis antes de hacer ningún tipo de análisis para estar seguro de que los valores que están dentro de esa tabla, que hemos introducido en esa tabla, son correctos y me puedo fiar luego de los resultados que puedan aparecer. Imaginaos que en sexo aparece, bueno, en sexo no, en ordenadores, pues aparece varios nueves. Imaginaos que yo voy a hallar la media de ordenadores que tienen en la vivienda, esos nueves me van a distorsionar toda la media. Entonces tengo que estar seguro de que los datos que yo tengo dentro, dentro de la base de datos, dentro de la tabla, están correctamente introducidos. Siempre se me podrá escapar alguno, pero bueno. Entonces una de las cosas que se hace para algunos datos en blanco es se introduce un número que no sea posible que exista en esa variable. Por ejemplo, en el caso del ordenador hay de uno a cuatro. Yo puedo meter un nueve, es lo habitual, meto un nueve, y cuando aparezca nueve es un dato perdido. O sea, no existe respuesta. En el caso que hubiera dos dígitos para responder, entonces habitualmente se pone el noventa y nueve. Si no, es un valor que pueda ser real. En el caso de tres se suele poner novecientos noventa y nueve. Vamos, es lo que yo suelo hacer o suelo hacer. Bien. Entonces, una de las cosas, primero que, lo que hago es ver realmente los cuantos valores tengo, cuántos valores han perdido y cuál es el mínimo y el máximo. Entonces lo comparo con el libro de códigos. Bueno, lo comparo como ya me está trabajando uno en eso se lo sabe, pero bueno, lo comparo con el libro de códigos y digo ah, pues sí, el mínimo está bien y el máximo está bien. Aquí aparece pregunta nueve parte uno y ten uno. El mínimo es cero, el máximo es uno en todos los datos. Que había, que eran mil cuatrocientos sesenta y cinco. El valor mínimo es cero y el máximo es uno. En código de centro no he puesto nada porque no, no nos sirve para nada. Zona geográfica iba de uno a tres. Y aparece el mínimo uno y el máximo tres. El código de alumno pues tampoco pone nada porque no nos, no nos sirve para nada. El sexo eran uno y dos. El mínimo es uno. El máximo es dos. O sea, no hay ningún. El año de nacimiento eran siete valores de uno a siete. Aquí en el caso del sexo hemos visto que hay uno perdido, o sea, habrá uno en blanco. En nivel de estudios del padre hay mil cuatrocientos veintiuno valores que sí están en la tabla, que se han introducido y cuarenta y cuatro en blanco que nos han introducido y los valores van de uno a siete y así sucesivamente. Esto me sirve para ver si realmente los datos que hay en la tabla me sirven están bien introducidos. Mejor dicho. Otra manera de ver lo que hay dentro de la tabla es viendo los porcentajes en zona geográfica, en la zona norte hay setenta y cinco, la zona media mil ciento noventa y tres de doscientos siete y en total mil cuatrocientos sesenta y cinco porcentaje y porcentaje válido. En este caso son iguales. Y porcentaje acumulación buena. Aquí aparece un nuevo. Un nuevo concepto, que es el porcentaje acumulado. El porcentaje acumulado es aquel que nos indica. Cuántos valores hay iguales o inferiores a ese dato? Por ejemplo, yo tengo que en la zona norte. Era el número uno, por eso los ordena de esta manera, el uno, el dos y el tres. En la zona norte tengo un porcentaje de cinco con uno en acumular cinco con uno. En la zona media hay un ochenta con ocho, un porcentaje de ochenta con ocho. Entonces entre la zona media y la zona norte es ochenta con ocho más cinco con uno, ochenta y cinco con nueve. Ese es el porcentaje acumulado y en la ribera y catorce con uno, entonces catorce con uno entre la ribera, la zona media y todos los valores que hay por debajo serán noventa y cinco con nueve más catorce con uno será el cien porcentaje acumulado. El cien porcentaje acumulado lo vamos a utilizar luego en los centiles y demás. Esto sería el sexo, que es lo mismo. Sin embargo, aquí hay perdido. Hay un valor perdido. Cosa que no se ve la diferencia. Bien, esto sería el nivel de estudios del padre. Se han perdido cuarenta y cuatro. Como no he encontrado, he encontrado valores en blanco. Entonces el programa. Esto está hecho con el programa SPSS, el programa dice todo lo que no encuentro en blanco es perdidos por el sistema. Si hubiera encontrado noventa y nueve, yo le hubiera dicho que el nueve, que no puede existir. Yo le hubiera dicho el nueve considerado como valor perdido y entonces me hubiera puesto valor perdido por el usuario. Pero es lo mismo, o sea, el tratamiento para nosotros es el mismo. Entonces aquí aparece sin estudios hay cuarenta y cinco porcentaje. Esto es con uno. Sin embargo, el porcentaje válido es tres con dos. Porque en qué se diferencian porcentaje y porcentaje válido? El nombre puede confundir porque parece que el válido es mejor que el otro porcentaje, pero depende para qué? El porcentaje. La base de cálculos del porcentaje es el total mil cuatrocientos sesenta y cinco. Pero la base del porcentaje válido es mil cuatrocientos sesenta y cinco. Menos los perdidos que no se utilizan todos, si no se utilizan todos aquellos que tengan algún tipo de valor que se pueda obtener bien y el porcentaje acumulado es tres coma dos porque sin estudios no tiene por debajo ningún valor primarios o básicos incompletos. Hay ciento veintiuno de frecuencia, ciento veintiún sujetos, el porcentaje es ocho con tres, el porcentaje válido es ocho con cinco por la misma razón y entonces el porcentaje acumulado que tengas primarios. Primarios o básicos incompletos y además sin estudios será ocho con cinco más tres con doce, once con siete. Esto sería el porcentaje acumulado. Primarios o básicos completos tenemos que hay cuatrocientos cinco quince sujetos. El porcentaje es veintiocho coma tres. El porcentaje válido es veintinueve coma dos. Y el porcentaje acumulado será veintinueve coma dos más once coma siete que son cuarenta con nueve. O sea, tenemos un cuarenta con nueve por cien de sujetos que tienen primarios o básicos completos o menos estudios. Formación profesional serían doscientos cuarenta y dos sujetos. El porcentaje es dieciséis coma cinco. El porcentaje válido sería diecisiete y el porcentaje acumulado cincuenta y siete coma nueve. Diecisiete más cuarenta coma nueve. O sea, tenemos un cincuenta y siete coma nueve por cien que tienen estudios de formación profesional o inferiores. Lo veis, ¿no? Los que tienen bachillerato, ciento ochenta y seis, doce coma siete por cien, trece con uno, setenta y uno coma cero. Que tienen setenta y uno coma cero, tienen bachillerato o cualquiera de los que hemos considerado por debajo. Esto sería una forma de analizar las tablas que nosotros tenemos. Bien, ¿alguna pregunta que hacer sobre la organización de datos, la tabulación, los porcentajes, toda esa historia? Bueno, esto se puede hacer con... Con Excel se puede hacer perfectamente. O sea, no hay ningún problema. Yo lo hago con SPSS porque no es solo estos tratamientos, sino que hay otros tratamientos mucho más complicados. Si nos diera tiempo, os enseñaría también cómo con Excel se puede hacer cantidad de análisis estadístico. Se puede hacer cantidad de análisis estadístico. Pero bueno, eso ya que nos diese tiempo, que no nos va a dar. Bien, ¿alguna otra pregunta? Bien. Sigo poniendo el... No están... Si veo cómo lo pintan, hasta que os convencáis. A fuerza de repetirlo. Bien. Entonces, nosotros ya tenemos los datos. Los hemos tabulado, los hemos introducido, hemos depurado la base de datos. Ya sabemos que son correctos. Ya podemos empezar a analizar esos datos. Entonces, un primer análisis que nosotros realizamos son la descripción de la muestra. O la descripción de la población. O la descripción del grupo de datos que tenemos ahí. A nosotros no nos interesan tanto los datos individuales de todos y cada uno de los sujetos que nosotros hemos medido. Sino lo que nos interesa normalmente son los grupos enteros. Si a mí me interesa cómo rinden los estudiantes de estadística aplicada a la educación, pues no me interesa el resultado de cada uno. Sino que me interesa el resultado global de todo el grupo. Entonces, eso es lo que vamos a hacer a partir de ahora. Entonces, vamos a partir con un ejemplo. Con un ejemplo en el cual los datos están agrupados por intervalos. Entonces, habitualmente, habitualmente, en estos momentos no se utiliza la agrupación por intervalos. Por una razón. Puesto que los ordenadores. Hacen los cálculos rápidamente. Lo que pasa es que cuando no había ordenadores, lógicamente, si yo tenía 5000 datos. Pues para elevar al cuadrado todos y cada uno de los datos. Sumarlos, etcétera, etcétera. Pues era muy costoso. Entonces, bueno. Lo que se hacía era agrupar los datos. Pero por si os lo encontráis en algún momento. Pues yo explico un poco. Entonces, un intervalo es aquel en el cual aparecen las puntuaciones desde una puntuación inferior. Un límite inferior. Hasta un límite superior. Aquí serían de 3 a 7, de 8 a 12, de 13 a 17, etcétera. Entonces, claro, lógicamente, si nosotros tenemos los datos agrupados en intervalos. ¿Cómo vamos a procesarlos? ¿Cómo vamos a hacer los cálculos? ¿Con qué valor? Si yo tengo de 3 a 7, ¿con qué valor calculo? Entonces, lo calculamos con lo que se llama marca de clase. Que la marca de clase es justo el punto medio del intervalo. Como veis aquí es 5. 5 sería 3 más 7, 10 partido por 2, 5. 8 más 12, 20 partido por 2, 10. Entonces, los números con los cuales vamos a operar serían estos. Entonces, lógicamente, a todo el mundo se le puede ocurrir inmediatamente que cuando nosotros operamos con esto. Lo que hacemos es perder información. O sea, porque estamos considerando que todos los que están en este intervalo es como si tuvieran un 5. Todos los que están en el segundo intervalo es como si tuvieran un 5. O sea, ya no cogemos el 8, el 12. A lo mejor resulta que son todos 12. Pero nosotros los vamos a considerar todos como son. Entonces, ¿qué es lo que ocurre? Pues que los errores que cometemos son algo mayores. Por eso, en estos momentos repito que no se hace esto. Luego estaría la frecuencia. ¿La frecuencia qué es? La frecuencia es el número de veces que se repite un valor. En este caso es el número de veces que se repite un intervalo. Pero me da lo mismo. O sea, aquí la frecuencia es 5. Entonces decimos que hay 5 valores que están entre 3 y 7. 6 valores que están entre 8 y 12. 10 valores que están entre 13 y 17. Luego estaría la frecuencia acumulada. Antes hemos hablado de porcentaje acumulado. Ahora es la frecuencia acumulada. La frecuencia acumulada nos da el valor del número. De puntuaciones que hay desde un valor o cualquiera de los inferiores. Entonces, en este caso sería el primer intervalo de 3 a 7 sería 5. La frecuencia acumulada es 5 porque no hay ningún intervalo inferior. El intervalo 8 a 12 tendría una frecuencia de 6. O sea, hay 6 valores que están en el intervalo 8 a 12. Pero hay 11 valores, o sea, 6 más 5, 11 valores que están en el intervalo 8 a 12. O cualquiera de los inferiores. En este caso, 3 a 7, no hay otro. Si tomamos este intervalo, 28 a 32, tendremos que hay 62 valores que están entre 28 y 32. Pero son 168 valores que tienen este valor o cualquiera de los inferiores. Y al final tendremos el número total de valores. Son 304. Aquí estaría el porcentaje, que sería el porcentaje de la frecuencia. El porcentaje acumulado, que ya lo hemos hablado. Y luego dos cosas que aparecen aquí, que es el límite aparente y el límite real. ¿Qué es el límite aparente? Es ese que vemos. Está entre 3 y 7. El límite inferior es 3 y el superior es 7. El límite inferior. Límite aparente aquí pone, es el límite aparente superior. El 7 es el límite aparente superior, que es el que aparece aquí. El límite inferior sería 8, el superior sería el 12. El inferior sería el 13, el superior sería el 17. Eso es el límite aparente, el que vemos. Pero imaginaos que entre todas las puntuaciones que yo tengo en esa tabla, aparece un 7 con 25. ¿Dónde lo meto? Si nosotros consideramos sólo los límites aparentes, no lo puedo meter en ningún sitio. Por eso aparece otro concepto que es el límite real. Que el límite real es el punto medio entre el límite superior de un intervalo y el inferior del siguiente. O sea, sería 7 más 8, 15, 7 y medio. Entonces ya el 7, 25 sí que cabe. Bien. Eso por si os encontráis, que os encontráis alguna vez con alguna cosa de estas. Entonces vamos a ver las medidas de tendencia central. Las medidas de tendencia central. Las medidas de tendencia central son aquellos valores que representan a un grupo. O sea, yo no a un sujeto. Si tengo 300 puntuaciones, cada sujeto tendrá una puntuación. Sin embargo, el grupo está representado por las medidas de tendencia central. Si yo digo, y la media sí que os sonará. El promedio sonará mucho. De un grupo es 5. 5 es el valor que representa ese grupo, a todo el grupo. Si digo que un grupo tiene de promedio 8, ese 8 será el que represente a ese grupo. Entonces hay diferencia. O sea, todo el mundo diría, hombre, pues es mejor el que tiene promedio 8 que el que tiene promedio 5. Pero el grupo. El grupo en general, porque puede haber sujetos que sean mejores en el de 5 y otros peores en el de 8. O que tengan menos puntuación, no mejores ni peores. Eso es una valoración, no me sirve para nada. Que tengan mejor puntuación o una mayor puntuación en el grupo representado por el promedio 5 que en el grupo representado por el promedio 8. Entonces las medidas de tendencia central son la media aritmética. Una de ellas que es. El promedio de todas las puntuaciones obtenidas. Bien, ahí entre paréntesis, eso no nos vamos a meter con ello. Hay el mismo número de puntuaciones de desviación tanto por encima como por debajo de la media. ¿Cómo se halla el promedio? Bueno, eso es, yo creo que lo sabéis. Se suman todas las puntuaciones y se dividen entre el número de puntuaciones que tenemos. Bien, entonces vamos a suponer, esto sería. Una tabla de unos valores, la frecuencia de cada uno de los valores. O sea, originalmente tendríamos estas dos primeras columnas. Entonces si nosotros queremos hallar la media con datos sin agrupar. Sería esto, o sea, la media es igual y ya empiezan a aparecer símbolos y alguien empezará a temblar. Ya aparecen símbolos, se os nubla la vista y esto es muy fácil de. De decir o de explicar. Aquí hay un símbolo que es la sigma griega mayúscula que me dice, me está diciendo. Que sume desde y igual a uno, desde el primer valor hasta n, hasta el último valor. Haga la suma de lo que viene detrás. Y lo que viene detrás que es, que multiplique x sub i por f sub i. O sea, que multiplique cada valor. Por su frecuencia. Y luego haga la suma de todo eso que me ha aparecido. Lo vamos a ver en la tabla. Alguien estará ya viendo alucinaciones. Diciendo, bueno, no sé lo que me están contando aquí. Y lo divido por el número total de puntuaciones que tengo. Entonces, ¿qué es lo que hago yo? Tengo aquí la puntuación y la frecuencia. Multiplico la puntuación por la frecuencia y me da 25. Multiplico esta puntuación. Multiplico esta puntuación por esta frecuencia y me da 16. Estoy haciendo esta operación de aquí. 12 por 4 me da 48. 15 por 3 me da 45. 17 por 7, 119. Y así sucesivamente. Desde la primera puntuación hasta la última tengo que hacer esta operación. Y después lo que tengo que hacer es sumarlo. Eso es lo que me dice esto. O sea, es un lenguaje comprimido, pero es un lenguaje. Como otro cualquiera. Entonces me dice, suma. Suma todo esto que has hecho aquí. Y me da esta suma, 9478. Entonces digo, esta suma es 9478. ¿N qué es? En este caso sería la suma de las frecuencias. O sea, yo sumo todas las frecuencias y me da 304. Y la medida es 31,18. ¿Sabemos? Sobre todo me detengo por la fórmula, porque al final las fórmulas sé que os traen bastante de canto. Si los datos hubieran estado agrupados, vamos a hacerlo rápidamente, es exactamente lo mismo. Entonces dice, aquí tengo intervalos, aquí tenía puntuaciones. Esto es lo mismo que esto. Lo que pasa es que aquí se han agrupado. Entonces, marca de clase, el punto medio. Frecuencia, el número de puntuaciones que hay en cada intervalo. Y hago lo mismo, multiplico la marca de clase por su frecuencia. Luego la sumo y me da 9420. Entonces, lógicamente no me ha dado lo mismo. Acordaos que lo que hemos dicho es que perdemos información. El número de frecuencias es la misma. Y entonces la media es algo distinta. 30,99, o sea, serían 19 centésimas de diferencia entre una y otra. ¿Por qué? Eso es un error de cálculo, simplemente. Porque hemos perdido información, entonces no tenemos la... ¿Estamos? No, cuando yo hallo la media, el valor perdido no existe, no está. Ni para sumarlo, porque no existe, ni está para contarlo. Entonces, imaginaos que yo tengo en 1.400, o en 304, tengo 40 valores perdidos. Si lo sumo es como si fueran cero. Entonces estoy sumando 40 ceros, con lo cual me está distorsionando toda la media. Ceros que no son reales, además. Porque no sé lo que son. Bien. Otra medida de tendencia central. La medida. La mediana. La mediana es aquella puntuación que ocupa el punto medio de una serie ordenada de valores. Es muy importante todo lo que aparece. Sobre todo una serie ordenada de valores. Si no está ordenada, es difícil que haya el punto medio. Podré encontrar una puntuación que está en el centro. Porque dejará por encima de sí unas puntuaciones y por debajo de sí otras. Pero no me va a dar nada. O sea, tiene que estar la serie de puntuaciones ordenada. Entonces, ¿cómo se halla? Pues se halla mediante esta fórmula. Aquí empiezan a complicarse las cosas. Alguien ya la mira un poco mal. La mediana es igual al límite inferior de la puntuación, más el número de puntuaciones que tengo partido por dos, porque ocupa el lugar central, menos la frecuencia de puntos. Es decir, la frecuencia acumulada del intervalo anterior o de las puntuaciones anteriores dividido por la frecuencia. Ahora lo vamos a ver con un ejemplo. Esto lo vais a tener grabado. No os aceleréis porque luego tendréis todo grabado. Se está grabando todo. Aparte de estar grabado, yo os colgaré en el foro de sesiones porque me está dando problemas a la hora de subir a los puntos. Ahora la virtual central me está dando problemas. Entonces, lo mismo que colgué las últimas, me imagino que la habéis visto, pues iré colgando todo esto en el foro de sesiones. ¿Lo habéis encontrado? Hay unas instrucciones en preguntas más frecuentes de cómo entrar, tanto cómo entrar, porque aquí no ha entrado nadie, pero cómo entrar para asistir a la clase desde donde sea, cómo para ver, la clase grabada. Me imagino que alguien las ha visto, porque alguien ha mandado alguna comunicación y en un principio la última clase que hicimos yo no la había publicado, no dejaba que se viera. Y cuando me mandaron un correo me di cuenta que no la había autorizado, que se puede ver aquí. Aquí está todo esto. Esto lo tenéis todo grabado, todo lo que sale aquí y lo que se dice. Bien. Entonces, ahí está el límite inferior del intervalo en el que se encuentra la mediana. Ahora vamos a ver con un ejemplo. Lugar que ocupa la mediana, que ocupa el lugar central. O sea, si son 50 valores, ocupará el lugar 25. Frecuencia acumulada del intervalo anterior a aquel en que se encuentra la mediana y frecuencia del intervalo en que se encuentra la mediana y a amplitud del intervalo. Bien. Seguimos con el mismo ejemplo. Entonces, lo primero. Pero, olvidaos de esto, porque esto hace más referencia a los centiles y vamos a ver. Bien. Entonces, esto sería lo mismo que si hubiéramos dividido 304 entre 2, ¿no? Si yo elimino 50 de aquí, aquí me quedaría 2. O sea, 304 entre 2 es 152. Entonces, lo primero que tenemos que decidir es dónde está la mediana. ¿En qué lugar de la distribución está? Está en el lugar 152. Tenemos 304 observaciones. Seguimos con el ejemplo anterior. Dividida entre 2 nos da 152. Entonces, ¿dónde está esa puntuación? Entonces, esa puntuación está aquí. Aquí no puede estar porque aquí hay 138 puntuaciones que tienen 28 puntos o menos. Pero, ésta ocupa el lugar 152, o sea, no puede estar aquí. Sin embargo, aquí ya hay 168 que tienen 32 puntuaciones o menos. Luego está ahí esa puntuación. Eso es lo primero que tenemos que hacer a la hora de buscar la mediana. Si tuviéramos los 304 valores uno detrás de otro sin que apareciesen las frecuencias, con contar los 152, diríamos, pues el que esté en el centro. En este caso, como serían pares, entonces tendríamos 2. Lo que tendríamos que hacer es hallar la media entre los dos. Entonces, la mediana sería límite inferior. Límite inferior de este valor. Cuando los valores son individuales, van uno a uno, el límite inferior se halla... Aunque aquí haya un 28, es como si estuvieran los demás. Los demás no están. No están reflejados, pero podrían estar el 29, el 30 y el 31 con una frecuencia de 0. Entonces tenemos que considerar que están todos, aunque tengan frecuencia 0, los valores. No existen aquí en esta distribución, pero sin embargo teóricamente están todos. Entonces se le resta medio punto y sería 31 y medio. Multiplicado por n, que son 304, dividido por 2, menos la frecuencia acumulada del intervalo anterior o de la puntuación anterior, que en este caso sería 138. La frecuencia acumulada del anterior sería 138, que aparece aquí. Dividida por la frecuencia de esa puntuación, que sería 30. No ya la acumulada, sino la frecuencia de esa puntuación, que sería 30. Por lo tanto, la mediana sería 31,97. ¿Lo veis? Tendréis que dar vueltas a esto, aunque lo veáis ahora. Me vais a tener que dar vueltas, pero bueno. Tampoco es tan complicado. No os compliquéis demasiado la existencia. Bien. Si los hubiéramos tenido agrupados en intervalos, ¿aquí dónde estaría la mediana de todos estos intervalos? A ver quién se moja. Dicen en el 28, 32. ¿Todos de acuerdo? El silencio se rueda. Ha aparecido el verde, ahí está. En 106 no puede estar. La frecuencia acumulada de 106 tiene 106 valores por debajo. Pero nosotros tenemos que tener 152. No alcanza. Luego 168 es mayor, luego está ahí. El valor está aquí. Entonces, si hacemos el cálculo, sería lo mismo. Límite inferior sería 27,5 más, esto es lo mismo, menos frecuencia acumulada del intervalo anterior, que es 106, dividido por la frecuencia de este intervalo, el 62, nos da 28,24. Como veis, es distinto. Es distinto porque hemos perdido la amplitud del intervalo. Aquí falta, ahora que veo, antes de colgarlo se va a ver mal en la grabación, pero aquí falta un 5. A es la amplitud del intervalo. En el caso de las puntuaciones individuales, la amplitud del intervalo es 1, va de 1 en 1. En este caso sería 5. O sea, aquí habría 5 valores de 28, 32. Aquí falta un 5. Antes del igual falta un 5. Al hacerlo se me coló. Entonces veis que, lo veis, ¿no? Veis el error que hay. Es error mío. Entonces veis que hay diferencia, pero es por la pérdida de información que hemos tenido. Bien, y ya por terminar, con las medidas de tendencia central, estaría la moda. ¿Qué es la moda? La moda es lo mismo que significa la moda en el vestir. Aunque realmente la moda en el vestir creo que no es lo que más se repite, lo que se ve en los desfiles, pero bueno. La moda es la puntuación que más se repite en una serie de datos. O sea, aquella que mayor frecuencia tenga. Si tenemos aquí los datos sin agrupar, ¿cuál sería la moda? A ver, de atrás no sé si lo veréis porque está bastante pequeño. ¿Cuál sería la moda? 12. O sea, la que está en el orden 12, no el 12. Sería 28. La moda sería 28. En el caso de que tuviéramos los datos agrupados, ¿cuál sería la moda? Sería 30. Justo la marca de clase de ese intervalo. Bien, pues ya lo dejamos aquí.