Vamos a empezar. Ahora si hago el tema 5 y empezamos. Voy a ir deprisa al principio porque como lo vimos el día anterior, no me quiero detener mucho, quiero detenerme más en lo que toca hoy, que es cuando ya ponemos programas compuestos. Primero, ¿qué vimos? Vimos los programas básicos. Dije, reforzamiento continuo, no hay programa, es cada vez que aprietas una respuesta te doy un reforzador. Pero el reforzamiento parcial o intermitente es la que... Son los que nos interesan, son los que consiguen una conducta, unas respuestas más continuas. Una vez que está instituido la conducta vamos a aplicar un programa intermitente, parcial o intermitente. Entonces, veíamos ahí los programas son estímulo discriminativo, respuesta a consecuencia. Vamos a ver los términos que vamos a utilizar y aquí tenemos las reglas, las reglas con que vamos a reforzar. A entregar un refuerzo, un reforzador, dependiendo del número de respuestas. Van a ser básicamente cuatro y son fijos o variables. Razón fija, intervalo fijo, intervalo variable. Razón fija siempre es el mismo número de respuestas. Razón variable varía alrededor de una media. Por ejemplo, si la media es 5, le haremos que dé 4 respuestas y 6. La media es 5, 3 y 7. La media al final hace la media. Con los intervalos es tiempo, es tiempo que transcurre. Tiene que dejar transcurrir ese tiempo y dar después una única respuesta. Esto es importante porque ya veremos luego las funciones de retroalimentación. Entonces, ¿qué tipo de respuestas dan? Estas son las respuestas que dan los sujetos. Cuando va para arriba el sujeto está picoteando, está dando respuestas a la palanca. Cuando está plano... Pasa el tiempo y no da respuestas. Es lo que llama aquí, que se llama en los programas de razón la pausa por reforzamiento. Se refiere a esto. En los programas de razón fija. Es decir, el sujeto adivina que siempre es el mismo después del mismo número de respuestas. Le da el reforzador, da el número de respuestas y se para. Da el número de respuestas y se para. En los programas variables, como veis, el programa de razón variable es el que más... ¿Cuántas respuestas produce? Porque el sujeto no se da cuenta, no sabe, como le damos al reforzador después de un número diferente, aunque sea la media, no sabe cuándo le van a dar el reforzador. Por eso son las máquinas tragacerras, son un ejemplo de reforzamiento de razón variable porque no sabes cuándo te va a dar el premio. Entonces mantiene a los sujetos con muchas respuestas. Una respuesta alta y constante. En los intervalos ocurre lo mismo. En el intervalo fijo, el sujeto se para. Por eso en la gráfica hace ese festón, festoneado, que le llaman, como si fuera un misillo que tiene como un... A principio da pocas respuestas y luego da muchas. A principio se para un poco y no se para tanto como en los programas de razón. Pero a lo que nos interesa ahora ya es entrar en la relación entre... Bueno, hay unas similitudes, hay que conocerlas. ¿Qué se parecen los programas de razón y los programas de intervalo? Programas fijos. Programas fijos. Todos los de razón y los de intervalo producen pausa por reforzamiento y después altas tasas de respuesta. Los variables mantienen tasa estable de respuesta. El sujeto no sabe cuándo le van a dar el reforzador. No se para. No presenta pausa. Se diferencian... Hombre, los programas de intervalo, la diferencia con los de razón es que esa conducta está mediada por el sentido del tiempo. Tienen que esperar un tiempo y dar una respuesta después. De que haya transcurrido el intervalo. No sirven las respuestas que tiene antes. Sin embargo, en los de razón la conducta es más vigorosa, más alta tasa de respuesta. Y la razón fija produce una pausa por reforzamiento que pasa luego a una tasa estable de respuesta. Es como si se hubiera parado y luego se pusiera a picotear. Y luego la diferencia es que en los intervalos fijos la pausa por reforzamiento pasa a una aceleración. Eso es lo que se ve en la gráfica. El sujeto en la de razón se paraba y luego, como dice ahí, pasa alta la tasa de respuesta. Pero en el intervalo hacia el festoneado quiere decir que se para un poco y luego gradualmente comienza a acelerar la tasa de respuesta. Vale, ya hemos visto los programas básicos, la pausa por reforzamiento. Vamos a ver qué quiero llegar a la función de retroalimentación. Exacto. Programas de razón frente a programas de intervalo. Funciones de retroalimentación. ¿Qué pasa? ¿Qué es retroalimentación? Es decir, si yo pongo un programa que le hago dar respuestas obtiene más reforzadores. Hay esa relación, esa retroalimentación entre las respuestas y los reforzadores. Pero en los programas de razón sí ocurre. Pero en los de intervalo no. Porque si yo te pongo un intervalo de cinco el sujeto sólo tiene que dar una respuesta en el segundo seis. Si es un segundo, cinco minutos sería mucho, ¿no? Entonces, tiene que dar una respuesta. Pero si yo pongo un intervalo veinte no hay retroalimentación. Tiene que dar una respuesta en el segundo veintiuno. No hay, ¿entendéis lo que es esta retroalimentación? Esta relación entre la tasa de respuesta y los reforzadores. Pues es lo que estamos diciendo. En los programas de intervalo esa tasa de respuesta no influye directamente en el resultado. No influye directamente sobre la frecuencia de los reforzadores. Pero en los programas de... Porque los programas de intervalo refuerzan tiempo entre respuestas largos. Entonces, aquí ya estamos fijándonos en los tiempos entre respuestas. Para ver si hay... Para ver qué programa se puede utilizar para qué, etcétera, ¿no? Entonces, vamos a ver qué es esto del tiempo entre respuestas. Los programas de razón no tienen tendencia a reforzar un tiempo entre respuestas particular. Por lo que no favorece... Los largos no les favorece. Se supone, como responde al ráfagas, es probable que actúen sobre tiempos entre respuestas cortos. Recuerdo el ejemplo que puse el otro día para poner un ejemplo de cómo se utiliza un programa de intervalo y uno de razón para aumentar respuestas o disminuirlas. Por ejemplo, el niño que comía despacio y queremos que coma más deprisa le diremos a la madre que le ponga un programa de razón... De razón variándola. Es decir... Si en medio minuto te tomas una cucharada, te doy un premio. Te doy el reforzador. O sea, simbólico. Si luego en ese mismo medio minuto se toma dos, te vuelvo a dar el premio. ¿Vale? Eso es un ejemplo de un programa de razón para aumentar. Ahora vamos a uno de intervalo para disminuir. Con tiempos entre respuestas raros. Un niño que tiene TDAH y se levanta mucho en el aula. Le vamos a proponer al profesor que le haga un programa de intervalo... De tal manera que si se está dos minutos seguidos sin levantarse vaya y le dé un reforzador. Muy bien, Manolito. Estás haciendo estupendamente. Luego lo vamos ampliando. Tres minutos, un reforzador. Vamos ampliando el tiempo entre respuestas. En este caso no nos interesa que dé respuestas. Por eso ponemos un programa de intervalo. Que no hay retroalimentación. En el de razón sí hay retroalimentación. Sí hay relación entre la tasa de respuestas y los reforzadores. Bueno. Luego las explicaciones. Molar, molecular... Creo que ahí se puede entender lo que queremos decir. El programa de razón sí es variable si existe una correlación directa entre la tasa de respuesta y el reforzador. Por lo tanto, la tasa de respuesta aumentará para conseguir reforzadores. Pero esto no lo podemos hacer con los de intervalo. Porque no aumentará. Si aumentamos o disminuimos el intervalo, no. Pues esas explicaciones de valor... Y bueno. Función de retroalimentación es una forma de describir cómo actúa el ambiente. O sea, los reforzadores que reciben el ambiente. Frecuencia de reforzamiento. Magnitud, si es muy grande. La demora del reforzador. ¿Vamos a quitárselo inmediatamente? ¿O vamos a demorarlo? Porque eso ya lo veremos en las leyes de igualación. Que influyen en el reforzamiento del sujeto... O sea, el programa. Pues... Quiero llegar a la ley de igualación. A los programas compuestos. Quiero llegar a, realmente, donde lo dejamos entendido. Vale. En los programas de razón, cuanto más rápido responda el sujeto, más reforzadores obtiene. Eso es la retroalimentación. En los programas de intervalo no hay retroalimentación. Entre respuestas y reforzadores. Aquí nos vamos a estar hablando de respuestas. Y los reforzadores, que ya veréis, lo llamaremos como en las fórmulas cuando aparezca, será una F. Frecuencia de reforzamiento. Bueno, luego, como hemos hablado del tiempo entre respuestas, de la teoría centrada en el tiempo de respuestas... Vamos a decir lo mismo. Los programas de razón... Los tiempos entre respuestas largos posponen. Hace que tarde más en aparecer el reforzador. Cuanto antes haga lo que tenga que hacer, antes obtendrá el reforzador. Por lo tanto, un programa de razón favorece tiempo entre respuestas corto. Que dé muchas respuestas. Como el niño que come el espacio, queremos que poco a poco vaya aumentando el número de respuestas por minuto. Por ciento. En los programas de intervalo, la recompensa, la probabilidad de ser recompensado, aumenta con un tiempo largo entre respuestas. Porque no le pedimos... Un programa de intervalo no te pide... No le pide al sujeto estar dando respuestas. Es decir, no contabilizan las respuestas que da hasta si es intervalo o variable 20. Pues hasta el segundo 20, 21, no le vamos a dar al reforzador. Pero necesitamos una respuesta después del intervalo. Las que dé antes no sirven. ¿Vale? Por lo tanto, los intervalos favorecen con tiempos entre respuestas largos. Y eso que... Porque queremos tasas de respuesta bajas. Como el niño que se levantó mucho en el aula, que queremos que dé pocas respuestas cada vez menos. Para eso es lo que sirve. Pues en programas de razón hay una correlación directa entre tasa de respuesta y tasa de reforzador. Pero en los programas de intervalo no. Podemos aumentar el intervalo que no aumenta el número de respuestas. Y esto es lo que vamos a denominar una función de retroalimentación. Respuesta reforzada. La hay en los de razón, pero no la hay en los de intervalo. Esto es un resumen que he puesto yo ahí, que puede estar bien. De esto mismo que hemos hablado. R de B. Sí, bueno, por si no lo... Entonces ahora vamos a ver reforzamiento. Antes dijimos tiempos entre respuestas cortos. Programa de reforzamiento diferencial de tasas altas. Queremos muchas respuestas. Por lo tanto, entre respuestas el tiempo será corto. Por lo otro, del otro lado. Cuando tenemos reforzamiento diferencial R de B. Tasas bajas. Vamos a reforzar una respuesta si ocurre después de un tiempo. Utilizaremos un programa de intervalo y que favorece los tiempos entre respuestas largos. Y fomenta tasas bajas. Niño inquieto en clase. Si nos repita la comida del horno, entonces ¿de qué se cuenta? Uy, sí, voy a... Cuidado de tirarla antes de que se queme, etc. Tocar los sujetos musicales. Enciende espacios. Son respuestas... Tiempos de respuestas largos. Vale. Vamos a entrar... Vale, veíamos los programas compuestos. Bien. ¿Alternantes? ¿Qué significa? El sujeto puede picar en uno. Vamos a ponerle dos programas. Una caja Skinner con uno en el programa A. Que tiene una frecuencia de reforzamiento y dentro del programa C. Entonces, según cómo... Este... Tenemos alternantes. Son dos programas básicos alternados al azar. ¿Qué significa? Es el investigador que dice, ahora está el programa A, ahora está el programa B. Se utilizan para algunas cosas. Y el cambio de uno a otro es independiente de la conducta. Sí, el cambio de uno a otro es independiente de lo que haga el sujeto. No por picotear va a empezar a funcionar uno o el otro, ¿no? Pero sí... De un tiempo establecido. El investigador le dice, bueno, cinco minutos está el A y cinco minutos el B o el tiempo establecido. El múltiple es igual que el mixto alternante pero con una señal. Con un estímulo discriminativo. ¿Ves? A veces no hablamos. El estímulo discriminativo aparece en la ecuación pero no vamos a hablar mucho de él. Vamos a hablar de la respuesta y la consecuencia. La respuesta y el reforzador. Estos son los alternantes. Ahora los programas secuenciales. ¿Qué significa? Primero tiene que hacer uno y luego hacer el otro. Programa tándem. Tiene dos programas simples. Imagínate intervalo variable 5 y intervalo variable 20, ¿no? Que se presentan en el mismo orden. El sujeto tiene que empezar por el primero y continuar por el segundo. Y después del último le damos el reforzador. Antes no. Antes terminaba un programa caía el reforzador. Terminaba el otro programa caía el reforzador. Aquí va a tener que ir uno detrás de otro. El encadenado es lo mismo que el tándem pero señalado. Con una clave. Con algo. Con un estímulo discriminativo. Ahí dice, cuando acabe el primer programa se enciende una luz. Como casi para que parezca un premio para el sujeto. Concurrentes. Los programas concurrentes los vamos a ver bastante en la ley de igualación. Programas concurrentes. O sea, el sujeto tiene dos programas básicos que puede picotearlos a la vez. Puede cambiarlos a otro sin completar el tiempo o el número de respuestas. Porque pueden ser de intervalo. Fijo. De intervalo variable. De razón fija. De ratón variable. De los cualquiera. ¿No? Y los combinados. Aquí en los anteriores cada vez que utilizábamos dos programas eran o dos de intervalo, fijo variable, o dos de razón. Pero aquí en los combinados vamos a combinar una de razón con una de intervalo. En un lado. Combinamos. Programa alternativo. O sea, reportamos una respuesta cada vez que cumple con el requisito de la razón de un lado o en el requisito del intervalo del otro. Y así tiene dos formas de conseguir un reforzador alternativo. Conjuntivo. Aquí le vamos a pedir que para obtener el reforzador que cumpla al mismo tiempo con el de razón y con el de intervalo. Con el de la A y con el de la B. Al mismo tiempo. Y en el entrelazado es como si fuera el programa A y el programa B están unidos. Por ejemplo, si el sujeto da... Imagínate que es 10. Razón fija 10. Intervalo fijo 10. Pues imagínate que da cinco respuestas en el de razón, tiene que esperar cinco segundos y dar una respuesta en el de intervalo. O algo. Eso es tan entrelazado. O al revés. Imagínate que... No, en el otro no puede ser porque no puede esperar cinco segundos en el de intervalo si no ha terminado el intervalo, dar una respuesta y empezar en el otro. Tendría que dar dos respuestas en el de razón, tiene que esperar ocho segundos y dar una respuesta Ya. Depende de lo que haga el animal están entrelazados, por eso se llama entrelazado. Vale. Nosotros vamos a... Vamos en cada tema, veréis que decimos, estamos utilizando este tipo de programa. Bueno, esto es un resumen de lo mismo, de cada uno de los programas. Que tampoco me quiero detener mucho ahí. Y un resumen de estos programas de estos talentos, de todo lo que hemos visto. Vale. Vamos a entrar en la conducta del éxito. Es decir. Vamos a ver qué conducta elige el sujeto o qué preferencia tiene sobre dos alternativas. Nosotros, básicamente vamos a verlo con programas concurrentes y que cada uno puede llevar... Concurrentes es a la vez, puedes picotear en uno, puedes picotear en otro. Lo vamos a utilizar sobre todo con programas de intervalo. Entonces, Hersten utilizó programas concurrentes. Donde las alternativas diferían la frecuencia de reforzamiento. Tasa o frecuencia de reforzamiento. Nosotros a los reforzadores los llamamos EF. Entonces, Hersten dijo que la lingüelación es que el sujeto... Cuando hay una tasa relativa. Relativa es dividir la parte por el todo. Es decir, todas las respuestas que ha dado en A y en B. Dividimos la de A por todas. Y la de B por todas. Ya tenemos una tasa relativa. Esto es de análisis de datos. Entonces, la R. Respuestas en A partido por el todo. Es una tasa relativa. Es igual a los reforzadores que obtiene en A partido por todo. A la frecuencia de los reforzadores asociada a cada una de las alternativas. Entonces, esta ley de igualación va a sufrir y sufriendo transformaciones. Que es lo que vamos a hacer con ella. Vamos a ir viendo cómo es la conducta de elección. Ahí tenéis la fórmula. Las F son reforzadores. Las R respuestas. Y las F reforzadores. Esto lo utilizó con programas de intervalo variable. Y veía que los sujetos se ajustaban a esta relación lineal. De tal manera que si una alternativa A le da más frecuencia de reforzadores que la B. Los sujetos se quedan más... Responden más a la de A. A la alternativa que más reforzadores obtiene. O a la más favorable. Eso es lo que significa la ley de igualación. El sujeto iguala sus respuestas con los reforzadores que obtienen cada una de las alternativas. Nada más. Es una tasa relativa. No absoluta. No el número de respuestas. Sino dividiendo la parte por el todo. Eso es una tasa relativa. Bueno. Pero luego se dieron cuenta que además de igualar esa tasa relativa por la tasa de reforzamiento. Yo lo llamo frecuencia de reforzamiento. Para que no sea tasa y tasa y tasa. ¿Vale? También la igualan con otros parámetros. Sobre el reforzador. Frecuencia, la magnitud. Grande, pequeño, inmediate. Es decir. ¿Tardamos mucho en darse? ¿O tardamos poco? ¿Cuánto vamos a tardar en darle? Por eso esa formulación de la ley de la igualación se añade en otros parámetros. La F sí es lo mismo que la ley de igualación. La M, la magnitud de los reforzadores. Imagínate que en A son más grandes que en B. Etcétera. El investigador va cambiando estas cosas. La demora. La demora es inversa. Por eso uno tiene 1 partido por la demora. Es decir. Vamos a darle... Termina de dar la respuesta y vamos a dar 5 segundos de demora. O sea, ahí pondríamos 1 partido por 5. Y en el denominador también. 1 partido por 5 más 1 partido por lo que tarde la demora en B. Es también una tasa relativa. Por eso es difícil este tema porque son casi conceptos matemáticos. No se equiparan tasas absolutas. Son tasas relativas. ¿Vale? Pero se dieron cuenta que ocurrían... Con programas de razón ocurría esto. Masinización. ¿Qué hacía el sujeto? Imagínate que entre dos alternativas de respuesta una razón fija 5, otra razón fija 20. Si hay mucha diferencia. El sujeto se quita. Elige la alternativa que tiene una razón más baja. Es decir, que le pide menor número de respuesta. Y dice que cumple con la ley de igualación aunque en la otra alternativa no dé ninguna respuesta. ¿Vale? Sin contradecir la ley de igualación. Elige en exclusiva la alternativa más cuadrada. Y cumple con la ley de igualación. Los programas de razón. Los otros, los primeros de que hablé eran sobre programas de intervalo. Luego también se dieron cuenta que había una igualación temporal. Es decir, que el sujeto se quedaba más tiempo en la alternativa que más reforzadores le ofrecía. Es muy lógico, ¿no? El tiempo de permanencia en cada uno de los programas de reforzamiento. Ahí lo iban a contar. Vale. Y entonces, bueno, pues lo incluyeron en la fórmula. El tiempo en A partido por todo es una tasa relativa de tiempo. A más B. Es igual a F. A los reforzadores que obtienen A partido por los reforzadores que obtienen A más. Una tasa relativa. Bueno, y la ley generalizada de la igualación. Se dieron cuenta que cuando hay que elegir entre varias alternativas, sobre todo las palomas, ¿qué hacían las graciosas sillas? Lo que hacían era ese comportamiento denominado alternancia, ¿no? Quiere decir que si cambio de una alternativa a otra sin que guarde relación con la otra, los reforzadores. Paloma explicaba tres veces aquí, cambiaba al otro lado. Bueno, pues inventaron esta demora por el cambio para el laboratorio. Querían controlar esa influencia extraña. Y decidieron añadir una limitación al programa. Es decir, si cambias al programa B, los primeros hay una demora por el cambio. Unos segundos que tus picotazos no tienen efecto sobre el reforzador. Un malo demora por el cambio. De dos, tres... No se entiende, ¿no? Vale. Luego quisieron ver... Luego ya vamos con los sesgos. ¿Sesgos qué es? Hay influencias no deseables como el color de las alternativas, la fuerza requerida, dónde está situado, dónde el sujeto tiene que dar las respuestas, ¿no? Pues Baum formuló esta ley generalizada de la igualación para que la frecuencia de reforzamiento, la tasa de respuesta, se iguala a un factor. Un factor multiplicativo de la tasa relativa de reforzamiento y de los sesgos. ¿Ves? Respuestas en A partido por el total es igual a la frecuencia de los reforzados en A partido por el total, multiplicado por los sesgos. Sesgos de cada una de las alternativas. Ahí nos dice cómo los dividieron. Sujeto, ¿no? O sea, Baum dice método para corregir la influencia de sesgos fuentes de influencia desconocida. Es decir, equiparaba los factores de reforzamiento entre alternativas de respuesta, frecuencia, magnitud, etcétera. Medíamos las preferencias y sí, y conocido que el sujeto contestaba, aunque las dos alternativas ofrecían los mismos reforzadores, decía, bueno, pues ha dado más a la A, pues vamos a corregirlo variando los factores de reforzamiento asociados. ¿Vale? Se supone que es una fórmula matemática que la han estado mirando a través de investigación con los animales. Y luego ocurría que estos sesgos podían hacer que el sujeto diera más respuestas a un lado o al otro, pero había casos que, aparte de los sesgos, cada alternativa podía ser sobrevalorada o infravalorada. Lo llamamos sobreigualación o infraigualación. Si tiene que elegir entre dos alternativas que son igualmente favorables y los sujetos eligen más una que otra, entonces esa A parece que se desvía de la ley de igualación, puede ser elegida a sesgos de respuesta o a sobreigualación o infraigualación. Entonces, la sobreigualación es cuando la mejor alternativa de respuesta es valorada por encima de la preferencia elegida. La valora mal. O la infraigualación. La mejor alternativa es... Valorada por debajo de la preferencia establecida por la igualación perfecta. Es más común la infraigualación. ¿Por qué? Por la tendencia a cambiar, a picotear. Lo de la demora del cambio lo inventaron pero no lo van a estar poniendo todo el tiempo. Hablan de la infraigualación y de la sobreigualación siempre se calcula sobre la alternativa más favorable. Si, por ejemplo, es 0,7 la alternativa más favorable. Como es una tasa relativa, lo que hay hasta 1 es lo de la otra alternativa. Al ser dos alternativas y dividir una por el total, lo que sobre hasta 1 me va a dar un valor de 0 a 1. ¿Vale? Es una tasa relativa, por lo tanto, de 0 a 1. Siempre tiene que haber una de las dos alternativas más favorable. No, antes cuando va una CIA lo de los sesgos tenía las dos alternativas igual para ver, para buscar los sesgos. Pero cuando hacemos experimentación siempre una tiene que ser más favorable. Entonces, se amplió, para incluir esto de la igualación y sobreigualación, Bowne amplió la ley de igualación para incluir estas desviaciones además de los sesgos. Entonces ves que si hacemos una tasa RA partido por RB es igual a K, que es un sesgo de respuesta, multiplicado por los reforzadores en A partido por reforzadores en B. La tasa relativa elevado a S, la sensibilidad hacia los programas de reforzamiento. Cuando K y S es igual a 1, la ecuación se queda como la de este. La RA partido por RA partido por SRB es igual a FA, a la frecuencia de reforzamiento en A partido por SA. Pero cuando es sobreigualación, S vale más de 1. O infraigualación, la S valdrá 0. Y ahora vemos las teorías de la igualación. Hay dos enfoques y un tercero que es un poco una reunión de los dos. Teoría de maximización molecular. Dice que el sujeto lo que intenta es cambiar la alternativa cuando la probabilidad de reforzamiento es mayor en la otra alternativa. Y ocurre con los programas de intervalo. Sin embargo, la teoría de la maximización molar dice que los sujetos tienen que cambiar Y los sujetos distribuyen las respuestas como buscando un cálculo global, molar. Global de tener mayor tasa de reforzamiento global. Por eso ocurre con los programas de razón. La molar con los programas de razón y la molecular con los programas de intervalo. Pero tenía unos problemas esta teoría porque no explicaba bien la conducta de elección en los programas de razón variable y intervalo variable. O porque preferían reforzadores variables a fijos. Y surgió la teoría del mejoramiento. Que es una síntesis de la molecular y de la molar. Que dice que los sujetos cambian de una alternativa a otra para mejorar la tasa local de reforzamiento y lo llama tasa local. No la tasa molecular ni nada. Tasa local. Y por eso tiene más alcance a largo plazo que la teoría molecular. Pero tampoco se refiere a las tasas moleculares. A las tasas globales que hablaba la teoría molar de antes. Y al obtener mayor tasa de reforzamiento también se mantiene más tiempo en la alternativa más adorada. Por eso es intrínseco al mejoramiento está la igualación temporal que la vimos antes. Porque como le dije la alternativa que da más reforzamiento dará más tasa de respuesta. Obtendrán más reforzadores y permanecerán más tiempo en esa alternativa. Eso ya hemos incluido en sí. Y responden menos a la menos favorable y de ahí obtienen menos reforzadores. Están menos ciegos. Vamos a estudiar ahora con esto, con la conducta de elección. Hasta aquí. Todavía no los dejamos pero vamos a ver cómo se... La elección con la impulsividad y el autocontrol. Cómo se estudia desde aquí de la psicología del aprendizaje. Para ello se ha utilizado programa concurrente simple. Es decir. Dos alternativas de respuesta. Cada uno con un reforzador particular como los que hemos visto. Eso favorecerá o una de dos. O la impulsividad o el autocontrol. Y otro utilizando un programa concurrente encadenado. El sujeto tenía que hacer primero uno y luego el otro. Tiene que elegir al principio los dos programas simples de reforzamiento. Funcionará una vez realizada la elección ya no puede empezar el otro programa. Tiene que empezar con este. Y es continuar con el siguiente. Se extiende la luz. Lo mismo que vimos en un programa concurrente encadenado. Pues bien. El programa concurrente encadenado. Que puede elegir cuál empieza de los programas simples. Luego ya las alternativas rechazadas no están a disposición del sujeto. Si hubiera empezado por el otro. Hubiera otro tipo de programa. Entonces. El encadenado tiene dos fases. La primera fase es la elección. El sujeto elige A o B. Una vez elige entre dos opciones. Le vamos a dar en la segunda fase. En el eslabón terminal será en el otro lado. Si no lo elige le volvemos a presentar el eslabón inicial. Hasta que el sujeto elija otra alternativa que le lleve al eslabón final. ¿No? Esto permite. Con este programa concurrente encadenado. Hacemos que los sujetos sean consecuentes con sus decisiones. Y separa el aprendizaje de los eslabones iniciales de los finales. Por ejemplo. Se asemejan a la vida diaria estos programas. Porque elegir una alternativa. Que compromete por un tiempo a cambiar de opción. Pero no se puede cambiar de forma caprichosa en cada momento. Por ejemplo. Un estudiante se apunta a un número determinado de asignaturas. Y a medio curso se da cuenta que no debería haber apuntado a tantas. Pero no puede cambiar porque ha adquirido un compromiso. Por eso se llama elección con compromiso. Lo vamos a estudiar mediante estos programas. Sin embargo, con el programa simple la elección es directa. Con estos programas lo que hacían era ver qué diferencias había al utilizar un programa concurrente simple. Y un encadenado. Se dieron cuenta que los sujetos les daban a elegir entre una recompensa pequeña inmediata. Luego, en el otro lado, el simple. Una recompensa grande demorada. En lo simple la respuesta era directa. Pero cuando utilizaron los encadenados y se dieron cuenta que dejar un tiempo constante de espera. Para llegar a acceder a la oportunidad de obtener el refuerzo. Las preferencias cambiaron. Ahora los sujetos preferían más la alternativa que llevaba al reforzador mayor pero más demorado. Lo que viene a decir con estos programas es que demorar, tardar un poco más en entregar del reforzador pequeño. Hace que su fuerza se debilite. Demorar los dos reforzadores hace que la del reforzador pequeño se debilite. Y se prefiera esperar un reforzador de mayor magnitud. Aunque sea también demorado. Y esto da lugar a que la impulsividad. Que es preferencia por una recompensa pequeña inmediata. Se conseguía con los programas concurrentes simples. Sin embargo, el autocontrol. Era preferencia por una recompensa mayor demorada. Se conseguía con un programa concurrente encadenado. El valor de los reforzadores. ¿Qué valor tienen los reforzadores? El valor de un reforzador cambia. O de una alternativa de respuesta. Dependiendo de la magnitud. Aumenta con la magnitud del reforzador. Y disminuye con la demora. Si tardamos en darlo. Por lo tanto, ese cociente magnitud-demora. Es el que va a dar el valor del reforzador. Mazur hizo... O sea, cuando demoramos un reforzador grande y otro pequeño. El valor del reforzador grande aumenta. Es superior al pequeño. Y será mayor el del pequeño que el del grande. Cuando la esfera por el pequeño sea pequeña. Ahora que el sujeto... Si queremos impulsividad, el programa concurrente simple. Si no, encadenado. Mazur hizo una fórmula. Esa que veis ahí. Para expresar cómo podemos conseguir un cambio de un comportamiento impulsivo. A uno autocontrolado. Es una función hiperbólica. Que dice que. Al incrementar la demora de las dos recompensas. El sujeto hace que muestre en control-control. Ya que puestos a esperar. Voy a esperar a la grande. Aumenta el valor de la recompensa grande. O sea. El valor del reforzador en A. Es igual a la magnitud del reforzador en A. Partido por uno más K. Una constante. Multiplicado por la demora en A. ¿Vale? La tasa de respuesta en relación. A la ley de igualación. Vale. Einstein decía. Bueno, cualquier situación. Representa una elección. Ahí hablábamos entre respetar una alternativa o no. Pero ahora ya decimos. Entre hacer algo o no hacerlo. Cualquier en la vida diaria. Puedes elegir. Entre. Hacer algo. Pegar los cacharros de tu casa. O no hacer nada. Dependiendo qué es lo que te refuerza. Por lo que el reforzamiento de la situación. Comprende reforzadores programados. O no explícitamente programados. En laboratorio. Estarán programados. Bien. Además. Decía que los organismos siempre están haciendo algo. ¿No? Eh. ¿Qué podríamos hacer? Una forma de. De. Descansar. O sea. Podemos hacer algo o descansar. ¿No? La suma de la tasa de respuesta. Créditario. Más otra actividad. Siempre tiene que ser igual. Por lo tanto. Una respuesta es una redistribución. De respuestas alternativas. Una forma de aumentar la tasa de respuesta. Sería. Aumentar la tasa de reforzamiento. Asociada a esa conducta. Y otra sería. Disminuir la tasa de reforzamiento. Alternativo. De la conducta alternativa. Básicamente. Ahora ya hemos llegado a las teorías. Del aprendizaje instrumental. Cambiamos de tercio. Ya hemos visto todo lo que teníamos que ver. Sobre la ley de igualación. La conducta de elección. Y los valores de los reforzadores. Ahora vamos a ver. Las teorías. ¿Cuáles son? Teorías. Vamos. Vamos a empezar. Que son teorías. Asociacionistas. Es decir. Asociación. Estímulo. Respuesta. O asociación. Estímulo. Estamos estudiando. La. El condicionamiento clásico. Es. Estímulo. Asociación. Aprendizaje por. Asociación. Aprendía. A asociar. Un estímulo neutro. Con un estímulo importante. El estímulo neutro. Pasaba. A ser. Estímulo condicionado. El estímulo importante. Siempre es. Un estímulo llamativo. Importante. Para el sujeto. Vital. Etcétera. Pues bien. Thor Dicke. Era. De la teoría. Estímulo. Respuesta. Que creó. La ley del efecto. Que es una. Asociación. ER. Una situación. Del ambiente. Y una respuesta. Del sujeto. Depende de la propia consecuencia. De las. De la acción. ¿No? El reforzador. Lo que hace. Es crear. Una respuesta. Y la ley del efecto. Que lo que dice. Es que. Una respuesta. Que va a seguir. La satisfacción. Tiene la probabilidad. De que vuelva a ocurrir. Y respuestas. Que acompañamos. De malestar. De castigo. Tienen menos probabilidad. De que vuelva a ocurrir. También. Favorable. A las teorías. Estímulo. Respuesta. Está. Hull. No lo veis aquí abajo. Pero es. Hull. Que dice. Hull creó. Una. Bueno. Después. Se le llama. Neoconductista. Skinner. Era. Conductista radical. O sea. Era. Estímulo. Respuesta. Quiere decir. Sin incluir. Variables. No observables. Todo lo que es. Son. Es observable. Los neoconductistas. Ya van. Incluyendo cosas. Que no se podían observar. Como el impulso. La necesidad. ¿No? Por eso. Hull dice. Que la conseguir. El reforzador. Disminuye. El impulso. La necesidad. Incita. A la acción. El incentivo. Para que el sujeto. Ejecute. Alguna acción. Que es. Necesaria. Y es necesaria. Una necesidad biológica. ¿No? Pues. Por lo tanto. La ejecución conductual. Según su fórmula. Según Hull. Es esta. El sujeto. Hará la conducta. E. Ejecución. Es igual. Al hábito. Si tiene el hábito. Hará la conducta. Multiplicado. Por el drive. El impulso. Y multiplicado. Por el I. El incentivo. Si cualquiera. De estos valores. Es cero. Como veis. Son multiplicativos. El resultado. Es que el sujeto. No hará la conducta. Si no tiene. El impulso. Porque. El D. Es decir. Ángel. Hará. Puenting. Ejecutará. La acción. Conductual. H. Si tiene el hábito. Vale. Le vamos a dar un valor. Si tiene el impulso. D. Pero. Me cago. No tengo el incentivo. O sea. O al bebé. Si. He hecho. Tengo el hábito. Porque he hecho. Puenting. O he hecho. Ciertas cosas. Pero no tengo el impulso. No. No le. No me ha gustado mucho. ¿No? O no. El incentivo es cero. Si cualquiera de estos elementos es cero. Es lo que decía Hull. El sujeto. No se moverá. De la silla. No hará. No ejecutará el hábito. Vale. Hemos visto. Estímulo. Respuesta. Teorías. Estímulo. Respuesta. Son la de Tornike. Y la de Hull. Ahora. Vamos a ver las teorías. Estímulo. Es. El esquema. Estímulo. Es contrario. Estímulo. Respuesta. Tolman lo que hacía. Era. Investigaba con ratas nadadoras. No. No le ponía. Así como la caja de Skinner. Una palanquita. No. Le ponía. El premio igual. En una islita. Para la islita. Y coger su premio. De tal manera que él creaba los mapas cognitivos y tenía que aprender dónde ir. Y no sólo activar unos músculos concretos en lo otro. La caja de Skinner es saltar una palanca con el pico, con la pata o lo que sea. Y también Tolman distingue entre aprendizaje y ejecución. Dice. El reforzador no es necesario para el aprendizaje. Pero sí para que lo haga posteriormente. Sí para el ejecutivo. El reforzador. Y hace experimentos donde los animales aprenden una tarea pero no la ejecutan en ese momento para conseguir el premio. Eso es lo que dice que hay un aprendizaje latente. Que es cuando se hace recorrer a los animales un laberinto pero no les damos la recompensa. Luego vuelven a dar el laberinto y a la ejecución ya se necesita la recompensa. Por lo tanto, los animales aprenden a dar la respuesta correcta ya que han aprendido antes a recorrer el laberinto, antes de recibir el premio. Por lo tanto, esa recompensa no es necesaria para el aprendizaje. Pero sí para que se ejecute la respuesta para la ejecución. Distingue aprendizaje de ejecución. Puede parecer un poco loco pero sí. Si tú sueltas a unas ratas en un espacio y luego van aprendiendo, van viendo lo que hay. Luego les metes un reforzador en un sitio. Las ratas ya han aprendido lo que hay allí. Pero ya van directas a por el reforzador. Al principio es aprendizaje latente. Dices, bueno, debe estar ahí al aprendizaje pero no se manifiesta. Por eso lo llaman aprendizaje latente. A pesar de esas diferencias entre Tolman y Hull. Uno estímulo-estímulo Tolman y otro estímulo-respuesta Hull. Los dos dicen que aprendizaje y ejecución se pueden separar. Son separados. Y es lo que viene a decir. Os dije que el condicionamiento clásico era estímulo-estímulo. Pero también hablamos aquí de que los mecanismos asociativos estímulo-respuesta, estímulo-estímulo están implicados o pueden estar implicados en este aprendizaje instrumental u operante. El más específico es el estímulo-respuesta. El más específico porque establece normas para producir unas respuestas no sólo para adquirir una asociación. Las reglas de ejecución operante. Es decir. Siguiendo la teoría de Hull. En la teoría de Skinner algunos psicólogos han propuesto una aproximación conductual. Donde dice que en el condicionamiento operante los reforzadores seleccionan respuestas sin ER ni E. O sea, sin seguir una teoría. Las dos teorías que dijimos antes. Skinner decía que no. Los reforzadores no es ni ER ni E. Ni estímulo-respuesta ni estímulo-estímulo. Seleccionan respuestas. Y lo que hacen los estímulos ambientales. Señalizar al disponer la posibilidad de que las respuestas se vean recompensadas. Por lo tanto, los estímulos ambientales son moduladores de esa relación entre respuesta y el reforzador. Por eso según Skinner. Se distingue entre estímulo condicionado. El condicionamiento clásico. Y estímulo discriminativo. Señala el condicionamiento operante. Señala cuando el ambiente te va a dar una respuesta. Tenemos un estímulo discriminativo. Vamos a pasar ya hasta aquí las teorías asociacionistas. Vamos a ver las teorías de selección seleccionista. Ahí eran teorías asociacionistas. Asociación ER. Aquí vamos a ver teorías de selección de respuesta. La teoría de la probabilidad diferencial de Premat. Premat decía que... Bueno, esta es la regla del abuelo. Esta ya la veréis. Llega el niño a casa y... Primero haces los deberes y después te dejo jugar a la Playstation. Dicho por Premat. Ante dos respuestas en un mismo procedimiento instrumental, la respuesta más probable reforzará a la menos probable. Y la menos probable no reforzará a la más probable. Es la teoría de la probabilidad diferencial. La misma regla del abuelo. Lo que el niño... La más probable para el niño es jugar a la Playstation. Pues la vamos a utilizar... Cuando hayas hecho la conducta menos probable que queremos aumentar... Para reforzarte. Como dejarte hacer una actividad. Como veis, ya hemos dejado de dar reforzadores. Tenemos dos respuestas del sujeto. Una la queremos aumentar y otra disminuir. Nos interesa. Si tenemos en línea base el sujeto que se dedica, por ejemplo... 5 horas a jugar a la Playstation. A hacer los deberes media hora si cuela. A jugar en el balón una hora. Tenemos ya una línea base de conductas del sujeto. Pues vamos a utilizar la más probable que es jugar a la pelota. Pues primero haces la instrumental, que es la que queremos que haga, hacer los deberes. O haces tu habitación o haces tag. Y luego como premio le dejamos hacer la que te gusta. Jugar a la pelota o a la Playstation. La más probable la damos como regalo. Dos supuestos dice que tiene esta teoría. El principio de reforzamiento o de probabilidad diferencial del tema. Para que una actividad se convierta en reforzador. Dicha actividad tiene que ser preferida en línea base. Es decir, si hemos medido al niño lo que más le gusta hacer. Esa es la que vamos a utilizar para premiar al sujeto por hacer la otra. Que la vamos a llamar instrumental. Y la vamos a hacer contingente con aquella que sea menos preferida. Pero tiene que ser después. Después de que haga la menos preferida. No antes. Primero haces los deberes y luego ya te dejo jugar a la Playstation. También decía Premat que la actividad de más baja probabilidad puede castigar a la de más alta probabilidad. Y las actividades más preferidas no castigan a las menos preferidas. Es decir, al niño hacer los deberes puede ser un castigo para jugar a la Playstation. Pero jugar a la Playstation no castiga a hacer los deberes. Pues bien, Premat su posición teórica es plenamente conductual. Y se deriva de Skinner que habló de la ley empírica del efecto. En oposición a la ley teórica del efecto de Thorne. Pues bien, esta teoría de la probabilidad diferencial. Ya veis que la utilizan las abuelas. Tiene un gran poder predictivo. ¿Por qué? Podemos predecir. Podemos decir. Los predecir suena en psicología pero es como decir adivinar. ¿Qué tiempo hará mañana? Predíceme el tiempo. Aquí queremos predecir si una conducta reforzará a otra. Con que midamos sus probabilidades bajo línea base. Donde las conduzco pueda hacer el sujeto las dos conductas sin limitaciones. Una actividad reforzará a la otra. Si es más probable en línea base. En la situación de línea base. Pero es una medida compleja. ¿Por qué? Sugirió que había que ver una dimensión temporal. Premat decía hay que ver el tiempo que dedica el sujeto. Lo que hemos dicho. En línea base medimos el tiempo. Según el tiempo dedicado a una actividad particular sobre el total. La medida de respuesta más apropiada lo llamó probabilidad momentánea. Y vamos a ver la teoría de la privación de respuesta. Es parecida a la del Premat. Pero aquí no hace falta utilizar la actividad preferida. ¿Qué vamos a hacer al sujeto? Le vamos a restringir la oportunidad de dar una respuesta reforzadora. Y en base a esa hipótesis de la privación de respuesta. Para que una actividad funcione como reforzador. Solo tiene que ser restringida la realización de esa actividad. En relación con su ocurrencia en el punto de bienestar. Línea base. Lo que más me gusta hacer. Pero no es necesario que esa actividad sea más preferida que la que se haya convertido en actividad instrumental. Es decir, en Premat sí utilizábamos la más preferida. Aquí no. Imaginaros el experimento que es. Tenemos una rata que lo que más me gusta es... ¿Qué puede? Correr en la rueda o beber agua. Lo que más me gusta igual es beber agua. Vamos a restringirle beber agua. O vamos a restringirle correr en la rueda. De tal manera que luego si quiere beber agua tendrá que correr en la rueda. Le vamos a hacer contingente. Entonces eso es lo que experimento. Ratas con dos actividades de libre elección. Acceso. El punto de bienestar es bebe 400 veces y hace 200 kilos. Le restringimos beber. Entonces correr es la respuesta instrumental. La que queremos aumentar. Y beber la contingente. Y le vamos a premiar con beber. Porque con un programa donde cada kilo de rueda le permite beber. Queremos determinar cómo se ajusta la rata a esa contingencia. Aceptando las limitaciones que tiene del medio ambiente. Y aumenta la probabilidad de ocurrencia. En este caso de dar vueltas en la rueda. Porque cuando le restringimos correr. Que tiene menor probabilidad que la de beber. El animal tiene que dar la metónica. Para que hacer girar la rueda. En este caso la actividad instrumental. Beber aumenta y la contingente correr disminuye. Dice según esta hipótesis. Que la tasa de respuesta y la de reforzamiento. Es como una U invertida. Y no lineal. Es como la curva normal. Más respuestas hacia el medio. Menos hacia el final. Menos al principio. Y esto es. Esta es una teoría también seleccionista. De la derivación de la respuesta. Bueno espero no haberos aburrido mucho. Que suena un poco raro. Porque además ya os digo. Están en el laboratorio. Están con ratas. Quiero que entendáis qué es lo que están estudiando. Conductar elección. Que haya un paralelismo entre posibles. Aunque cuesta verlo. Digamos con las ratas ahí. Pues nada. El próximo día haremos el tema 6. Luego el 7. Y luego la P. Luego miraremos los artículos científicos. Hablaremos un poco de ellos. A ver qué es lo que tenéis que hacer. Lo hago al final porque os evalúan con tres preguntas. Tres. Tres que no restan para la práctica voluntaria. Y tres que sí restan. Para la práctica obligatoria. Pero las que no restan. Además tienen cuatro alternativas de respuesta. O sea que se hace un poco más complicado. Normalmente yo la escribí el año pasado. Estas, las voluntarias me parecieron bastante más difíciles que las obligatorias. Porque es un artículo. Es un artículo y te pueden preguntar. No hombre. Son tres preguntas. Hay algo que dedicarles. Estaría bien sacárselas. Pero bueno. Es más importante todo el contenido. Solo con eso. Además las PEC se miran después de haber mirado. A ver a qué tema va referido. De qué parte del tema va referido. Artículos científicos. No sé si es el mismo del año pasado. Tengo que comprobarlo. Porque yo lo tengo impreso del año pasado. Si no le traje. Si lo traigo, lo miro con el tuyo. Pues me parece casi igual. Bueno, terminamos.