Vamos a empezar. Ahora si hago el tema 5 y empezamos. Voy a ir deprisa al
principio porque como lo vimos el día anterior, no me quiero detener
mucho, quiero detenerme más en lo que toca hoy, que es cuando ya ponemos
programas compuestos. Primero, ¿qué vimos? Vimos los programas básicos.
Dije, reforzamiento continuo, no hay programa, es cada vez que aprietas una
respuesta te doy un reforzador. Pero el reforzamiento parcial o
intermitente es la que... Son los que nos interesan, son los que consiguen
una conducta, unas respuestas más continuas. Una vez que está instituido
la conducta vamos a aplicar un programa intermitente, parcial o
intermitente. Entonces, veíamos ahí los programas son estímulo
discriminativo, respuesta a consecuencia. Vamos a ver los términos que
vamos a utilizar y aquí tenemos las reglas, las reglas con que vamos a
reforzar. A entregar un refuerzo, un reforzador, dependiendo del número de
respuestas. Van a ser básicamente cuatro y son fijos o variables. Razón
fija, intervalo fijo, intervalo variable. Razón fija siempre es el mismo
número de respuestas. Razón variable varía alrededor de una media. Por
ejemplo, si la media es 5, le haremos que dé 4 respuestas y 6. La media es
5, 3 y 7. La media al final hace la media. Con los intervalos es tiempo, es
tiempo que transcurre. Tiene que dejar transcurrir ese tiempo y dar
después una única respuesta. Esto es importante porque ya veremos luego
las funciones de retroalimentación. Entonces, ¿qué tipo de respuestas
dan? Estas son las respuestas que dan los sujetos. Cuando va para arriba el
sujeto está picoteando, está dando respuestas a la palanca. Cuando está
plano... Pasa el tiempo y no da respuestas. Es lo que llama aquí, que se
llama en los programas de razón la pausa por reforzamiento. Se refiere a
esto. En los programas de razón fija. Es decir, el sujeto adivina que
siempre es el mismo después del mismo número de respuestas. Le da el
reforzador, da el número de respuestas y se para. Da el número de
respuestas y se para. En los programas variables, como veis, el programa de
razón variable es el que más... ¿Cuántas respuestas produce? Porque el
sujeto no se da cuenta, no sabe, como le damos al reforzador después de un
número diferente, aunque sea la media, no sabe cuándo le van a dar el
reforzador. Por eso son las máquinas tragacerras, son un ejemplo de
reforzamiento de razón variable porque no sabes cuándo te va a dar el
premio. Entonces mantiene a los sujetos con muchas respuestas. Una
respuesta alta y constante. En los intervalos ocurre lo mismo. En el
intervalo fijo, el sujeto se para. Por eso en la gráfica hace ese festón,
festoneado, que le llaman, como si fuera un misillo que tiene como un... A
principio da pocas respuestas y luego da muchas. A principio se para un
poco y no se para tanto como en los programas de razón. Pero a lo que nos
interesa ahora ya es entrar en la relación entre... Bueno, hay unas
similitudes, hay que conocerlas. ¿Qué se parecen los programas de razón
y los programas de intervalo? Programas fijos. Programas fijos. Todos los
de razón y los de intervalo producen pausa por reforzamiento y después
altas tasas de respuesta. Los variables mantienen tasa estable de
respuesta. El sujeto no sabe cuándo le van a dar el reforzador. No se
para. No presenta pausa. Se diferencian... Hombre, los programas de
intervalo, la diferencia con los de razón es que esa conducta está
mediada por el sentido del tiempo. Tienen que esperar un tiempo y dar una
respuesta después. De que haya transcurrido el intervalo. No sirven las
respuestas que tiene antes. Sin embargo, en los de razón la conducta es
más vigorosa, más alta tasa de respuesta. Y la razón fija produce una
pausa por reforzamiento que pasa luego a una tasa estable de respuesta. Es
como si se hubiera parado y luego se pusiera a picotear. Y luego la
diferencia es que en los intervalos fijos la pausa por reforzamiento pasa a
una aceleración. Eso es lo que se ve en la gráfica. El sujeto en la de
razón se paraba y luego, como dice ahí, pasa alta la tasa de respuesta.
Pero en el intervalo hacia el festoneado quiere decir que se para un poco y
luego gradualmente comienza a acelerar la tasa de respuesta. Vale, ya hemos
visto los programas básicos, la pausa por reforzamiento. Vamos a ver qué
quiero llegar a la función de retroalimentación. Exacto. Programas de
razón frente a programas de intervalo. Funciones de retroalimentación.
¿Qué pasa? ¿Qué es retroalimentación? Es decir, si yo pongo un
programa que le hago dar respuestas obtiene más reforzadores. Hay esa
relación, esa retroalimentación entre las respuestas y los reforzadores.
Pero en los programas de razón sí ocurre. Pero en los de intervalo no.
Porque si yo te pongo un intervalo de cinco el sujeto sólo tiene que dar
una respuesta en el segundo seis. Si es un segundo, cinco minutos sería
mucho, ¿no? Entonces, tiene que dar una respuesta. Pero si yo pongo un
intervalo veinte no hay retroalimentación. Tiene que dar una respuesta en
el segundo veintiuno. No hay, ¿entendéis lo que es esta
retroalimentación? Esta relación entre la tasa de respuesta y los
reforzadores. Pues es lo que estamos diciendo. En los programas de
intervalo esa tasa de respuesta no influye directamente en el resultado. No
influye directamente sobre la frecuencia de los reforzadores. Pero en los
programas de... Porque los programas de intervalo refuerzan tiempo entre
respuestas largos. Entonces, aquí ya estamos fijándonos en los tiempos
entre respuestas. Para ver si hay... Para ver qué programa se puede
utilizar para qué, etcétera, ¿no? Entonces, vamos a ver qué es esto del
tiempo entre respuestas. Los programas de razón no tienen tendencia a
reforzar un tiempo entre respuestas particular. Por lo que no favorece...
Los largos no les favorece. Se supone, como responde al ráfagas, es
probable que actúen sobre tiempos entre respuestas cortos. Recuerdo el
ejemplo que puse el otro día para poner un ejemplo de cómo se utiliza un
programa de intervalo y uno de razón para aumentar respuestas o
disminuirlas. Por ejemplo, el niño que comía despacio y queremos que coma
más deprisa le diremos a la madre que le ponga un programa de razón... De
razón variándola. Es decir... Si en medio minuto te tomas una cucharada,
te doy un premio. Te doy el reforzador. O sea, simbólico. Si luego en ese
mismo medio minuto se toma dos, te vuelvo a dar el premio. ¿Vale? Eso es
un ejemplo de un programa de razón para aumentar. Ahora vamos a uno de
intervalo para disminuir. Con tiempos entre respuestas raros. Un niño que
tiene TDAH y se levanta mucho en el aula. Le vamos a proponer al profesor
que le haga un programa de intervalo... De tal manera que si se está dos
minutos seguidos sin levantarse vaya y le dé un reforzador. Muy bien,
Manolito. Estás haciendo estupendamente. Luego lo vamos ampliando. Tres
minutos, un reforzador. Vamos ampliando el tiempo entre respuestas. En este
caso no nos interesa que dé respuestas. Por eso ponemos un programa de
intervalo. Que no hay retroalimentación. En el de razón sí hay
retroalimentación. Sí hay relación entre la tasa de respuestas y los
reforzadores. Bueno. Luego las explicaciones. Molar, molecular... Creo que
ahí se puede entender lo que queremos decir. El programa de razón sí es
variable si existe una correlación directa entre la tasa de respuesta y el
reforzador. Por lo tanto, la tasa de respuesta aumentará para conseguir
reforzadores. Pero esto no lo podemos hacer con los de intervalo. Porque no
aumentará. Si aumentamos o disminuimos el intervalo, no. Pues esas
explicaciones de valor... Y bueno. Función de retroalimentación es una
forma de describir cómo actúa el ambiente. O sea, los reforzadores que
reciben el ambiente. Frecuencia de reforzamiento. Magnitud, si es muy
grande. La demora del reforzador. ¿Vamos a quitárselo inmediatamente? ¿O
vamos a demorarlo? Porque eso ya lo veremos en las leyes de igualación.
Que influyen en el reforzamiento del sujeto... O sea, el programa. Pues...
Quiero llegar a la ley de igualación. A los programas compuestos. Quiero
llegar a, realmente, donde lo dejamos entendido. Vale. En los programas de
razón, cuanto más rápido responda el sujeto, más reforzadores obtiene.
Eso es la retroalimentación. En los programas de intervalo no hay
retroalimentación. Entre respuestas y reforzadores. Aquí nos vamos a
estar hablando de respuestas. Y los reforzadores, que ya veréis, lo
llamaremos como en las fórmulas cuando aparezca, será una F. Frecuencia
de reforzamiento. Bueno, luego, como hemos hablado del tiempo entre
respuestas, de la teoría centrada en el tiempo de respuestas... Vamos a
decir lo mismo. Los programas de razón... Los tiempos entre respuestas
largos posponen. Hace que tarde más en aparecer el reforzador. Cuanto
antes haga lo que tenga que hacer, antes obtendrá el reforzador. Por lo
tanto, un programa de razón favorece tiempo entre respuestas corto. Que
dé muchas respuestas. Como el niño que come el espacio, queremos que poco
a poco vaya aumentando el número de respuestas por minuto. Por ciento. En
los programas de intervalo, la recompensa, la probabilidad de ser
recompensado, aumenta con un tiempo largo entre respuestas. Porque no le
pedimos... Un programa de intervalo no te pide... No le pide al sujeto
estar dando respuestas. Es decir, no contabilizan las respuestas que da
hasta si es intervalo o variable 20. Pues hasta el segundo 20, 21, no le
vamos a dar al reforzador. Pero necesitamos una respuesta después del
intervalo. Las que dé antes no sirven. ¿Vale? Por lo tanto, los
intervalos favorecen con tiempos entre respuestas largos. Y eso que...
Porque queremos tasas de respuesta bajas. Como el niño que se levantó
mucho en el aula, que queremos que dé pocas respuestas cada vez menos.
Para eso es lo que sirve. Pues en programas de razón hay una correlación
directa entre tasa de respuesta y tasa de reforzador. Pero en los programas
de intervalo no. Podemos aumentar el intervalo que no aumenta el número de
respuestas. Y esto es lo que vamos a denominar una función de
retroalimentación. Respuesta reforzada. La hay en los de razón, pero no
la hay en los de intervalo. Esto es un resumen que he puesto yo ahí, que
puede estar bien. De esto mismo que hemos hablado. R de B. Sí, bueno, por
si no lo... Entonces ahora vamos a ver reforzamiento. Antes dijimos tiempos
entre respuestas cortos. Programa de reforzamiento diferencial de tasas
altas. Queremos muchas respuestas. Por lo tanto, entre respuestas el tiempo
será corto. Por lo otro, del otro lado. Cuando tenemos reforzamiento
diferencial R de B. Tasas bajas. Vamos a reforzar una respuesta si ocurre
después de un tiempo. Utilizaremos un programa de intervalo y que favorece
los tiempos entre respuestas largos. Y fomenta tasas bajas. Niño inquieto
en clase. Si nos repita la comida del horno, entonces ¿de qué se cuenta?
Uy, sí, voy a... Cuidado de tirarla antes de que se queme, etc. Tocar los
sujetos musicales. Enciende espacios. Son respuestas... Tiempos de
respuestas largos. Vale. Vamos a entrar... Vale, veíamos los programas
compuestos. Bien. ¿Alternantes? ¿Qué significa? El sujeto puede picar en
uno. Vamos a ponerle dos programas. Una caja Skinner con uno en el programa
A. Que tiene una frecuencia de reforzamiento y dentro del programa C.
Entonces, según cómo... Este... Tenemos alternantes. Son dos programas
básicos alternados al azar. ¿Qué significa? Es el investigador que dice,
ahora está el programa A, ahora está el programa B. Se utilizan para
algunas cosas. Y el cambio de uno a otro es independiente de la conducta.
Sí, el cambio de uno a otro es independiente de lo que haga el sujeto. No
por picotear va a empezar a funcionar uno o el otro, ¿no? Pero sí... De
un tiempo establecido. El investigador le dice, bueno, cinco minutos está
el A y cinco minutos el B o el tiempo establecido. El múltiple es igual
que el mixto alternante pero con una señal. Con un estímulo
discriminativo. ¿Ves? A veces no hablamos. El estímulo discriminativo
aparece en la ecuación pero no vamos a hablar mucho de él. Vamos a hablar
de la respuesta y la consecuencia. La respuesta y el reforzador. Estos son
los alternantes. Ahora los programas secuenciales. ¿Qué significa?
Primero tiene que hacer uno y luego hacer el otro. Programa tándem. Tiene
dos programas simples. Imagínate intervalo variable 5 y intervalo variable
20, ¿no? Que se presentan en el mismo orden. El sujeto tiene que empezar
por el primero y continuar por el segundo. Y después del último le damos
el reforzador. Antes no. Antes terminaba un programa caía el reforzador.
Terminaba el otro programa caía el reforzador. Aquí va a tener que ir uno
detrás de otro. El encadenado es lo mismo que el tándem pero señalado.
Con una clave. Con algo. Con un estímulo discriminativo. Ahí dice, cuando
acabe el primer programa se enciende una luz. Como casi para que parezca un
premio para el sujeto. Concurrentes. Los programas concurrentes los vamos a
ver bastante en la ley de igualación. Programas concurrentes. O sea, el
sujeto tiene dos programas básicos que puede picotearlos a la vez. Puede
cambiarlos a otro sin completar el tiempo o el número de respuestas.
Porque pueden ser de intervalo. Fijo. De intervalo variable. De razón
fija. De ratón variable. De los cualquiera. ¿No? Y los combinados. Aquí
en los anteriores cada vez que utilizábamos dos programas eran o dos de
intervalo, fijo variable, o dos de razón. Pero aquí en los combinados
vamos a combinar una de razón con una de intervalo. En un lado.
Combinamos. Programa alternativo. O sea, reportamos una respuesta cada vez
que cumple con el requisito de la razón de un lado o en el requisito del
intervalo del otro. Y así tiene dos formas de conseguir un reforzador
alternativo. Conjuntivo. Aquí le vamos a pedir que para obtener el
reforzador que cumpla al mismo tiempo con el de razón y con el de
intervalo. Con el de la A y con el de la B. Al mismo tiempo. Y en el
entrelazado es como si fuera el programa A y el programa B están unidos.
Por ejemplo, si el sujeto da... Imagínate que es 10. Razón fija 10.
Intervalo fijo 10. Pues imagínate que da cinco respuestas en el de razón,
tiene que esperar cinco segundos y dar una respuesta en el de intervalo. O
algo. Eso es tan entrelazado. O al revés. Imagínate que... No, en el otro
no puede ser porque no puede esperar cinco segundos en el de intervalo si
no ha terminado el intervalo, dar una respuesta y empezar en el otro.
Tendría que dar dos respuestas en el de razón, tiene que esperar ocho
segundos y dar una respuesta Ya. Depende de lo que haga el animal están
entrelazados, por eso se llama entrelazado. Vale. Nosotros vamos a... Vamos
en cada tema, veréis que decimos, estamos utilizando este tipo de
programa. Bueno, esto es un resumen de lo mismo, de cada uno de los
programas. Que tampoco me quiero detener mucho ahí. Y un resumen de estos
programas de estos talentos, de todo lo que hemos visto. Vale. Vamos a
entrar en la conducta del éxito. Es decir. Vamos a ver qué conducta elige
el sujeto o qué preferencia tiene sobre dos alternativas. Nosotros,
básicamente vamos a verlo con programas concurrentes y que cada uno puede
llevar... Concurrentes es a la vez, puedes picotear en uno, puedes picotear
en otro. Lo vamos a utilizar sobre todo con programas de intervalo.
Entonces, Hersten utilizó programas concurrentes. Donde las alternativas
diferían la frecuencia de reforzamiento. Tasa o frecuencia de
reforzamiento. Nosotros a los reforzadores los llamamos EF. Entonces,
Hersten dijo que la lingüelación es que el sujeto... Cuando hay una tasa
relativa. Relativa es dividir la parte por el todo. Es decir, todas las
respuestas que ha dado en A y en B. Dividimos la de A por todas. Y la de B
por todas. Ya tenemos una tasa relativa. Esto es de análisis de datos.
Entonces, la R. Respuestas en A partido por el todo. Es una tasa relativa.
Es igual a los reforzadores que obtiene en A partido por todo. A la
frecuencia de los reforzadores asociada a cada una de las alternativas.
Entonces, esta ley de igualación va a sufrir y sufriendo transformaciones.
Que es lo que vamos a hacer con ella. Vamos a ir viendo cómo es la
conducta de elección. Ahí tenéis la fórmula. Las F son reforzadores.
Las R respuestas. Y las F reforzadores. Esto lo utilizó con programas de
intervalo variable. Y veía que los sujetos se ajustaban a esta relación
lineal. De tal manera que si una alternativa A le da más frecuencia de
reforzadores que la B. Los sujetos se quedan más... Responden más a la de
A. A la alternativa que más reforzadores obtiene. O a la más favorable.
Eso es lo que significa la ley de igualación. El sujeto iguala sus
respuestas con los reforzadores que obtienen cada una de las alternativas.
Nada más. Es una tasa relativa. No absoluta. No el número de respuestas.
Sino dividiendo la parte por el todo. Eso es una tasa relativa. Bueno. Pero
luego se dieron cuenta que además de igualar esa tasa relativa por la tasa
de reforzamiento. Yo lo llamo frecuencia de reforzamiento. Para que no sea
tasa y tasa y tasa. ¿Vale? También la igualan con otros parámetros.
Sobre el reforzador. Frecuencia, la magnitud. Grande, pequeño, inmediate.
Es decir. ¿Tardamos mucho en darse? ¿O tardamos poco? ¿Cuánto vamos a
tardar en darle? Por eso esa formulación de la ley de la igualación se
añade en otros parámetros. La F sí es lo mismo que la ley de
igualación. La M, la magnitud de los reforzadores. Imagínate que en A son
más grandes que en B. Etcétera. El investigador va cambiando estas cosas.
La demora. La demora es inversa. Por eso uno tiene 1 partido por la demora.
Es decir. Vamos a darle... Termina de dar la respuesta y vamos a dar 5
segundos de demora. O sea, ahí pondríamos 1 partido por 5. Y en el
denominador también. 1 partido por 5 más 1 partido por lo que tarde la
demora en B. Es también una tasa relativa. Por eso es difícil este tema
porque son casi conceptos matemáticos. No se equiparan tasas absolutas.
Son tasas relativas. ¿Vale? Pero se dieron cuenta que ocurrían... Con
programas de razón ocurría esto. Masinización. ¿Qué hacía el sujeto?
Imagínate que entre dos alternativas de respuesta una razón fija 5, otra
razón fija 20. Si hay mucha diferencia. El sujeto se quita. Elige la
alternativa que tiene una razón más baja. Es decir, que le pide menor
número de respuesta. Y dice que cumple con la ley de igualación aunque en
la otra alternativa no dé ninguna respuesta. ¿Vale? Sin contradecir la
ley de igualación. Elige en exclusiva la alternativa más cuadrada. Y
cumple con la ley de igualación. Los programas de razón. Los otros, los
primeros de que hablé eran sobre programas de intervalo. Luego también se
dieron cuenta que había una igualación temporal. Es decir, que el sujeto
se quedaba más tiempo en la alternativa que más reforzadores le ofrecía.
Es muy lógico, ¿no? El tiempo de permanencia en cada uno de los programas
de reforzamiento. Ahí lo iban a contar. Vale. Y entonces, bueno, pues lo
incluyeron en la fórmula. El tiempo en A partido por todo es una tasa
relativa de tiempo. A más B. Es igual a F. A los reforzadores que obtienen
A partido por los reforzadores que obtienen A más. Una tasa relativa.
Bueno, y la ley generalizada de la igualación. Se dieron cuenta que cuando
hay que elegir entre varias alternativas, sobre todo las palomas, ¿qué
hacían las graciosas sillas? Lo que hacían era ese comportamiento
denominado alternancia, ¿no? Quiere decir que si cambio de una alternativa
a otra sin que guarde relación con la otra, los reforzadores. Paloma
explicaba tres veces aquí, cambiaba al otro lado. Bueno, pues inventaron
esta demora por el cambio para el laboratorio. Querían controlar esa
influencia extraña. Y decidieron añadir una limitación al programa. Es
decir, si cambias al programa B, los primeros hay una demora por el cambio.
Unos segundos que tus picotazos no tienen efecto sobre el reforzador. Un
malo demora por el cambio. De dos, tres... No se entiende, ¿no? Vale.
Luego quisieron ver... Luego ya vamos con los sesgos. ¿Sesgos qué es? Hay
influencias no deseables como el color de las alternativas, la fuerza
requerida, dónde está situado, dónde el sujeto tiene que dar las
respuestas, ¿no? Pues Baum formuló esta ley generalizada de la
igualación para que la frecuencia de reforzamiento, la tasa de respuesta,
se iguala a un factor. Un factor multiplicativo de la tasa relativa de
reforzamiento y de los sesgos. ¿Ves? Respuestas en A partido por el total
es igual a la frecuencia de los reforzados en A partido por el total,
multiplicado por los sesgos. Sesgos de cada una de las alternativas. Ahí
nos dice cómo los dividieron. Sujeto, ¿no? O sea, Baum dice método para
corregir la influencia de sesgos fuentes de influencia desconocida. Es
decir, equiparaba los factores de reforzamiento entre alternativas de
respuesta, frecuencia, magnitud, etcétera. Medíamos las preferencias y
sí, y conocido que el sujeto contestaba, aunque las dos alternativas
ofrecían los mismos reforzadores, decía, bueno, pues ha dado más a la A,
pues vamos a corregirlo variando los factores de reforzamiento asociados.
¿Vale? Se supone que es una fórmula matemática que la han estado mirando
a través de investigación con los animales. Y luego ocurría que estos
sesgos podían hacer que el sujeto diera más respuestas a un lado o al
otro, pero había casos que, aparte de los sesgos, cada alternativa podía
ser sobrevalorada o infravalorada. Lo llamamos sobreigualación o
infraigualación. Si tiene que elegir entre dos alternativas que son
igualmente favorables y los sujetos eligen más una que otra, entonces esa
A parece que se desvía de la ley de igualación, puede ser elegida a
sesgos de respuesta o a sobreigualación o infraigualación. Entonces, la
sobreigualación es cuando la mejor alternativa de respuesta es valorada
por encima de la preferencia elegida. La valora mal. O la infraigualación.
La mejor alternativa es... Valorada por debajo de la preferencia
establecida por la igualación perfecta. Es más común la
infraigualación. ¿Por qué? Por la tendencia a cambiar, a picotear. Lo de
la demora del cambio lo inventaron pero no lo van a estar poniendo todo el
tiempo. Hablan de la infraigualación y de la sobreigualación siempre se
calcula sobre la alternativa más favorable. Si, por ejemplo, es 0,7 la
alternativa más favorable. Como es una tasa relativa, lo que hay hasta 1
es lo de la otra alternativa. Al ser dos alternativas y dividir una por el
total, lo que sobre hasta 1 me va a dar un valor de 0 a 1. ¿Vale? Es una
tasa relativa, por lo tanto, de 0 a 1. Siempre tiene que haber una de las
dos alternativas más favorable. No, antes cuando va una CIA lo de los
sesgos tenía las dos alternativas igual para ver, para buscar los sesgos.
Pero cuando hacemos experimentación siempre una tiene que ser más
favorable. Entonces, se amplió, para incluir esto de la igualación y
sobreigualación, Bowne amplió la ley de igualación para incluir estas
desviaciones además de los sesgos. Entonces ves que si hacemos una tasa RA
partido por RB es igual a K, que es un sesgo de respuesta, multiplicado por
los reforzadores en A partido por reforzadores en B. La tasa relativa
elevado a S, la sensibilidad hacia los programas de reforzamiento. Cuando K
y S es igual a 1, la ecuación se queda como la de este. La RA partido por
RA partido por SRB es igual a FA, a la frecuencia de reforzamiento en A
partido por SA. Pero cuando es sobreigualación, S vale más de 1. O
infraigualación, la S valdrá 0. Y ahora vemos las teorías de la
igualación. Hay dos enfoques y un tercero que es un poco una reunión de
los dos. Teoría de maximización molecular. Dice que el sujeto lo que
intenta es cambiar la alternativa cuando la probabilidad de reforzamiento
es mayor en la otra alternativa. Y ocurre con los programas de intervalo.
Sin embargo, la teoría de la maximización molar dice que los sujetos
tienen que cambiar Y los sujetos distribuyen las respuestas como buscando
un cálculo global, molar. Global de tener mayor tasa de reforzamiento
global. Por eso ocurre con los programas de razón. La molar con los
programas de razón y la molecular con los programas de intervalo. Pero
tenía unos problemas esta teoría porque no explicaba bien la conducta de
elección en los programas de razón variable y intervalo variable. O
porque preferían reforzadores variables a fijos. Y surgió la teoría del
mejoramiento. Que es una síntesis de la molecular y de la molar. Que dice
que los sujetos cambian de una alternativa a otra para mejorar la tasa
local de reforzamiento y lo llama tasa local. No la tasa molecular ni nada.
Tasa local. Y por eso tiene más alcance a largo plazo que la teoría
molecular. Pero tampoco se refiere a las tasas moleculares. A las tasas
globales que hablaba la teoría molar de antes. Y al obtener mayor tasa de
reforzamiento también se mantiene más tiempo en la alternativa más
adorada. Por eso es intrínseco al mejoramiento está la igualación
temporal que la vimos antes. Porque como le dije la alternativa que da más
reforzamiento dará más tasa de respuesta. Obtendrán más reforzadores y
permanecerán más tiempo en esa alternativa. Eso ya hemos incluido en sí.
Y responden menos a la menos favorable y de ahí obtienen menos
reforzadores. Están menos ciegos. Vamos a estudiar ahora con esto, con la
conducta de elección. Hasta aquí. Todavía no los dejamos pero vamos a
ver cómo se... La elección con la impulsividad y el autocontrol. Cómo se
estudia desde aquí de la psicología del aprendizaje. Para ello se ha
utilizado programa concurrente simple. Es decir. Dos alternativas de
respuesta. Cada uno con un reforzador particular como los que hemos visto.
Eso favorecerá o una de dos. O la impulsividad o el autocontrol. Y otro
utilizando un programa concurrente encadenado. El sujeto tenía que hacer
primero uno y luego el otro. Tiene que elegir al principio los dos
programas simples de reforzamiento. Funcionará una vez realizada la
elección ya no puede empezar el otro programa. Tiene que empezar con este.
Y es continuar con el siguiente. Se extiende la luz. Lo mismo que vimos en
un programa concurrente encadenado. Pues bien. El programa concurrente
encadenado. Que puede elegir cuál empieza de los programas simples. Luego
ya las alternativas rechazadas no están a disposición del sujeto. Si
hubiera empezado por el otro. Hubiera otro tipo de programa. Entonces. El
encadenado tiene dos fases. La primera fase es la elección. El sujeto
elige A o B. Una vez elige entre dos opciones. Le vamos a dar en la segunda
fase. En el eslabón terminal será en el otro lado. Si no lo elige le
volvemos a presentar el eslabón inicial. Hasta que el sujeto elija otra
alternativa que le lleve al eslabón final. ¿No? Esto permite. Con este
programa concurrente encadenado. Hacemos que los sujetos sean consecuentes
con sus decisiones. Y separa el aprendizaje de los eslabones iniciales de
los finales. Por ejemplo. Se asemejan a la vida diaria estos programas.
Porque elegir una alternativa. Que compromete por un tiempo a cambiar de
opción. Pero no se puede cambiar de forma caprichosa en cada momento. Por
ejemplo. Un estudiante se apunta a un número determinado de asignaturas. Y
a medio curso se da cuenta que no debería haber apuntado a tantas. Pero no
puede cambiar porque ha adquirido un compromiso. Por eso se llama elección
con compromiso. Lo vamos a estudiar mediante estos programas. Sin embargo,
con el programa simple la elección es directa. Con estos programas lo que
hacían era ver qué diferencias había al utilizar un programa concurrente
simple. Y un encadenado. Se dieron cuenta que los sujetos les daban a
elegir entre una recompensa pequeña inmediata. Luego, en el otro lado, el
simple. Una recompensa grande demorada. En lo simple la respuesta era
directa. Pero cuando utilizaron los encadenados y se dieron cuenta que
dejar un tiempo constante de espera. Para llegar a acceder a la oportunidad
de obtener el refuerzo. Las preferencias cambiaron. Ahora los sujetos
preferían más la alternativa que llevaba al reforzador mayor pero más
demorado. Lo que viene a decir con estos programas es que demorar, tardar
un poco más en entregar del reforzador pequeño. Hace que su fuerza se
debilite. Demorar los dos reforzadores hace que la del reforzador pequeño
se debilite. Y se prefiera esperar un reforzador de mayor magnitud. Aunque
sea también demorado. Y esto da lugar a que la impulsividad. Que es
preferencia por una recompensa pequeña inmediata. Se conseguía con los
programas concurrentes simples. Sin embargo, el autocontrol. Era
preferencia por una recompensa mayor demorada. Se conseguía con un
programa concurrente encadenado. El valor de los reforzadores. ¿Qué valor
tienen los reforzadores? El valor de un reforzador cambia. O de una
alternativa de respuesta. Dependiendo de la magnitud. Aumenta con la
magnitud del reforzador. Y disminuye con la demora. Si tardamos en darlo.
Por lo tanto, ese cociente magnitud-demora. Es el que va a dar el valor del
reforzador. Mazur hizo... O sea, cuando demoramos un reforzador grande y
otro pequeño. El valor del reforzador grande aumenta. Es superior al
pequeño. Y será mayor el del pequeño que el del grande. Cuando la esfera
por el pequeño sea pequeña. Ahora que el sujeto... Si queremos
impulsividad, el programa concurrente simple. Si no, encadenado. Mazur hizo
una fórmula. Esa que veis ahí. Para expresar cómo podemos conseguir un
cambio de un comportamiento impulsivo. A uno autocontrolado. Es una
función hiperbólica. Que dice que. Al incrementar la demora de las dos
recompensas. El sujeto hace que muestre en control-control. Ya que puestos
a esperar. Voy a esperar a la grande. Aumenta el valor de la recompensa
grande. O sea. El valor del reforzador en A. Es igual a la magnitud del
reforzador en A. Partido por uno más K. Una constante. Multiplicado por la
demora en A. ¿Vale? La tasa de respuesta en relación. A la ley de
igualación. Vale. Einstein decía. Bueno, cualquier situación. Representa
una elección. Ahí hablábamos entre respetar una alternativa o no. Pero
ahora ya decimos. Entre hacer algo o no hacerlo. Cualquier en la vida
diaria. Puedes elegir. Entre. Hacer algo. Pegar los cacharros de tu casa. O
no hacer nada. Dependiendo qué es lo que te refuerza. Por lo que el
reforzamiento de la situación. Comprende reforzadores programados. O no
explícitamente programados. En laboratorio. Estarán programados. Bien.
Además. Decía que los organismos siempre están haciendo algo. ¿No? Eh.
¿Qué podríamos hacer? Una forma de. De. Descansar. O sea. Podemos hacer
algo o descansar. ¿No? La suma de la tasa de respuesta. Créditario. Más
otra actividad. Siempre tiene que ser igual. Por lo tanto. Una respuesta es
una redistribución. De respuestas alternativas. Una forma de aumentar la
tasa de respuesta. Sería. Aumentar la tasa de reforzamiento. Asociada a
esa conducta. Y otra sería. Disminuir la tasa de reforzamiento.
Alternativo. De la conducta alternativa. Básicamente. Ahora ya hemos
llegado a las teorías. Del aprendizaje instrumental. Cambiamos de tercio.
Ya hemos visto todo lo que teníamos que ver. Sobre la ley de igualación.
La conducta de elección. Y los valores de los reforzadores. Ahora vamos a
ver. Las teorías. ¿Cuáles son? Teorías. Vamos. Vamos a empezar. Que son
teorías. Asociacionistas. Es decir. Asociación. Estímulo. Respuesta. O
asociación. Estímulo. Estamos estudiando. La. El condicionamiento
clásico. Es. Estímulo. Asociación. Aprendizaje por. Asociación.
Aprendía. A asociar. Un estímulo neutro. Con un estímulo importante. El
estímulo neutro. Pasaba. A ser. Estímulo condicionado. El estímulo
importante. Siempre es. Un estímulo llamativo. Importante. Para el sujeto.
Vital. Etcétera. Pues bien. Thor Dicke. Era. De la teoría. Estímulo.
Respuesta. Que creó. La ley del efecto. Que es una. Asociación. ER. Una
situación. Del ambiente. Y una respuesta. Del sujeto. Depende de la propia
consecuencia. De las. De la acción. ¿No? El reforzador. Lo que hace. Es
crear. Una respuesta. Y la ley del efecto. Que lo que dice. Es que. Una
respuesta. Que va a seguir. La satisfacción. Tiene la probabilidad. De que
vuelva a ocurrir. Y respuestas. Que acompañamos. De malestar. De castigo.
Tienen menos probabilidad. De que vuelva a ocurrir. También. Favorable. A
las teorías. Estímulo. Respuesta. Está. Hull. No lo veis aquí abajo.
Pero es. Hull. Que dice. Hull creó. Una. Bueno. Después. Se le llama.
Neoconductista. Skinner. Era. Conductista radical. O sea. Era. Estímulo.
Respuesta. Quiere decir. Sin incluir. Variables. No observables. Todo lo
que es. Son. Es observable. Los neoconductistas. Ya van. Incluyendo cosas.
Que no se podían observar. Como el impulso. La necesidad. ¿No? Por eso.
Hull dice. Que la conseguir. El reforzador. Disminuye. El impulso. La
necesidad. Incita. A la acción. El incentivo. Para que el sujeto. Ejecute.
Alguna acción. Que es. Necesaria. Y es necesaria. Una necesidad
biológica. ¿No? Pues. Por lo tanto. La ejecución conductual. Según su
fórmula. Según Hull. Es esta. El sujeto. Hará la conducta. E.
Ejecución. Es igual. Al hábito. Si tiene el hábito. Hará la conducta.
Multiplicado. Por el drive. El impulso. Y multiplicado. Por el I. El
incentivo. Si cualquiera. De estos valores. Es cero. Como veis. Son
multiplicativos. El resultado. Es que el sujeto. No hará la conducta. Si
no tiene. El impulso. Porque. El D. Es decir. Ángel. Hará. Puenting.
Ejecutará. La acción. Conductual. H. Si tiene el hábito. Vale. Le vamos
a dar un valor. Si tiene el impulso. D. Pero. Me cago. No tengo el
incentivo. O sea. O al bebé. Si. He hecho. Tengo el hábito. Porque he
hecho. Puenting. O he hecho. Ciertas cosas. Pero no tengo el impulso. No.
No le. No me ha gustado mucho. ¿No? O no. El incentivo es cero. Si
cualquiera de estos elementos es cero. Es lo que decía Hull. El sujeto. No
se moverá. De la silla. No hará. No ejecutará el hábito. Vale. Hemos
visto. Estímulo. Respuesta. Teorías. Estímulo. Respuesta. Son la de
Tornike. Y la de Hull. Ahora. Vamos a ver las teorías. Estímulo. Es. El
esquema. Estímulo. Es contrario. Estímulo. Respuesta. Tolman lo que
hacía. Era. Investigaba con ratas nadadoras. No. No le ponía. Así como
la caja de Skinner. Una palanquita. No. Le ponía. El premio igual. En una
islita. Para la islita. Y coger su premio. De tal manera que él creaba los
mapas cognitivos y tenía que aprender dónde ir. Y no sólo activar unos
músculos concretos en lo otro. La caja de Skinner es saltar una palanca
con el pico, con la pata o lo que sea. Y también Tolman distingue entre
aprendizaje y ejecución. Dice. El reforzador no es necesario para el
aprendizaje. Pero sí para que lo haga posteriormente. Sí para el
ejecutivo. El reforzador. Y hace experimentos donde los animales aprenden
una tarea pero no la ejecutan en ese momento para conseguir el premio. Eso
es lo que dice que hay un aprendizaje latente. Que es cuando se hace
recorrer a los animales un laberinto pero no les damos la recompensa. Luego
vuelven a dar el laberinto y a la ejecución ya se necesita la recompensa.
Por lo tanto, los animales aprenden a dar la respuesta correcta ya que han
aprendido antes a recorrer el laberinto, antes de recibir el premio. Por lo
tanto, esa recompensa no es necesaria para el aprendizaje. Pero sí para
que se ejecute la respuesta para la ejecución. Distingue aprendizaje de
ejecución. Puede parecer un poco loco pero sí. Si tú sueltas a unas
ratas en un espacio y luego van aprendiendo, van viendo lo que hay. Luego
les metes un reforzador en un sitio. Las ratas ya han aprendido lo que hay
allí. Pero ya van directas a por el reforzador. Al principio es
aprendizaje latente. Dices, bueno, debe estar ahí al aprendizaje pero no
se manifiesta. Por eso lo llaman aprendizaje latente. A pesar de esas
diferencias entre Tolman y Hull. Uno estímulo-estímulo Tolman y otro
estímulo-respuesta Hull. Los dos dicen que aprendizaje y ejecución se
pueden separar. Son separados. Y es lo que viene a decir. Os dije que el
condicionamiento clásico era estímulo-estímulo. Pero también hablamos
aquí de que los mecanismos asociativos estímulo-respuesta,
estímulo-estímulo están implicados o pueden estar implicados en este
aprendizaje instrumental u operante. El más específico es el
estímulo-respuesta. El más específico porque establece normas para
producir unas respuestas no sólo para adquirir una asociación. Las reglas
de ejecución operante. Es decir. Siguiendo la teoría de Hull. En la
teoría de Skinner algunos psicólogos han propuesto una aproximación
conductual. Donde dice que en el condicionamiento operante los reforzadores
seleccionan respuestas sin ER ni E. O sea, sin seguir una teoría. Las dos
teorías que dijimos antes. Skinner decía que no. Los reforzadores no es
ni ER ni E. Ni estímulo-respuesta ni estímulo-estímulo. Seleccionan
respuestas. Y lo que hacen los estímulos ambientales. Señalizar al
disponer la posibilidad de que las respuestas se vean recompensadas. Por lo
tanto, los estímulos ambientales son moduladores de esa relación entre
respuesta y el reforzador. Por eso según Skinner. Se distingue entre
estímulo condicionado. El condicionamiento clásico. Y estímulo
discriminativo. Señala el condicionamiento operante. Señala cuando el
ambiente te va a dar una respuesta. Tenemos un estímulo discriminativo.
Vamos a pasar ya hasta aquí las teorías asociacionistas. Vamos a ver las
teorías de selección seleccionista. Ahí eran teorías asociacionistas.
Asociación ER. Aquí vamos a ver teorías de selección de respuesta. La
teoría de la probabilidad diferencial de Premat. Premat decía que...
Bueno, esta es la regla del abuelo. Esta ya la veréis. Llega el niño a
casa y... Primero haces los deberes y después te dejo jugar a la
Playstation. Dicho por Premat. Ante dos respuestas en un mismo
procedimiento instrumental, la respuesta más probable reforzará a la
menos probable. Y la menos probable no reforzará a la más probable. Es la
teoría de la probabilidad diferencial. La misma regla del abuelo. Lo que
el niño... La más probable para el niño es jugar a la Playstation. Pues
la vamos a utilizar... Cuando hayas hecho la conducta menos probable que
queremos aumentar... Para reforzarte. Como dejarte hacer una actividad.
Como veis, ya hemos dejado de dar reforzadores. Tenemos dos respuestas del
sujeto. Una la queremos aumentar y otra disminuir. Nos interesa. Si tenemos
en línea base el sujeto que se dedica, por ejemplo... 5 horas a jugar a la
Playstation. A hacer los deberes media hora si cuela. A jugar en el balón
una hora. Tenemos ya una línea base de conductas del sujeto. Pues vamos a
utilizar la más probable que es jugar a la pelota. Pues primero haces la
instrumental, que es la que queremos que haga, hacer los deberes. O haces
tu habitación o haces tag. Y luego como premio le dejamos hacer la que te
gusta. Jugar a la pelota o a la Playstation. La más probable la damos como
regalo. Dos supuestos dice que tiene esta teoría. El principio de
reforzamiento o de probabilidad diferencial del tema. Para que una
actividad se convierta en reforzador. Dicha actividad tiene que ser
preferida en línea base. Es decir, si hemos medido al niño lo que más le
gusta hacer. Esa es la que vamos a utilizar para premiar al sujeto por
hacer la otra. Que la vamos a llamar instrumental. Y la vamos a hacer
contingente con aquella que sea menos preferida. Pero tiene que ser
después. Después de que haga la menos preferida. No antes. Primero haces
los deberes y luego ya te dejo jugar a la Playstation. También decía
Premat que la actividad de más baja probabilidad puede castigar a la de
más alta probabilidad. Y las actividades más preferidas no castigan a las
menos preferidas. Es decir, al niño hacer los deberes puede ser un castigo
para jugar a la Playstation. Pero jugar a la Playstation no castiga a hacer
los deberes. Pues bien, Premat su posición teórica es plenamente
conductual. Y se deriva de Skinner que habló de la ley empírica del
efecto. En oposición a la ley teórica del efecto de Thorne. Pues bien,
esta teoría de la probabilidad diferencial. Ya veis que la utilizan las
abuelas. Tiene un gran poder predictivo. ¿Por qué? Podemos predecir.
Podemos decir. Los predecir suena en psicología pero es como decir
adivinar. ¿Qué tiempo hará mañana? Predíceme el tiempo. Aquí queremos
predecir si una conducta reforzará a otra. Con que midamos sus
probabilidades bajo línea base. Donde las conduzco pueda hacer el sujeto
las dos conductas sin limitaciones. Una actividad reforzará a la otra. Si
es más probable en línea base. En la situación de línea base. Pero es
una medida compleja. ¿Por qué? Sugirió que había que ver una dimensión
temporal. Premat decía hay que ver el tiempo que dedica el sujeto. Lo que
hemos dicho. En línea base medimos el tiempo. Según el tiempo dedicado a
una actividad particular sobre el total. La medida de respuesta más
apropiada lo llamó probabilidad momentánea. Y vamos a ver la teoría de
la privación de respuesta. Es parecida a la del Premat. Pero aquí no hace
falta utilizar la actividad preferida. ¿Qué vamos a hacer al sujeto? Le
vamos a restringir la oportunidad de dar una respuesta reforzadora. Y en
base a esa hipótesis de la privación de respuesta. Para que una actividad
funcione como reforzador. Solo tiene que ser restringida la realización de
esa actividad. En relación con su ocurrencia en el punto de bienestar.
Línea base. Lo que más me gusta hacer. Pero no es necesario que esa
actividad sea más preferida que la que se haya convertido en actividad
instrumental. Es decir, en Premat sí utilizábamos la más preferida.
Aquí no. Imaginaros el experimento que es. Tenemos una rata que lo que
más me gusta es... ¿Qué puede? Correr en la rueda o beber agua. Lo que
más me gusta igual es beber agua. Vamos a restringirle beber agua. O vamos
a restringirle correr en la rueda. De tal manera que luego si quiere beber
agua tendrá que correr en la rueda. Le vamos a hacer contingente. Entonces
eso es lo que experimento. Ratas con dos actividades de libre elección.
Acceso. El punto de bienestar es bebe 400 veces y hace 200 kilos. Le
restringimos beber. Entonces correr es la respuesta instrumental. La que
queremos aumentar. Y beber la contingente. Y le vamos a premiar con beber.
Porque con un programa donde cada kilo de rueda le permite beber. Queremos
determinar cómo se ajusta la rata a esa contingencia. Aceptando las
limitaciones que tiene del medio ambiente. Y aumenta la probabilidad de
ocurrencia. En este caso de dar vueltas en la rueda. Porque cuando le
restringimos correr. Que tiene menor probabilidad que la de beber. El
animal tiene que dar la metónica. Para que hacer girar la rueda. En este
caso la actividad instrumental. Beber aumenta y la contingente correr
disminuye. Dice según esta hipótesis. Que la tasa de respuesta y la de
reforzamiento. Es como una U invertida. Y no lineal. Es como la curva
normal. Más respuestas hacia el medio. Menos hacia el final. Menos al
principio. Y esto es. Esta es una teoría también seleccionista. De la
derivación de la respuesta. Bueno espero no haberos aburrido mucho. Que
suena un poco raro. Porque además ya os digo. Están en el laboratorio.
Están con ratas. Quiero que entendáis qué es lo que están estudiando.
Conductar elección. Que haya un paralelismo entre posibles. Aunque cuesta
verlo. Digamos con las ratas ahí. Pues nada. El próximo día haremos el
tema 6. Luego el 7. Y luego la P. Luego miraremos los artículos
científicos. Hablaremos un poco de ellos. A ver qué es lo que tenéis que
hacer. Lo hago al final porque os evalúan con tres preguntas. Tres. Tres
que no restan para la práctica voluntaria. Y tres que sí restan. Para la
práctica obligatoria. Pero las que no restan. Además tienen cuatro
alternativas de respuesta. O sea que se hace un poco más complicado.
Normalmente yo la escribí el año pasado. Estas, las voluntarias me
parecieron bastante más difíciles que las obligatorias. Porque es un
artículo. Es un artículo y te pueden preguntar. No hombre. Son tres
preguntas. Hay algo que dedicarles. Estaría bien sacárselas. Pero bueno.
Es más importante todo el contenido. Solo con eso. Además las PEC se
miran después de haber mirado. A ver a qué tema va referido. De qué
parte del tema va referido. Artículos científicos. No sé si es el mismo
del año pasado. Tengo que comprobarlo. Porque yo lo tengo impreso del año
pasado. Si no le traje. Si lo traigo, lo miro con el tuyo. Pues me parece
casi igual. Bueno, terminamos.