Bien. Empiezo ahora la grabación porque no me he dado cuenta de ponerla
antes, pero al final ya habíamos empezado. El siguiente tipo de estudio es
el operante libre, es decir, la conducta se puede dar cuando el sujeto
quiera. Hay un entorno donde hay oportunidades de respuesta. El más
típico es la caja de Skinner. Es otro autor que la caja que hizo contenía
mecanismos, habitualmente una palanca que se pulsaba y dispensaba comida o
algún otro refuerzo. El animal estaba ahí y podía responder cuando
quisiera dependiendo del programa y dependiendo de las condiciones. Es
importante distinguir la respuesta operante como la definió Skinner. Un
operante no es una respuesta clara. No es una respuesta concreta, sino una
respuesta que produce un resultado concreto. Apretar la palanca. Nos da
igual qué cadena de... de actos musculares o cerebrales tengan lugar si al
final tiene ese tema que está la palanca eso es un operante porque había
que definir bien cómo se lograba instaurar una respuesta instrumental
partiendo de la nada es difícil entonces al principio se usaba un
condicionamiento atrás una especie de condicionamiento clásico cuando
aparecía comida en el comedor se hace un pequeño ruido todo eso hacía
que la anima se excitará fue a mirar qué ocurría y eso es lo que vimos
el condicionamiento clásico de seguimiento del signo de aquello que ocurre
algo voy a ver qué pasa y poco a poco se le va dando un refuerzo si hace
determinadas conductas cada vez se van acercando más a la que queremos en
el momento que algo ya está instaurado que no es la que queremos dejamos
de reforzar esa reforzamos un paso más allá eso significa y bueno y para
que podamos reforzar un paso más allá De alguna forma el animal tiene que
ser capaz de hacer algo nuevo. ¿Cómo ocurre eso? Pues porque la
variabilidad es inherente a la actividad de la mayoría de los seres vivos.
No hacemos todo siempre igual. Pequeñas variaciones que nos permiten ver
las consecuencias, con lo cual nuevas combinaciones de conductas e incluso
construir nuevas conductas. Hay un ejemplo en el libro, que no voy a entrar
mucho, pero les enseñaron a hacer aperturas del pico a la hora de picotear
diferentes de las que han hecho nunca los palos. Mediante este tipo de
moldeamiento progresivo. ¿Qué medimos en las respuestas operantes? Pues
normalmente se mide cuántas respuestas por unidad de tiempo. Se llama
tasa. Hasta ahora esto es bastante sencillo, pero luego se complica
bastante. Vamos con la siguiente. Tipos de procedimientos de
condicionamiento de instrumento. En esto hay una práctica también,
parece, que os pone diversos ejemplos. De la vida real o ejemplos de
laboratorio en el que tenéis que decidir qué tipo de proceso es, qué
tipo de contingencia o causa que no se le ha puesto aquí pues la pondré.
Se da las consecuencias y el resultado de ese programa. El procedimiento
que usamos en primer lugar más habitual es el refuerzo positivo. Si el
sujeto hace algo hay una asociación con algo, con un premio en este caso,
un estímulo positivo y esto lleva habitualmente a que la tasa de respuesta
aumente. Un segundo procedimiento que también habremos oído hablar muchas
veces es el castigo. También conlleva la aparición de algo, de este algo
aversivo. Por eso mismo la causa o la contingencia es positiva también.
Porque aparece algo, aunque sea aversivo, que es el estímulo negativo este
se llama aversivo. y habitualmente la respuesta disminuye el procedimiento
de refuerzo negativo aquí desaparece algo refuerzo negativo estoy quitando
una conducta un estímulo negativo que le hacía daño lo quito se hace lo
que yo quiero habitualmente se dan de dos tipos escape y de evitación
escape es cuando ya se ha producido el estímulo negativo por ejemplo la
famosa descarga que se utiliza cuando siente la descarga se va a otro sitio
el animal escapa y la evitación es que hay una señal previa que le indica
que se va a producir la descarga y la evita no llega a sentirla ambos son
reforzamiento negativo el reforzamiento negativo es cuando se va a producir
la descarga y la evitación es cuando se va a producir la descarga y la
evitación bueno, sí pero lo que aprende la asociación pero lo que le
enseñamos es una conducta de por ejemplo saltar de un compartimento a otro
en la jaula o apretar una palanca para evitar que venga la descarga o sea,
sí que hay una asociación previa, claro hay un condicionamiento clásico
por medio muchas veces ocurre pero lo que le enseñamos es una respuesta
instrumental ¿ok? lo que queremos que haga es algo en este caso pongo
aquí que la contingencia o la relación causa es negativa porque
desaparece algo del entorno ¿qué desaparece? un estímulo adhesivo, con
lo cual habitualmente la respuesta aumenta o sea, el reportamiento negativo
es si haces lo que te digo, te evitas la descarga o escapas si no, no y por
último, el de omisión, que también se llama diferenciando las conductas
del aire más por pie en el que se quita un premio un estímulo positivo
para evitar que se produzca alguna conducta por ejemplo, si un niño se
porta mal lo podemos aislar podemos encerrar su cuarto Le quitamos el
ambiente positivo y disminuye la calma. ¿Por qué se llama diferencial de
otras conductas? Porque pierde la oportunidad de que otras conductas sean
reforzadas. Está en el ambiente en el que se siente bien y las cosas le
vienen positivamente y le evitamos todo eso al sacarlo de ahí. Bueno, pues
es un nombre. Pero veis el cuadro más o menos y lo hacéis así limpio
queda más o menos claro. La columna esta que me he puesto es la de
contingencia. Cuando aparece algo es positiva la contingencia, cuando
desaparece es negativa. Aparece el reforzador. Bueno, esto como resumen.
Vistos los procedimientos vamos a ver los elementos que hay en un
condicionamiento instrumental empezando por las respuestas. Las respuestas
hemos visto... Bueno, que en cierta medida están controladas por las
consecuencias. El... Aumenta la probabilidad de que se produzca una
consecuencia por asociación entre el estímulo reforzado y la respuesta.
Como dijo otra vez, es ella una especie de asociación. Pero no solamente
es una respuesta estereotipada, sino que se puede reforzar cualquier cosa.
Se puede reforzar hasta la variabilidad. Que hagas algo distinto de lo que
has hecho hasta ahora. Simplemente el programa logra que al final el sujeto
se dé cuenta de lo que tiene que hacer y lo hace. Dentro de todo esto
podría ocurrir que unas respuestas sean más fáciles de condicionar que
otras, como vimos también en el condicionamiento clásico. Hay conductas
que el animal hace con más facilidad en ciertas circunstancias. Por
ejemplo, sale un experimento de peces que les pedían que hicieran una
conducta agresiva, les presentaban como refuerzo o como estímulo un macho
o un hembra. El pez era macho, la respuesta agresiva no cuadraba con la
conducta habitual de cortejo de la hembra y le resultaba mucho más
difícil de condicionarlo. Por ejemplo, hay muchos más. También sabemos
que hay ciertas conductas que cuando un animal se cansa o pierde la
conexión, tiende a hacerlas más a menudo. Instintivamente un animal,
cuando sale el calor cerdos, cuando van a comer, suelen hociquear, oler por
ahí. Bueno, pues es más fácil que lo hagan que agarrar la moneda con el
ojito y llevarla al sitio. Esa deriva instintiva sabemos que es una
condición que hay que tener en cuenta en la realización. Esa es la
condición que hay que tener en cuenta en la realización de los
experimentos. Y por último, la... Lo que vimos también de los sistemas de
conducta. La conducta de alimentación suele tener una secuencia y tenemos
que ver qué conductas se pueden reforzar y cuáles no. Sabemos que en la
búsqueda de comida no se haga ya, que en la búsqueda general y una
focalizada, determinadas etapas, la sensibilidad al aprendizaje es mucho
mayor dependiendo en qué etapa estemos. Bueno, el nombre de un experimento
en vivo no es lo que encontramos. Por ejemplo, la variabilidad, había
palomas que les enseñaban a picotear con una secuencia entre dos
estímulos, A y B, ocho picotazos entre los dos y les pedían que cada vez
fuera diferente de la anterior. Y al final lo hacían. O sea, se puede
tener esa variabilidad. Bueno, puedes verlos, pero vamos a dejarlo así
porque si no... Vamos a ver el siguiente elemento que son los reforzadores.
Los reforzadores, los premios, los cascados. Los testigos, nada más que
hablamos de premios en general para... Es lo más fácil. Tienen que ver
sobre todo la cantidad y la calidad. Más cantidad, más calidad, más
fuerza. A veces es casi lo mismo la cantidad y la calidad. Pero bueno. Es
muy difícil en determinadas circunstancias dosificar y controlar qué
refuerzo llega. Por lo tanto, por eso usamos las faulas, las cajas y los
experimentos de laboratorio. Y también es importante los cambios que
ocurren cuando... Cuando el refuerzo sube o baja durante el experimento. En
operante libre, en la técnica operante libre, podemos hacerlo cambios
continuos. Y sabemos que hay un efecto de contraste, es decir, el sujeto
habitualmente comparamos lo que nos ocurre con lo que nos ha venido
ocurriendo antes. Si va a más el premio, habitualmente la conducta va a
más. Si va a menos, a menos, con el condicionamiento clásico. Si se llama
contraste positivo y contraste negativo, cuando va a más y cuando va a
menos. Si solo se hace una vez durante el experimento, el cambio, se llama
contraste sucesivo. Es decir, primero hay una cantidad X y luego una
cantidad Y, una sucesión. Y si se llama simultáneo, sigamos cambiando de
ensayo a ensayo. Pensad que podemos descubrir diferentes cosas con una
técnica. ¿Sabéis lo que significa cada cosa? Aquí también hay algún
experimento de comida, pero vamos, no lo recuerdo, pero lo miráis. Es los
conceptos. Ahora. Normalmente el contraste positivo funciona mejor que el
negativo. El negativo suele producir cosas que llamamos frustración, que
no dan una pauta limpia de conducta. El positivo sí. Y esto es lo que hay
más o menos de reforzadores. El siguiente punto es la interacción entre
los reforzadores y las respuestas. ¿Qué relación tienen? Tiene algo que
ver la respuesta que le pido con lo que le doy. Eso que hablábamos antes.
Si pide una respuesta agresiva, si te pide una respuesta, si te pide una
comilla, espero que hagas conductas propias del sistema de conducta de la
comida. Bueno, en este caso la relación puede ser de mil maneras y en
general la principal es la probabilidad de que una respuesta produzca un
reforzador. A veces ocurre que se refuerzan conductas incidentalmente que
no esperábamos, como veremos en el argumento supersticioso. En general, la
probabilidad de que se asocien una respuesta o un reforzador tiene mucho
que ver con el tiempo. Una demora. incluso muy corta en las conductas que
solemos ver en los laboratorios de palomas, a partir de medio segundo o un
segundo dejan de condicionarse. Entonces la demora sabemos que es muy
importante. Pero ojo, ¿por qué es importante? Pues una de las hipótesis
más generalizadas es que, como siempre estamos haciendo algo, ese flujo
conductual, si hay mucha demora antes de que ocurra mi respuesta y me dan
un refuerzo, yo no sé exactamente que me están reforzando. Ese flujo
conductual puede ocurrir que esté reforzando secundariamente a otras
conductas. Si, por ejemplo, le asociamos la respuesta con el refuerzo
previamente, la demora se puede hacer mucho más larga o si lo señalizamos
enmarcado con claves contextuales. Es decir, si yo cuando hace determinada
conducta le hago una señal, no necesariamente le hago una señal,
necesariamente un refuerzo ahora, siempre que la haga. eso sería el
marcado el marcado no se puede reforzar la haga bien o la haga mal hay un
marcado para determinar los efectos y para otro no, pues los efectos
marcados admiten mayores demoras que los que no o claves contextuales del
entorno que la vayan a distinguir, que ha respuesta en la que ha hecho por
ejemplo incluso poner una como vimos una luz o unas drogas que te sientes
mal y el efecto que no deseamos que haya una interferencia pues como hemos
visto en el seguimiento del signo muchas veces el animal espera que le den
comida, va a mirar el cuenco y el hecho de mirar el cuenco puede quedar
reforzado cuando lo que queremos reforzar es otra cosa porque la ha ido
muchas veces a mirar el cuenco hay que tener una interferencia bueno ese
tipo de cosas en el caso del incidental el reforzamiento casual o sea
perdón antes de llegar a las supersticiones la relación causal Quería
decir que también es muy importante, quiere decir la relación causal que
no solo el tiempo importa, sino que te des cuenta que hay una relación en
efecto, la probabilidad de que aparezca el refuerzo está asociada con esa
conducta. En los animales y el tiempo es la hipótesis de contiguidad
temporal la más potente, pero también hay que tenerla en cuenta esa.
Porque si no vemos que tenemos control sobre el refuerzo, no ocurre la
aprendizaje. Bueno, las supersticiones de encontro Skinner, encontró que
las palomas en su caja de recondicionamiento de respuesta operante libre,
muchas veces empezaron a hacer unas conductas siempre las mismas. Una
paloma le dio por dar vueltas, otra le dio por mirar un rincón. Bueno, él
dijo que probablemente por un reforzamiento accidental. Habían aprendido,
porque eso nos ocurre a nosotros también, cuando ese bolígrafo roto que
ha probado el examen no lleva siempre y cosas así. Esa hipótesis de
Skinner, que fue un reforzamiento accidental, luego la matizaron, porque
vieron que no eran tantos animales. Si lo mirabas bien las conductas, el
ciclo de la conducta con más detalle, había que distinguir las respuestas
que se hacían durante, entre los ensayos, las respuestas terminales justo
al final cuando iba a haber un refuerzo y había que tener en cuenta
también los sistemas de conducta del animal. El animal. Teniendo todo esto
en cuenta, ellos no encontraron apenas respuestas supersticiosas. ¿Y si el
interino es el tipo que va desde un intervalo? Desde un reforzamiento hasta
que se aproxima el siguiente, se le llama un interino. Entonces las
conductas de interinos son muy diferentes de las que cuando uno está
esperando el reforzamiento y tal. Y viendo todo eso, vieron que las palomas
tenían patrones más comunes de lo que parecía. No había tantas
conductas extrañas. Bueno, y una... Un hallazgo importante con respecto a
lo causal, como señala aquí con la flecha, es cuando percibimos que
nuestra... conducta no controla los refuerzos se produce en defensión
aprendida que es una reacción de pasividad y de pareciera depresión
humana es curioso el ligman y conlleva un diseño triángulo en el que
normalmente se hace un grupo en el que se asocia una descarga o una
posibilidad de escape una descarga es el refuerzo a otro grupo no se le
deja escapar y a otro grupo es utilizar el control por no es la ninguna
descarga y se tiene las mismas condiciones al final el grupo que no se deja
escapar no aprende nunca nada y dentro de la indefensión aprendida qué
hipótesis han dado sobre esto o hipótesis teóricas de por qué funciona
bueno puede ser que la motivación del animal caiga cuando no funciona nada
la expectativa que va a ocurrir algo malo es otra hipótesis Y por último,
otras más variadas, hablan de, en general, cuando están produciendo
consecuencias negativas, disminuye la actividad. Si disminuye la actividad
es menos probable que haga actividades reforzantes. Otra es que no preste
la suficiente atención al entorno para darme cuenta de qué está
ocurriendo al lado de qué. ¿Por qué? Si le ponemos a un pequeño
marcador, cuando ocurre la respuesta que esperamos, como apagar la luz,
pequeño marcador, resulta que ya no se produce la indefensión aprendida.
A pesar de que no pueda escapar, cuando él espera que va a ocurrir algo,
al final puede aprender. O sea, eso es un dato a favor de que es una
pérdida de atención. Si logramos que mantenga la atención con algo,
funciona. Y por último... Por último, el feedback que te da el escape es
complejo porque el feedback que te da el escape es una sensación de
bienestar. interno, porque no se ha producido ese dolor y todo eso forma
parte del condicionamiento clásico aquí se nos mete el condicionamiento
clásico instrumental entonces es una respuesta bastante compleja que es
difícil de aislar y con eso lo dejamos la indefensión, y vamos al punto
siguiente en el que vamos a ver del tema 6A los programas de repartimiento,
hemos visto hasta ahora el diseño de un ensayo las contingencias que se
utilizan, y ahora vamos a ver programas a medio largo plazo en el que lo
que se trata es instaurar conductas instrumentales mediante una relación
respuesta continua puede en los laboratorios lo solemos hacer para que se
pueda distinguir bien lo que está ocurriendo pero en la vida real no se
ocurre todo el tiempo vivimos siempre rodeados de consecuencias de flujos
convictuales nos pasan cosas buenas y cosas malas Entonces, el regularlo en
un laboratorio es lo que se llama programar la reforzada. En general, un
programa similar se define como tal porque produce resultados similares.
Ahora veremos cuáles hay y veremos que los resultados siempre son
parecidos. A veces varía la fuerza de la respuesta aprendida, pero el
patrón de aprendizaje es muy parecido. La velocidad, qué se aprende y
cuándo y cómo. Vamos a ver los más sencillos que son programas de razón
y los de intervalo que están en la diapositiva siguiente. Razón es el
número de respuestas que hay que dar para obtener un refuerzo. Nada más.
Si la razón es 1, por cada respuesta le den un refuerzo. Se llama
reforzamiento óptimo. Si la razón es mayor que 1... Le doy, pido varias
respuestas, más de una, para dar un refuerzo. Más de una respuesta. O
sea, la razón, se suele decir razón 10, quiere decir que cada 10
respuestas operantes vas a conseguir una unidad de respuesta. Entonces,
estamos hablando ahora de razones fijas. Cada respuesta, cada 10 respuestas
es fija. También debajo vemos que hay una respuesta, una razón variable.
No le doy siempre, tras el mismo número de respuestas, el refuerzo. Pero
sí en promedio, tengo que poner una cifra. Entonces se llama razón
variable 10 al promedio de respuesta necesaria para conseguir un refuerzo.
Unas veces la conseguía a la primera, otras veces a la decimotita. Con
promedio de 15, o de 10. ¿Qué resultados tenemos? Bueno, pues en razón
fija tenemos este patrón que hay aquí. Bueno, como habéis visto en el
libro, aquí se produciría el reforzamiento en estos puntos. ¿Qué
ocurre? Pues que inmediatamente antes del reforzamiento se produce una
carrera de la razón que se llama. Una subida de la tasa de respuesta alta.
En cuanto lo recibe, una pausa, una zona llana, pausa por reforzamiento.
Que no es de descanso, porque se ha comprobado que no descansa, sino que es
más bien que se está preparando para la siguiente, nada más. Y se llama
tensión de la razón cuando cambiamos la razón durante los ensayos. Si de
repente, como hemos visto antes, tenemos el contraste con el reforzamiento,
le pedimos más respuesta. Respuestas para el mismo reforzador. Se produce
una pausa cuando ya ha hecho las respuestas que antes le pedíamos.
Tensión de la razón y luego se produce el incremento hasta que logra
llegar a la nueva razón. Esos son los conceptos que vienen ahí. Y esta es
la forma típica de conducta a lo largo del tiempo y el número. Mirad,
¿sabéis por qué sube el gráfico continuamente? Porque son respuestas
acumuladas. Estoy contando siempre todas las anteriores más las de ahora.
De esta manera yo veo también la forma esta, la pendiente, me indica el
grado, la rapidez del aprendizaje. Si es muy alta la pendiente, en poco
tiempo ha aprendido muchas respuestas. Aquí el gráfico que vemos en la
tasa de razón variable, vemos que no hay tantas pausas. Son casuales las
pausas y más breves si las hay. La tasa de respuesta es prácticamente
constante. Aunque... Al final... El aprendizaje es parecido, las
distribuciones son muy diferentes. Un ejemplo de razón fija, de la vida
real. Razón variable, las máquinas... Trabajo en cabina y el sueldo,
claro que sí. Hago 10 piezas, cobro tanto. Razón variable, las máquinas
de premio. De vez en cuando salen premios, pero... Bueno, hay muchos
ejemplos. Una de las prácticas es esta. Ver situaciones y decidir qué
son. Viene bien para aclarar los conceptos. Pasamos ahora a los programas
de intervalo. Aquí la variable que determina el refuerzo es el tiempo.
Pero no es que se reciba un refuerzo por tiempo, sino que se recibe un
refuerzo después de la primera respuesta. Después de un tiempo
determinado. O sea, la respuesta, o sea, el refuerzo está disponible
después de ese tiempo. ¿Esto? ¿Qué? El refuerzo está disponible a X.
No, no, no. El refuerzo está disponible después de un tiempo si se
ejecuta la respuesta. Si no, no. Se puede no producir, claro. Si no hace la
común. El intervalo es, pasa un tiempo T, haces. Lo que yo quiero, tiene
refuerzo. O sea, el refuerzo está disponible tras T si hay respuesta. Esto
implica, en cierta medida, ¿veis la curva de aprendizaje? Que es parecido
al que hemos visto antes. A esta subida aquí le llamamos cestón de
intervalo fijo porque, o sea, al final del intervalo hay un incremento de
las respuestas. Esto implica que tenemos una especie de reloj interno.
Podemos medir el paso del tiempo de alguna manera. El intervalo variable es
similar, análogo a lo que hemos visto antes. Aquí el tiempo en el que
está disponible el refuerzo es variable, con un promedio X, que podemos
llamar intervalo variable de 10 segundos. O sea, a veces a los 2 segundos
estará disponible, a veces tardará 10. Si es respuesta, y el patrón
podéis ver que está muy parecido al de razón variable. Hay otro
procedimiento que hay que señalar. Bueno, algún ejemplo, por ejemplo, de
intervalo pijo. No sé, cualquier... La lavadora. Ah, la lavadora, el que
pone un periodo así, por ejemplo. O sea, si no es después de que acaba la
máquina, le puedes sacar la ropa, no estaría. Bueno, 1, 1. Y el intervalo
variable... Pues tener una tienda y vender, por ejemplo. Alguien entrará o
alguna vez vendrá. Cuando venga alguien a hacer la respuesta correcta,
cuando no viene ese alguien, no puedo responder, por ejemplo. Bueno, ahí
el tipo que he dicho que se añade aquí es de intervalo de espera limitado
porque es muy más parecido a la vía real. Este es igual que el intervalo,
el procedimiento del intervalo, solo que el refuerzo solo está disponible
durante un tiempo limitado, como suele ocurrir. Si desaprovechan la
oportunidad, desaparecen. Por ejemplo, las ofertas, me parece que no dan
ninguno de los ejemplos. Bueno, vamos a ver qué procedimiento, qué
programa de reforzamiento produce mayor o mejor resultado. Comparamos el
intervalo y el refuerzo. Aunque superficialmente, son parecidas las
gráficas como hemos visto, Tenemos que entender que implican
procedimientos internos muy diferentes. Por ejemplo, el sentido temporal.
El primero es el sentido temporal. No existe en el de razón y tiene que
existir en el de intervalo. O sea, los mecanismos internos o lo que se
aprende tiene que ser diferente. Por ejemplo, Reynolds hizo un experimento
en el que procuró que la tasa de refuerzo llegara a ser la misma en un
grupo de intervalo y en un grupo de razón. ¿Cómo lo hizo? Pues
dependiendo, haciendo depender al grupo de intervalo de los refuerzos que
conseguía en el de razón. Y variaba el intervalo en función del de
razón para que la tasa fuera similar. Y con una tasa de refuerzo similar,
la respuesta de razón fue más vigorosa que la de intervalo. Es un
resultado. Se ha hecho también con experimentos humanos. Que les daban una
moneda, o les metían en la ducha, el refuerzo, también un mismo
resultado, parecido. ¿Por qué? Bueno, si usaban un videojuego en el que
tenían que matar bichitos y cuando lograban algo les daban una moneda y la
metían en una hucha. Que es una especie de consumatorio. Recibían el
refuerzo y había un programa de intervalo y una razón. Procurando que los
dos recibieran la misma cantidad de refuerzo. Y eran más poderosas las
respuestas a los intervalos con el de razón. Razón variable. ¿Por qué
ocurre esto? Hay varias hipótesis, como casi todo. Y en esta la primera es
que, como hemos dicho, que se puede reforzar la variabilidad de conducta.
Se puede reforzar casi cualquier cosa. Entonces, probablemente los
programas de razón refuercen más tasas altas de... O sea, se puede
reforzar la tasa... De respuestas. El ritmo al que se dan las respuestas.
Las seguintes respuestas. ¿Por qué? Porque acumulando respuestas tiene
más probabilidad de reducir el reforzamiento. Sin embargo, el de razón
variable, el de intervalo variable, perdón, asociado al tiempo, solo
cuando estamos a final de intervalo en las respuestas probablemente reciban
reforzamiento. Con lo cual probablemente se estén reforzando intervalos
más amplios de descanso. Y eso es un resultado que puede dar lugar al
patrón que se observa. Un reforzamiento de intervalo largo de descanso,
tasa de interrespuestas baja. O sea, un reforzamiento indirecto de algo que
como hemos visto se puede reforzar. De ahí se han derivado programas de
tasa que han intentado reforzar un ritmo u otro y funcionan bien. Las
tasas, mira, esto sí. Sería refuerzo diferencial de tasas altas. El
ejemplo que pone, si por cada respuesta que se dé antes de 5 segundos se
consigue un refuerzo, se consigue una tasa de respuestas mayores de 12 al
minuto, es decir, 5 por 12 es 60. Hay 12 periodos y 5 segundos. Si
reforzamos que la tasa sea menos, cada menos de 5 segundos tiene que
responder, logramos tasas de mayores de 12. Si reforzamos lo contrario, que
la respuesta se dé, que hayan pasado ya 5 segundos, la tasa siempre será
menor de 12 y se logran regular las conductas. Esto se llaman programas de
tasa. ¿Para qué sirve este aprendizaje? Pues en la vida real hay muchos
ejemplos. Aprender los ejemplos que exigen precisión, muchas precisiones
en movimientos como la música o el baile artístico, exigen reforzar a
veces las tasas frenadas. Ahora vos dices, ¿eh? Pues todo esto tiene que
ver con ese aprendizaje. Y bueno, y con esto hemos visto los programas
simples. Ahora vamos a ver algunos un pelín más complejos, y que se
pueden hacer cada vez más y más complejos, que se llaman programas de
elección en el que antes de aplicar un programa de reportamiento, el
sujeto puede elegir entre varias posibilidades. En general, la más simple
es dos. Y podemos comparar qué programa prefiere el sujeto, ¿no? En los
laberintos es un programa de este tipo, en el que se va hacia un lado o
hacia otro, pero también puede ser programas concurrentes, con respuesta
continua, en las que puedes elegir cambiar de un programa. Un programa u
otro, cuando tú quieras. El ejemplo, te he puesto aquí estos puntos
porque el ejemplo más... Para el enigmático es dos botones, que pica una
paloma, que picotea una paloma para elegir un programa u otro. En ese
momento pasa a administrarse de ese programa de reforzamiento. Si es un
programa continuo, la paloma puede cambiar de uno a otro según sus
preferencias. Podemos medir cuál es la que está más. ¿Qué vamos a
medir aquí? Aquí hay unas pocas matemáticas, pero muy sencillas. ¿Qué
vamos a medir aquí? Cómo se distribuyen las respuestas entre una
posibilidad y la otra en el reforzamiento continuo. ¿Y cómo mido eso?
Bueno, pues, la tasa relativa a respuesta es la fórmula que mide cuánta
respuesta dedico a uno de los dos posibilidades. Por ejemplo, la tasa
relativa en A sería respuestas dadas en A, divididas por el total de
respuestas dadas en A y en B. Es una tasa cuyo máximo valor es 1. Si no
respondo nada a B... El valor es 1. Y el mínimo es 0. Si no respondo nada
a A, es 0. Arriba hay un 0. Si respondo por igual, es 0,5. Entonces esos
son los valores que me van a permitir comparar los dos programas. En
general, si los dos tienen las mismas consecuencias, la tasa de respuesta
será 0,5. Bueno, de forma análoga se mide la tasa de reforzamiento.
¿Qué cantidad de refuerzo consigue el sujeto en cada una de las dos
posibilidades? En general, tienden a igualarse. Una persona o un sujeto
experimental sometido a dos programas de reforzamiento diferentes tiende a
distribuir las respuestas cuando aprende lo suficiente de forma que
maximiza la cantidad de refuerzos que tiene. Es decir, iguala la tasa de
respuestas a la tasa de refuerzo. Las hace totalmente congruentes. Eso se
llama ley de igualación. El experimento de Hennstein fijó una tasa
máxima de refuerzo con diferentes combinaciones de dos programas de
intervalo variable. Por ejemplo, si le quiero dar 40 refuerzos por hora,
puedo hacer dos programas. Uno de intervalo variable de 6 minutos, máximo
10 refuerzos por hora, 6 por 10 es 60. Y uno de intervalo variable de 2,
máximo 30, sumados dan 40. Y hacerlo con otras combinaciones y ver qué
preferencias tiene. Y lo que observó es que al final la distribución de
respuestas se igualaba a la distribución de refuerzos. Es decir, el
enunciado de la ley de igualación. Sin más datos. Vamos a ver un poco
más al fondo la ley de igualación. Hemos visto ya la fórmula que se
puede simplificar. La fórmula de la ley de igualación dice, la tasa de
respuestas al final es igual a la tasa de respuestas. Que si la
simplificamos simplemente multiplicando los dos lados nos desaparece el
multiplicador y se puede decir que la tasa relativa de respuestas entre A y
B es igual a la tasa relativa de respuestas entre A y B. Esa función
básica se observó que en determinadas circunstancias no funcionaba bien.
Había, a veces se igualaba un pelín por lo bajo, había menos respuestas
de las posibles, o a veces por lo alto y a veces había incluso sesgos por
determinadas respuestas. Bueno, buscando qué formulación matemática
podía dar respuesta a todas, esos datos, esta es la fórmula en la que
se... Sino que hay cierto consenso. En este caso, lo que hacemos es poner
un exponente a la tasa de refuerzos y poner un multiplicador. El exponente
tiene que ver con la sensibilidad al refuerzo del animal o del sujeto. Si
la comida le gusta mucho. Si una especie prefiere unas cosas que otras. Lo
que esperaba, la necesidad que tenga en ese momento. Muchas variables con
el terreno. Y se resumen en un exponente. Si ese exponente es menor que 1,
hace la tasa de refuerzo más baja, infraigualada. Si es mayor que 1,
supraigualada. Y por último, el factor B es un sesgo hacia la respuesta.
Una preferencia a ejecutar ciertas respuestas o la posibilidad de
ejecutarlas más fácilmente. Con lo cual. Un valor, el valor será
relativo en función de que sea positivo o negativo también y se le llama
sesgo. Los conceptos de infraigualación, supraigualación y sesgo se
entiende porque no es aplicar en un momento sino entender la relación
proporcional directa o indirecta de uno y otro. Bueno, un paso más con la
vida de igualación es ver un programa de refuerzo que no sea de elección
un programa de refuerzo como el que hemos visto antes, instrumental, se
podría analizar bajo esta perspectiva. ¿Cómo? En un programa normal la
respuesta esperada produce un refuerzo y podemos pensar que durante el
periodo en el que no se produce una respuesta esperada se producen otras
muchas respuestas que a su vez obtienen una serie de resultados que
dependen del contexto, no de nuestro programa. Pero... Las podemos poner en
la fórmula. La respuesta... Por omisión o respuesta a cero. Hacer otras
cosas consigue una serie de refuerzos asociados. Y podemos aplicar la ley
igual que antes. Solo que en este caso se simplifica un poco más porque
queremos asumir que la tasa de actividad, la respuesta A más las
respuestas por defecto, es constante. Lo podemos poner un valor K, que es
la tasa de actividad que hay. La actividad total. Y nos queda esta
fórmula. ¿De qué depende que haya una respuesta ante un refuerzo A?
Depende del valor de K, la actividad general, y de la tasa de refuerzo
conseguida. En este caso, este tipo de análisis, ves que la respuesta es
proporcional negativa al reforzamiento ambiental, al RC cero. No
necesariamente no aprendemos una cosa o la aprendemos otra. No aprendemos
mejor solo por el refuerzo, sino también por lo que está ocurriendo en el
resto del tiempo. Quiere decir esto. Lo que está ocurriendo el resto del
tiempo, si lo tenemos en cuenta, se ha obtenido gran interés en clínica
para la gente que no obtiene resultados en la depresión. Queremos tratar
los síntomas de la depresión, pero también hay que tratar todo el resto
del periodo en el que se consigue o no se consigue. También las
dependencias a las drogas. Este análisis es muy útil para muchas
situaciones. Y sabemos que no queremos que una persona, una conducta mala,
darle reforzadores gratis de vez en cuando también la puede disminuir. No
permitas reforzar una droga por otra cosa. Una persona que tiene una droga,
le dan reforzadores variados en la vida cotidiana, no asociados con las
drogas, disminuye la droga por esta. Bueno, veis que estos resultados son
bastante lógicos, pero aquí estamos en un nivel experimental. Tenemos la
fórmula, funciona. Vamos con los mecanismos o las teorías. Explican esta
ley de igualación. Hemos visto que la ley de igualación es descriptiva.
Es una fórmula que describe lo que ocurre, pero no describe el porqué.
Entonces los porqués se dividen en dos tipos de teorías principales y una
intermedia. Las principales, las molares, las que ven la elección como un
mecanismo global en función de la tasa global de respuestas, no se paran a
ver dónde se ha producido cada respuesta ni cómo, sino la tasa general, y
las moleculares, las que ven cada respuesta, por qué se produce hacia un
lado o hacia otro. El programa A va hacia el programa B. ¿Por qué
elegimos una y no otra? Dentro de las moleculares, es decir, las que
analizan cada respuesta, se supone que elegimos la respuesta que tiene más
probabilidad de ser reforzada en ese momento, que depende del programa que
interprete el animal que está ocurriendo. Si en un momento dado entiendo
que hay más posibilidades en otro, me voy al otro. A veces se han
confirmado, o sea, vemos que una teoría molecular... Si se cumple, al
final, se produce la igualación molar también, pero con una explicación
molecular, que está ocurriendo en cada ensayo. En general, hay datos que
lo corroboran y datos que no. Hay otro análisis un poco más complicado,
que en vez de decir, yo hago la respuesta que tiene más posibilidades de
ser reforzada, analiza cuatro respuestas. Estas. Permanece en un programa,
permanece en otro, cambiar de uno a otro, cambiar del otro a otro. Y
analizándolas por separado, se logra predecir mejor o analizar mejor esta
maximización. Bueno, no he dicho arriba, lo he puesto aquí, que se supone
que todo el mundo quiere maximizar la respuesta de los activos. Esta es la
finalidad común que todas las teorías asumen. Bueno. Bien. Cada respuesta
de estas cuatro que hay aquí, tiene una probabilidad de ser reforzada y en
función de eso se van distribuyendo. A veces, cambiar, pues tiene un
coste, lo hago o no lo hago. Bueno, la molar, hemos visto por encima la
explicación que era molar. Simplemente dice que si un programa de
reforzamiento razón fija es de 10 y otro razón fija es de 20, ¿para qué
me voy a molestar en dar 20 respuestas en un programa cuando con el otro
puedo conseguir muchos más reforzadores? Que lo que importa no es esa
relación individual sino la global, ¿para qué? Y claro, algún resultado
de este tipo lo hay, pero hay algún problema también. A veces en dos
intervalos variables que con un pequeño número de respuestas en otro
intervalo maximizarían refuerzo global total, no se dan. A veces se quedan
fijos o no dan. No. No lo explica la teoría. La teoría dice que el
refuerzo molar total es lo que determina, no es así en este caso. Y en
otros experimentos, razón variable contra intervalo variable, también lo
mismo. Si cambiaran de vez en cuando al intervalo variable... Conseguirían
más refuerzo. Y no lo hacen, se caen en el razón. Demasiado. Bueno,
doctor Rodríguez, estamos en lo último. Y el último, el de mejoramiento,
dice que no se produce tanto una mejora global ni parcial, sino que de vez
en cuando, cuando las cosas no nos van tan bien, cambiamos un poco a ver. Y
a veces logramos pautas globales bastante malas, a veces buenas y a veces
mediocres. Eso le llaman decisiones inocentes. El cambiar sin tener un
análisis muy claro, a ver, cada tres o cuatro, ¿cuándo? Cada X ensayos,
veo que la cosa no va al cambio, a ver qué ocurre. Ese trozo que yo
analizo, cada X ensayo, se llama tasa local de respuesta. El tiempo que
estoy respondiendo a una alternativa, y lo cambio, ese tiempo, las
respuestas que da esa alternativa, son la tasa local. Y si en función del
resultado de esa tasa local, se supone el cambio de una orden. Porque
fijaos que es un análisis entre molar y molecular. Es un poco a más largo
plazo, pero tampoco es molar. Y el resultado final, si se entrena bien y
tratamos de igualar las tasas locales, cuando veo que la una tarda mucho y
empiezo a probar la otra, al final se produce la ley de igualación de
datos. Coinciden los datos. Bueno, hay un ejemplo de varios ejemplos, pues
mirad el de la tiempo. Y el último punto, que sí que quiero empezar por
encima, es lo mismo que la elección, solo que en este caso le pedimos que
cuando elija un programa ya no pueda cambiar otro durante un tiempo. Que
también es un tipo de elección con compromiso que se da mucho en la vida
humana. Por ejemplo, al elegir qué estudias es tanto el coste que tienes
que comprometer. Bueno, la elección con compromiso es tan simple como que
hay primero el eslabón de elección y luego un tiempo. Y luego un tiempo
en el programa que hayas elegido. Se pueden poner 10 minutos, se pueden
poner lo que sea. Una vez elegido el programa... Los patrones de respuesta
de ese programa no cambian con lo que hemos visto hasta ahora. Si es de
razón fija, es el mismo patrón. Lo que nos importa aquí es por qué a
veces se prefieren, por ejemplo, los programas de razón variable en vez de
los de fija. Que suele ocurrir. Nos gusta probar, nos gusta el estímulo,
podría ser. Y también las relaciones entre el eslabón inicial y el
final. A veces, en el eslabón inicial, cualquier señal que se produzca,
el clic, la luz, la puerta que se abre, acaba haciendo una especie de
refuerzo secundario. Se condiciona clásicamente. Entonces, la relación
entre el eslabón inicial y el final sí que se importa. Ya sabemos que la
tasa, si va a un programa, es la misma que me gusta. Pero sí, ¿cómo
pasamos del eslabón inicial al final? Ya hemos visto que... Consecuencia
es el autocontrol, la capacidad para elegir estímulos más demorados, pero
más potentes, refuerzos, perdón. Más demorados, pero mejores. Y
aguantarnos el más reciente, pero peor. Estas funciones que en el tiempo,
el valor del refuerzo va cayendo. Si cae uno más deprisa que el otro,
perderá fuerza. Y esta función que dice que el valor del refuerzo depende
de su magnitud inicial y la demora con que lo damos. A más magnitud, o
sea, más fuerte sea, mejor. Y a más demora, peor. Está en el
denominador. Y la K es un parámetro de la función descontadora, lo
rápido o lo lento que baja. El ejemplo que suele haber ahí es de las
adicciones a las drogas. Y sabemos que esta gente, por los datos hemos
visto que tienen una función descontadora que baja mucho más rápido. Con
lo cual les resulta mucho más difícil postergar el refuerzo. Y es una
cuestión que no tiene que ver solo con las drogas, sino con cierta
inclusividad general del sujeto. Y bueno, aquí también se ve en el
capítulo de su tema, con un experimento con chicos... Con esto acabamos
por hoy, que es la hora y hasta dentro de unos segundos. Veremos los temas
siguientes si no tenéis otra cosa que aprender.