La última tutoría antes de Semana Santa. Si os digo la verdad, ni me
había enterado hasta que lo he mirado esta tarde, por curiosidad, porque
hace ya tiempo que he perdido la noción del tiempo. Ya está grabado, sí,
ya se está grabando. Va a quedar todo grabado igual que siempre, ¿vale?
Por cierto, antes de deciros nada, he visto que hay ciertos problemas, por
lo menos cierto retraso en Inteka a la hora de poner las tutorías
disponibles. A mí me está pasando lo mismo, ¿vale? Grabo las tutorías,
pero cuando luego intento meterme a los propios archivos que yo he grabado,
me salen no disponibles. No sé si eso habrá pasado con la última
tutoría, que incluso hoy por la mañana he intentado ver el archivo y
seguían diciendo que lo tenían que subir, que estaba procesándose en
Inteka. Espero que lo hagan rápido. Últimamente está teniendo bastante
retraso. Me imagino que será porque hay muchas más tutorías que se
están haciendo online. También incluso otras universidades están
utilizando esta herramienta. Así que, bueno, esperemos que se pongan a
disposición rápido. No os las puedo facilitar. Yo, porque estoy en la
misma situación. Es decir, yo ni siquiera tengo acceso a mis propios
archivos porque se quedan guardados todos en el servidor de Inteka. Así
que estamos en las mismas. Solamente os puedo dar los enlaces. También
podéis acceder, lógicamente, a ellos. Y, bueno, lo único que podemos
hacer es esperar. Os iré avisando cuando vayan apareciendo. Y ya sabéis,
siempre os pondréis los enlaces, materiales, etc. Bueno, lo que os decía,
es la última tutoría antes de Semana Santa. Y yo os digo que ni me había
enterado porque hace tiempo que ya perdí la noción del tiempo. Y de en
qué día estoy. Así que, bueno, vamos a intentar ver la primera parte del
tema 5, la que se refiere a los programas de reforzamiento, a los
diferentes programas. Y vamos a dejar la parte de teorías de reforzamiento
para después de Semana Santa. Ya veréis que este tema, para mi gusto, es
quizás, si no el más, uno de los más densos y los que tienen algunos
conceptos más complicados en el libro. Lo vamos a ver. Ya veréis que hay
algunas. Sobre todo es el... Cuando hablamos... Cuando hablemos de... De
comportamiento de elección o de elección entre varios programas y cómo
se comportan los sujetos y las teorías de igualación. Veréis que... Y la
ley de igualación. Veréis que ahí puede haber algo un poquito más
complicado en relación a los conceptos que se manejan. Para mí es el tema
que incluye algunos conceptos, también uno de los más largos y el que
incluye algunos conceptos más complejos. Pero bueno, vamos a ir viéndolos
poco a poco. Vamos a empezar con cosas bastante sencillas. Ya veréis, con
programas que a todos os sonarán y que habréis visto en varias
situaciones y que se dan en... En algunos ambientes que todos conocemos
bien. Así que vamos a empezar de lo más sencillo a lo más complicado y
vamos a ver el tema, yo os digo, por lo menos en dos días, en dos
tutoriales. Así que además, como se queda grabado, vais a tener tiempo de
volver a ello siempre que queráis. Así que no creo que haya ningún
problema. Bueno, dicho esto, como siempre tenéis en la lista de documentos
de la clase, tenéis el tema 5 tanto en PDF, en formato de Acrobat Reader,
de Adobe, y lo tenéis también en PowerPoint. En el PowerPoint, yo
recomiendo que os descarguéis el PowerPoint porque contiene los vídeos
que no vamos a poder ver en la tutoría, puesto que la presentación es
fija y no permite la reproducción de vídeos. Así que descargaros el
PowerPoint si no lo tenéis ya, que ya lo dejé, creo, puesto la semana
pasada. Si no lo tenéis ya, lo podéis descargar para tenerla ahí. Bueno,
pues vamos a empezar. Ya hemos visto antes los principios básicos en el
tema 4, los principios básicos del condicionamiento operativo. Y ahora
vamos a dedicarnos a ver cosas algo más avanzadas sobre el
condicionamiento operante. Algunos de los programas utilizados, algunas de
las variaciones de programas y diferentes programas concurrentes y
simultáneos, diferentes variaciones y también algunas de las teorías
más importantes sobre cómo funciona el condicionamiento operante y
también algunas de sus situaciones más comunes, como por ejemplo el
comportamiento de elección. Un comportamiento muy usual tanto en animales
como en humanos. Cuando tienes que decidir qué es lo que quieres hacer,
tienes que decidir entre dos alternativas que dan diferentes premios o que
tienen diferentes consecuencias. Bueno, vamos a ver cómo todo esto se
conforma y cómo se comporta. Así que vamos a empezar y vamos a empezar
con los programas básicos. En el anterior tema vimos las formas o las
consecuencias o los tipos de contingencias, mejor dicho, más comunes en el
condicionamiento operante o los cuatro tipos de contingencias posibles,
tanto para aumentar conductas como para disminuir conductas, combinado con
el hecho de que los reforzadores puedan ser positivos, consecuencias
positivas y consecuencias negativas. Ahora vamos a ver la manera en que se
pueden aplicar esos programas, las diferentes maneras o algunas de las
diferentes maneras en las que esos programas pueden aplicarse para entrenar
sujetos, para entrenar organismos o para llevar a cabo cualquier tipo de
experimento. Bueno, ¿qué son los programas de reforzamiento? Pues la
forma en que se programan los reforzadores. ¿Cómo damos los reforzadores?
¿Cómo se programan las consecuencias? Las consecuencias de la conducta,
no en relación a si una conducta tiene como consecuencia la aparición o
no del reforzador, sino en qué cantidad, en qué momento y cómo se dan,
cómo se programan esos reforzadores. Una vez que se ha emitido la
respuesta operante o al revés, que se deja de emitir la respuesta
operante, ya sabéis, en función de lo que queramos aumentar o disminuir y
del tipo de contingencia que tengamos programada. Así que nos van a decir
las reglas. ¿Cuáles son las reglas para obtener un premio? ¿Qué tenemos
que hacer? ¿Cuántas conductas? ¿Qué tenemos que realizar? ¿Cuánto
tiempo tenemos que esperar? ¿Qué combinación de ambas reglas? ¿Cómo
tenemos que responder, en el caso de que sean varios programas, para
obtener la consecuencia que aparece tras la emisión de la conducta? En
general, en el capítulo anterior vimos los casos de reforzamiento
continuo. Aquellos casos en los que todas las conductas daban lugar a la
aparición de la consecuencia, pero en general esto no ocurre así. En
general, en los programas de reforzamiento no se refuerzan todas las
respuestas. Lo normal es que el refuerzo sea intermitente, sea un refuerzo
parcial. Sólo se refuerzan algunas respuestas en función de determinadas
características o de determinados parámetros o determinadas
circunstancias. Además, este tipo de aprendizaje, perdón, este tipo de
refuerzo, este tipo de forma de reforzar, produce un aprendizaje más
duradero. ¿Recordáis lo que decíamos sobre el refuerzo intermitente
parcial? ¿Y la resistencia a la extinción? Bueno, pues si lo recordáis,
os acordaréis de que los refuerzos parciales o los programas de refuerzo
parcial son más resistentes a la extinción. Es más difícil extinguir
una conducta que ha sido adquirida mediante reforzamiento parcial. Bueno,
pues esto es lo que vamos a ver en esencia en la primera parte del tema.
Luego veremos algunas cosas que se irán complicando, sobre todo en cuanto
a la ley de igualación. Pero de momento vamos con los principios básicos.
Pero con lo más básico se ve el reforzamiento. ¿Cuáles son los dos
grandes bloques, las dos grandes formas de establecer programas de
reforzamiento? Bueno, pues tenemos programas de razón y programas de
intervalo. Es decir, podemos reforzar en base al número de respuestas que
se dan o en base al tiempo que ha pasado desde la última respuesta o el
tiempo que tiene que pasar para que una respuesta pueda ser reforzada.
Además, podemos hacer que sea fijo o que varíe. Es decir, que el número
de respuestas que tenemos que dar sea el mismo siempre, o que varíe en
torno a un punto. Y también, podemos hacer que el tiempo necesario, el
tiempo que tiene que pasar para que una respuesta pueda ser reforzada, sea
el mismo siempre O varía en torno a un punto. No es lo mismo un programa
en el que tienen que pasar 20 segundos para que yo dé la respuesta y tenga
un premio y si respondo antes de los 20 segundos nunca me da el premio que
un programa en el que tienen que pasar de promedio pero a veces tendrán
que ser 25 y a veces tendrán que ser 15, es decir, varía en torno a ese
tiempo. Y lo mismo para el número de respuestas. ¿Qué nos da como
resultado esto? Pues una matriz de 2x2, es decir, dos formas o dos bloques
de condicionamiento, razón e intervalo, de forma en que se administran o
de condiciones necesarias para que se administre el reforzador y dos formas
en cuanto al número de respuestas o el intervalo de tiempo si es fijo o no
lo es para tener el reforzador. Es decir, tenemos cuatro diferentes
programas de reforzamiento parcial. Tenemos dos de razón, dos en el que
hay que emitir un número determinado de respuestas. ¿Qué quiere decir
esto? Bueno, pues que para obtener el reforzador se te exige que hagas se
te exige que hagas un determinado número de conductas. En un programa de
razón, una rata, por ejemplo, tiene que pulsar 15 veces la palanca para
obtener una bolita de comida. Ya no se refuerza cada pulsación de la
palanca, sino la pulsación número 15, la que hace la número 15.
Entonces, con una bolita se reinicia el programa de razón y tienes que
volver a realizar 15 respuestas. 15, 20, 2 o las que hayamos decidido o
incluso una mezcla. Pueden ir variando los programas con el tiempo. Luego
veremos algo sobre esto. Algo bastante sobre esto, porque parte del tema
irá sobre este tipo de programas. Y por otro lado, tenemos los programas
de intervalo. Programas en los que lo importante es el tiempo que pasa
desde el último reforzador. Es decir, desde que cae la última bolita de
comida, no volverá a caer otra bolita de comida hasta pasado el tiempo que
indiquemos en el intervalo. Por ejemplo, 20 segundos. Y aquí diréis,
bueno, pero eso entonces no tiene que ver con la conducta, ¿no? Eso es
algo parecido a lo que era el condicionamiento clásico. Podemos programar
un reforzador o la conducta supersticiosa, un reforzador que haga 20
segundos. No, porque aquí lo importante es que no se puede hacer un
reforzador que haga 20 segundos. Lo importante es tener en cuenta que se
refuerza la primera respuesta que ocurra después del intervalo. Es decir,
respondemos aquí, ¿vale? O cuando estamos al inicio del programa y cae un
reforzador. Y esa caída del reforzador, una vez que hemos realizado la
primera conducta, inicia un intervalo. En este caso hemos puesto 20
segundos. Si yo respondo por aquí, por mucho que responda no voy a obtener
ningún reforzador. Solo tendré el reforzador con la primera respuesta que
ocurre. Después de que finalice el intervalo. Y entonces caerá el
reforzador. Si no respondo, no hay reforzador. Solo hay reforzador si
respondo. Pero solo habrá reforzador si respondo una vez que se ha
cumplido el intervalo. Bueno, y como hemos dicho antes, estos dos programas
pueden ser tanto fijos como variables. Es decir, que se necesiten 20
respuestas para obtener el reforzador o en torno a 20 respuestas. Es decir,
unas veces podrán ser 18, otras 22. Pero la media de respuestas siempre
será el número que nosotros hayamos elegido. Y lo mismo con el tiempo.
Puede ser un tiempo fijo de, por ejemplo, 20 segundos o un tiempo variable.
Es decir, que el tiempo necesario o el tiempo del intervalo varíe en torno
a 20 segundos. La variabilidad la establece el experimentador. Puede ser
desde 30, unas veces 30 y otras veces 10, a simplemente variaciones de 2
segundos, de 18 a 22. Pero la media siempre será el término o el
intervalo Esas son las diferencias entre los cuatro programas. ¿Qué es lo
curioso de todo esto? Lo curioso es que cada uno de estos programas va a
dar lugar a un tipo diferente de respuesta. Lo vamos a ver ahora. Pero
primero vamos a ver cómo se registran las respuestas. Ya os digo desde el
principio que este libro está muy anticuado. Esto ya no se usa. Este
registrador de respuestas que consiste en una especie de rollo de papel con
dos plumillas que van marcando una línea y cada vez que ocurre un evento
se va marcando o se realiza una marca en el papel. Esto no existe ya. Esto
podría existir en los años 70, en los años 60, en los años 80. Quizás
quedaría alguno. En los 90, me extraña, pero alguno quedaría.
Lógicamente esto se hace con un ordenador. Ahora ya se registran todos con
ordenador. Pero nos vale el ejemplo para que veáis la forma en que los
registros se toman en la conducta operante. Cómo se tienen en cuenta cada
una de las respuestas y cada uno de los eventos. ¿Qué nos permite medir?
Bueno, pues nos permite medir el número de respuestas y otros parámetros.
Vamos a ver cómo. Fijaros en el papel. Lo tenéis aquí. Lo tenéis
también en el libro y seguramente lo podéis ver mejor porque el gráfico
es más grande si tenéis el libro a mano. Tenéis en la línea horizontal,
tenéis el tiempo. Aquí hay una plumilla que registra el tiempo que va
pasando. Y en el eje vertical, perdón, tenemos aquí el eje vertical y
realmente aquí el eje horizontal, aunque está girado. Vamos a tomar este
como eje horizontal y este como eje vertical. Así que tenemos en el eje
horizontal el tiempo. Va aumentando, simplemente va marcando. Y en el eje
vertical tenemos las respuestas. Y por eso se llama registro acumulativo.
Porque cada vez que se da una respuesta, el contador va saltando hacia
arriba. Y siempre, cada vez más. Así que cada salto vertical en este eje
representa una respuesta. De esta manera sabemos también la tasa de
respuesta. Si esto crece muy rápidamente, quiere decir que la tasa de
respuesta es más alta. La tasa de respuesta es muy alta. Si crece lento,
quiere decir que la tasa de respuesta es baja. También nos indica el
tiempo que pasa entre respuestas. Los segmentos horizontales, que aquí
aparecen como verticales, los segmentos horizontales son el tiempo que hay
entre una respuesta y otra. Y que son distintos entre cada una de las
respuestas. Así que también nos permite medir medidas como la
perseverancia. Es decir, cuánto tiempo se pasa respondiendo y cuánto
tiempo sin responder. En función de cuántos son los segmentos
horizontales y aquellos en los que hay una escalada vertical de las
respuestas. Y nos permite medir el tiempo empleado en responder y en no
responder. El tiempo entre una respuesta y la siguiente a cada momento. Y
también nos permite medir, lo tenéis aquí también en el gráfico, los
sucesos que ocurren durante el proceso de aprendizaje. En la línea del
tiempo tenéis que, están marcados, lo veréis mejor en el libro, los
estímulos discriminatorios. Cuando aparecen estímulos discriminatorios
que señalan, ya sabéis que en un estímulo discriminatorio el
condicionamiento operante es un estímulo que señala la presencia,
perdón, la presencia no, la disponibilidad de un reforzador. Y en el eje
vertical, aquí no se ve muy bien pero lo tenéis en el libro, hay una
especie de líneas oblicuas pequeñitas que hay cada vez que, en
determinadas respuestas. Este es el momento en el que se ponen o se dan los
reforzadores. Cada vez que aparece un reforzador se marca con una especie
de línea oblicua en el eje de las respuestas o dentro del marco de las
respuestas. Así sabemos en qué momento han aparecido los reforzadores.
Esto nos puede servir también para los programas de intervalo, saber cuál
es la respuesta reforzada. O los programas de razón, saber el tiempo que
pasa entre cada uno de los reforzadores. También los intervalos ya lo
sabemos por adelantado. Así que, ¿qué tenemos? Pues una curva, una
función acumulativa que refleja la tasa de la respuesta, es decir, la
velocidad con la que crece el número de respuestas. Con qué velocidad o
cuántas respuestas se han dado. Doy por hecho que en estos días estéis
muy familiarizados con este tipo de curvas acumulativas, logarítmicas,
exponenciales, etc. Y que estaréis harto de verlas. Muchas de las que
vamos a ver aquí son muy parecidas a las que estáis viendo en estos
días. Así que seguramente ahora os resulten un poquito más familiares
que si los hubiésemos visto hace un año o seguramente hace unas semanas.
Porque en el fondo esto simplemente nos da el número de resultados. De
respuestas acumuladas o de casos acumulados, que en este caso son
respuestas. Bueno, pues vamos a ver cada uno de los programas. Vamos a
empezar con los programas de razón. Y empezamos con el programa de razón
fija. Ya sabéis, ya lo hemos definido. El programa de razón fija se
refiere a un programa en el que el número de respuestas que se requieren
para que se dé el reforzador siempre es el mismo. Y siempre se especifican
de la misma manera. Para saber que estamos en un programa de razón fija
ponemos las siglas RF. Seguidas del número de respuestas, es decir, del
requerimiento del programa. RF50 sería un programa en el que para obtener
el reforzador necesitamos dar 50 respuestas. Imaginaos la típica ratita
con una palanca para obtener comida. Tiene que pulsar 50 veces para obtener
esa bolita de comida. Y además siempre tendrá que pulsar 50 veces. No en
torno a 50 veces, sino siempre exactamente tras el número 50 aparecerá el
reforzador. ¿Por qué se caracteriza este programa? Yo os he dicho que los
diferentes programas dan lugar a diferentes formas de responder. Es una de
las curiosidades de este tipo de programas. Cada uno hace que los sujetos
respondan de una manera diferente. En general, los programas de razón dan
tasas más elevadas. Y en función de que sean fijas o variables, cada uno
de los programas da patrones diferentes. Más que tasas, patrones. ¿Qué
ocurre en este caso? Bueno, pues los programas de razón fija se
caracterizan por dos cosas. Primero. Por una tasa elevada de respuestas
desde el principio o en el primer ensayo. Una tasa muy elevada de las
respuestas. Y después, cuando se da el reforzador o cuando aparece el
reforzador, hay una pausa. Una pausa post reforzamiento. Es decir,
generalmente se responde muy rápido hasta obtener el reforzador y de
repente, tras obtener el reforzador, se para. Llevad un experimento real.
En un programa de razón fija como este, la rata pulsaría muy rápido
hasta que obtiene el reforzador. Y una vez que lo obtiene, de repente deja
de pulsar durante un tiempo. Y después vuelve a pulsar muy rápido hasta
que lo obtiene y deja de pulsar. Este tipo de comportamiento se denomina
break and run. En inglés, parar y correr. Es decir, el típico
comportamiento de estos programas es dar muy rápido, responder muy rápido
y parar en cuanto se obtiene el reforzador. Y después volver a correr otra
vez. Es decir, se para, se corre muy rápido para obtener el reforzador lo
antes posible y se vuelve a parar. Una escalada de respuestas, una ráfaga
de respuestas seguida de una parada. Generalmente la tasa de respuestas, es
decir, lo rápido que crece esta curva, la pendiente de esta curva, es más
rápida cuanto menor sea el requerimiento. Un programa RF5 dará lugar a
una tasa más elevada de respuesta que el que hemos puesto antes, un RF50.
Además, esta razón, es decir, este requerimiento del programa determina
la duración de la pausa. En un RF5 la duración de la pausa será más
corta. En un RF50, aparte de tener una menor tasa, la duración de la pausa
será mayor. Eso es lo que se denomina tensión de la razón. Cuanto mayor
es la razón de respuestas, cuanto mayor es el requerimiento, mayor es la
pausa. Mayor es la tensión entre responder y parar. Hasta que puede llegar
un momento en el que si los requerimientos aumentan mucho, ni siquiera se
llega a responder. Pensad que si el requerimiento es excesivo para obtener
un reforzador, el animal puede estar forzado a no responder porque el
esfuerzo para conseguir un reforzador sea más que el beneficio de
obtenerlo. Así que se produce una tensión de la razón. Una lucha entre
responder para obtener un reforzador o no gastar la energía para obtener
ese reforzador. Vale, ya tenemos esto. Generalmente con razones bajas
tenemos una tasa muy alta. También con razones altas, pero lo que las
diferencia es primero la velocidad, la tasa más elevada en razones
pequeñas y la magnitud de la pausa tras el reforzador. Pero en todos los
casos el patrón es siempre el mismo. Correr, parar, correr, parar, correr,
parar. Ya tenemos la razón fija. Vamos con la razón variable. Bueno,
antes de nada se me ha olvidado deciroslo también al principio. En este
capítulo también tenéis la razón variable. Aquí tenéis vídeos,
¿vale? En los documentos que os he pasado tenéis todos los vídeos de
cada uno de los programas. Cada uno tiene un ejemplo distinto. Bueno, creo
que son todos sacados de YouTube. Algunos son de experimentos reales, otros
son de experimentos más caseros. Pero pueden servir para haceros una idea
de cómo funciona el asunto. Aquí tenéis un vídeo de cómo funciona la
razón fija en un experimento. Bueno, vamos con el siguiente. Programas de
razón variable. Ya sabéis, aquí el número de respuestas requeridas para
que te den el reforzador para obtener... Vamos a seguir con nuestro ejemplo
de la palanquita y la bolita. Aquí el número de respuestas que se
requieren varía de manera sistemática o de manera azarosa en torno a un
número promedio. Es decir, si antes para razón fija teníamos un programa
que era RF50, ahora lo pondremos de esta manera. RV50. Es decir, el número
de respuestas varía en torno... A este número. A veces serán 53, otras
47, otras 52, otras 60... Variará en torno a ese número. La forma de
variar lo decide el experimentador. Pero siempre, si hacemos la media de
respuestas, saldrá 50. ¿Por qué se caracteriza este programa? Bueno,
pues es el programa que consigue una tasa de respuesta más elevada de
todos. En este caso los sujetos responden de una manera muy, muy, muy
rápida. Y además de una manera constante. No hay pausas tras el
reforzamiento. Fijaros en la línea. La línea es recta prácticamente y
con una tasa elevada constantemente. Sin pausas después de tener los
reforzadores. En este tipo de programas, una rata en un programa de razón
variable 30, 50... Lo que queráis. Lo único que hace es responder sin
parar. En algunas ocasiones, y si el requerimiento no es muy alto, puede
llegar incluso a los límites de la capacidad física del sujeto. En este
caso de la rata que tenemos. Eso. Eso es. Es una máquina de tragaperras.
Exactamente. Eso os iba a contar ahora. Ahora os cuento algo sobre esto.
Llega a límites tan altos que a veces el sujeto ni siquiera es capaz de
responder más rápido. Es decir, responde tan rápido como puede. Y
además la perseverancia. Es decir, la razón entre cuando yo estoy dando
respuestas y cuando no. El tiempo medio de dar respuesta. Y no es muy
elevado. Es decir, se está constantemente sin parar dando respuestas. Y
como bien decís. Esto es muy similar. O no muy similar. Sino que es el
programa que se encuentra, valga la redundancia, programado en las
máquinas tragaperras. Las máquinas tragaperras funcionan con programas de
razón variable. Es decir, el número de respuestas necesarias. El número
de veces que tengo que darle a la palanquita o al pulsador. Y echar dinero
antes, por supuesto. Para que me den un premio. Tiene... ¿La gráfica? Los
reforzadores no parecen estar alrededor de una razón parecida. No, porque
en este caso. Cuando aparecen los reforzadores. No está muy bien hecho el
gráfico. Es verdad que es un poco confuso. Pero fijaros. En este caso los
reforzadores no aparecen siempre al mismo tiempo. A veces pueden aparecer
antes y otras después. Dependiendo de la velocidad a la que tú completes
la razón. Es verdad que aquí como parece todo tan similar. La tasa de
respuesta debería haber un espacio similar entre ellos. Pero puede ser
que... Imaginaros. Si yo respondo así de rápido. El reforzador va a
aparecer muy pronto. Si luego cambia mi tasa. El reforzador va a tardar
más en aparecer. Si luego vuelve a subir. Va a aparecer también más
rápido. Eso puede ocurrir en un programa de razón. Los reforzadores no
aparecen siempre cada el mismo tiempo. Porque dependen del número de
conductas. El número de respuestas. Pero es verdad que aquí lleva...
Sobre todo hay uno que lleva error. Que es este de aquí. ¿Verdad? Este
que aparece tan junto después de este. Parece raro que haya dado las
respuestas necesarias. ¿Vale? Me parece muy, muy, muy raro que dé las
respuestas necesarias. Yo creo que este... O se han equivocado en la
gráfica. ¿Vale? En el dibujo. O querían ejemplificar el hecho de que se
pueden dar respuestas muy rápidas. Y que los reforzadores aparezcan antes.
Tener en cuenta eso. Que no tienen por qué aparecer siempre al mismo
tiempo. Porque depende de cómo de rápido des las respuestas. Así que
puede haber variaciones. Aunque si uno ve este tipo de gráfica. Lo primero
que piensa es que van a aparecer espaciados en el tiempo. A un ritmo más o
menos igual. Porque la tasa de respuestas parece muy estable en este caso.
¿Vale? Pero si en este caso esto choca un poco. Tenerlo en cuenta. Tener
en cuenta que este gráfico no está muy bien diseñado. Y a la vez que eso
puede ocurrir. Que los reforzadores no aparezcan siempre al mismo tiempo.
De hecho, no tienen por qué ocurrir en el mismo tiempo. En un programa de
razón variable. Bueno. Como os contaba. Las máquinas traga perros
funcionan de esta manera. Se premian una conducta de cada un número
determinado de conductas. Pero que no es siempre la misma. Sino que varía
alrededor de un punto. Varía alrededor de un número determinado. Por eso
habréis escuchado muchas veces. La expresión de muchos que juegan. Sobre
que la máquina está caliente. Que la máquina está a punto de dar
premio. Porque al final uno cuando juega muchísimo a este tipo de
máquinas. Ya sabe más o menos los intervalos que van a pasar. O el
número de conductas aproximado. Que es necesario para que aparezca el
reforzador. Así que cuando llevas mucho tiempo jugando. O cuando ya has
hecho muchas maneras. Sabes que dentro de poco saldrá. Podrá tardar más
o podrá tardar menos. Pero siempre saldrá. Y como ocurre con los
animales. En los humanos. Este tipo de programas llevan a una conducta
compulsiva. A responder de manera compulsiva. Una persistencia muy elevada.
Son muy adictivos. Igual que ocurre en los animales. Bueno, esto es el
típico. De hecho es el programa que da lugar a las mayores tasas adversas.
De respuesta. Y al mayor nivel de adicción. Y como no hay pausa. Después
de obtener el reforzamiento. Se continúa jugando constantemente. A pesar
de haber obtenido el reforzador. Bueno, ya tenemos los dos primeros
programas. Los programas de razón fija. Y razón variable. Ya podemos ver
una diferencia entre ambos. Podemos ver una diferencia que no se refiere a
los programas de razón. Sino a los programas fijos y los variables.
Habéis visto que los fijos tienen una pausa. Sin embargo. El variable no.
Vamos a ver con intervalo qué ocurre. Porque va a pasar algo parecido.
Bueno, aquí tendréis otro vídeo. Ejemplificando cómo sería un programa
de razón variable. También bastante sencillo. Lo podéis ver
tranquilamente. No nos vamos a detener mucho más a explicarlo. Vamos con
los programas de intervalo. En este caso. Lo que hacemos es mantener un
tiempo. O requerir un tiempo. Para que aparezca el siguiente reforzador. Se
mantiene constante ese tiempo. Cómo se. Indican. Bueno, pues se indican
con una I. Una F. Y el número que indica el intervalo. Que tiene que pasar
para que podamos obtener un reforzador. En este caso un programa IF20. Se
refiere a que tenemos un programa de intervalo fijo de 20 segundos. Es
decir. Que para poder obtener un reforzador. Tienen que haber pasado 20
segundos. Desde la aparición del anterior reforzador. Y la primera
respuesta. Que se dé tras ese intervalo. Será. La que sea reforzada.
Bueno. Acordaros de los programas de razón fija. En los programas de
razón fija teníamos una pausa. Que llamamos break and runner o algo así.
Pues fijaros aquí. Aquí tenemos otra pausa. También tenemos una pausa
post reforzamiento. Igual que ocurría antes. Los sujetos responden. Y
después paran después que aparece el reforzador. Pero. Se diferencian dos
cosas respecto a la razón fija. Primero, la tasa. La tasa de respuesta es
más baja. La tasa de respuesta de un programa de razón fija. Es más alta
que uno de intervalo. De hecho, en general. Los programas de intervalo
tienen tasas de respuesta más bajas. Que los de razón. Los de razón
siempre dan lugar a tasas de respuesta más elevadas. Pero además. La
forma de la pausa es distinta. Esta forma de pausa se denomina festoneado.
Y viene a ser algo como una parada en seco. Después de obtener el
reforzador. Pero luego no aparece esa carrera rápida. Como aparece en el
programa de razón fija. Sino que aquí poco a poco se va acelerando la
respuesta. Según va pasando el intervalo. Los sujetos empiezan a pulsar
cada vez más rápido. Empiezan despacio. Cada vez más rápido. Hasta que
según nos acercamos al final del intervalo. Aparece una rápida respuesta.
Fijaros. Esto es algo muy curioso. Porque parece. Según lo que vemos
aquí. Que los sujetos. Los organismos. Son capaces de discriminar el
tiempo. Parece que son capaces de saber cuándo va a aparecer un
reforzador. De contar el tiempo. Entre reforzadores. Son capaces de
discriminar. De hacer esa discriminación final del tiempo. Que os aparece
por la forma de las respuestas. Cuando obtienen un reforzador paran. No
parece que haya mucha probabilidad de obtener reforzadores. Si yo sigo
pulsando. Pero según va pasando el tiempo. Voy dando algunas pulsaciones.
Espaciadas. Y cada vez más cercanas. Cada vez más cercanas. Según se va
acercando al final del intervalo. Cada vez mucho más cercanas. ¿Por qué?
Bueno, parece que estoy discriminando el tiempo. Parece que veo que está
llegando al final del intervalo. Y sé que en algún momento se me va a dar
el reforzador. Cuanto más rápido responda. Más rápido obtendré el
reforzador. Porque si tardo mucho en responder. Puede que el reforzador ya
esté disponible. Pero yo todavía no haya pulsado. Así que cuando se
esté acabando el intervalo. Lo más conveniente es estar pulsando
constantemente. Para obtener el reforzador lo antes posible. Por eso ese
patrón de festoneado de parada. Y aceleración progresiva. No es lo mismo
que el break and run. Que es una parada en seco. Y una ráfaga de
respuestas muy rápida. Para obtener el premio antes posible. Luego
también veremos algo más sobre esto. Porque hay diferentes cuestiones.
Que explican por qué ocurren estos diferentes tiempos. Entre respuestas. O
diferentes tasas de respuesta. Bueno, ya tenemos el tercer programa. Vamos
con... Aquí tenéis el vídeo de una paloma. También en un intervalo
fijo. Y cómo es su comportamiento. También se ve muy bien cómo se para.
Y después poco a poco se va acelerando la respuesta. Y por último.
Intervalo valiable. De nuevo, igual que pasaba con el intervalo fijo. Las
tasas de respuesta son en general menores. Que las tasas de respuesta para
los programas de razón. Y también podéis ver. La característica que os
hablaba. En cuanto a programas fijos y variables. Mientras que los
programas fijos. Dan lugar a pausas post reforzamiento. Ya sea el break and
run o el festoneado. Los programas variables. Tienen o suelen tener. Tasas
de ejecución continua. No hay paradas tras cada reforzador. La ejecución
suele ser muy continua. Aquí sí que hay un error en la gráfica. Me
imagino que si lo habéis visto antes. Aquí sí que lo tenéis que ver.
Hay un error muy claro en la gráfica. Hay un reforzador que no debería
estar ahí. Así que me imagino. Que en el anterior también sería un
error. Fijaros aquí. Aquí estamos hablando de un programa de intervalo.
Variable. Pero aquí sin embargo está apareciendo muy junto. Es muy raro
que en un programa de intervalo variable. Te pongan un reforzador tan
junto. Es decir. El momento en que se ponen los reforzadores. No es siempre
el mismo. Pero varía en torno a un punto. Así que si tenemos un programa
de intervalo variable. Pongamos 20. Quiere decir. Que obtendremos un
reforzador igual que antes. Por la primera respuesta que ocurra. Tras el
final del intervalo. El problema aquí es que el intervalo no es siempre el
mismo. A veces el intervalo será 21 segundos. A veces será 19. Etcétera,
etcétera. Pero la media siempre será. De 20. Aquí sin embargo lo han
puesto muy junto. Como si el tercer reforzador. Apareciese como 5 segundos
después del primero. Así que es muy poco probable. Igual que en el caso
de razón variable. Que esto sea así. El gráfico no está muy bien
representado. Por lo menos si querían ejemplificar ese hecho. De que no
siempre aparecen justo en el mismo tiempo. No les ha quedado aquí muy
bien. Igual que en el otro. Se refuerza la primera respuesta. Tras el final
del intervalo. La única diferencia es que al final del intervalo. No está
muy claro. No siempre es el mismo. Varía en torno a un punto. Así que
¿qué hacen en este caso los sujetos? Bueno pues la mejor estrategia
aparece. Como no sé muy bien cuando va a acabar el intervalo. En vez de
parar y luego ir a hacer. No, no paran nunca de dar respuesta. Pero le dan
una tasa más baja. Que en los programas de razón variable. Fijaros.
Imaginaos vosotros en una situación como esta. Vosotros sabéis que
tenéis un pulsador. Y que cada cierto tiempo. Os van a dar. Pongamos una
moneda como premio. Pero realmente no sabéis el tiempo. Que pasa entre uno
y otro. Os podéis hacer una idea. ¿Cuál sería la manera más fácil de
obtener el reforzador? Sin tener que cansaros demasiado. Y sin perder
reforzadores. Porque si tú sabes que te van a dar una moneda. En torno a
30 segundos. Si tú te tiras mucho tiempo sin responder. A lo mejor estás
perdiendo monedas. Podrías obtener más monedas. Imagínate que estás un
minuto sin responder. Pues cuando le des obtendrás una moneda. Pero si le
hubieses dado 30 segundos antes. Si hubieses reiniciado el intervalo antes.
Y podrías conseguir más. Así que ¿qué haríais vosotros? Para intentar
conseguir el máximo número de monedas. Sin tener que cansaros demasiado.
O llegar a los límites de extenuación física. Bueno pues eso es lo que
hacen los animales. De forma constante. Yo me pondría al lado del
pulsador. Iría pulsando cada cierto tiempo. No muy rápido pero tampoco
muy lento. Cada poquito tiempo iría dándole para ver si me cae algo. Así
estoy todo el rato. Le doy un poco. Le doy otro poco. De manera constante y
despacito. Para ver que cae. Y es la manera en que responden los animales.
Es la forma de optimizar la consecución de reforzadores. Si cogéis todo
en conjunto. Si cogéis los cuatro programas en conjunto. Lo que están
haciendo los animales en los experimentos. Es optimizar la obtención de
reforzadores. Cuando tienen un intervalo fijo. La manera más rápida es
pulsar constantemente sin parar. Pero eso lleva a la extenuación. Ha
llevado un coste muy evidente. Lo mejor es parar un poco. Coger aire. Poder
comerte el reforzador que acabas de obtener. Y seguir pulsando de la manera
más rápida posible. Para obtener otra. En la razón variable. Como no
conocemos. La manera en que van a caer. Porque no sabemos si van a caer
antes o después. Tenemos que responder muy rápido. Todo lo rápido que
podamos. Y con las menores pausas posibles. Para conseguirlo lo antes
posible. En el intervalo fijo. Lo mejor es. Como más o menos conocemos el
intervalo. Responder cuando sepamos que se va a acabar. Y luego parar
porque no nos hacen falta las respuestas. Y en este. En el que tampoco
conocemos muy bien el intervalo. Pero sabemos que tiene que pasar un
tiempo. Lo mejor es ir probando poco a poco. Para ver cuando caen los
reforzadores. ¿Por qué los programas de razón. Tienen una mayor tasa de
respuesta? Por algo que vamos a ver un poquito más tarde. Que ya podéis
ir intuyendo. En los programas de razón. La cantidad de reforzadores.
Está directamente relacionada con el número de respuestas. Cuanto más
respondo. Más obtengo. En los programas de intervalo la cosa no está tan
clara. Aunque hay cierta relación ahora lo veréis. Pero la cosa no está
tan clara. Que en principio podéis pensar da igual la tasa que responda.
Si el reforzador siempre cae en un intervalo. Sí pero sí cierta
influencia de las respuestas. Lo vamos a ver un poquito más adelante.
Bueno tenéis otro vídeo. En este caso también de una paloma. Sobre el.
Sobre el intervalo variable. Exactamente igual que los otros. Veréis como
cuando hay un intervalo variable. La tasa de respuesta es muy constante. No
varía mucho a lo largo. Y tampoco es demasiado alta. Tiene una manera de
optimizar los reforzadores. Bueno qué diferencias hay entre los programas.
Las hemos ido diciendo a lo largo de. Bueno mientras hemos estado viendo
algunos. Pero aquí tenéis resumidas. Cuáles son las principales
diferencias. Entre los diferentes programas. Tanto entre programas de
razón y de intervalo. Como entre programas fijos y variables. Principal
diferencia. Y variables. Bueno ya lo hemos visto no. En los fijos aparece
una pausa. Tras cada reforzamiento. En los de razón fija se llama. Break
and run. En los programas de intervalo fijo. Se llama festoneado. Acordaros
de ello. Y la forma de la pausa es distinta. Una pausa brusca seguida de
una ráfaga. Y una aceleración progresiva. De las respuestas. Cuál es la
diferencia fundamental. Entre razón fija. E intervalo fijo. Pues el tipo
de pausa. En la razón fija pasamos de una pausa absoluta. A una tasa muy
elevada. En el intervalo fijo pasamos de una pausa. A una aceleración
progresiva. Cómo se modifica esa duración de la pausa. O en qué influye.
En la duración de la pausa. Pues los requisitos. Cuanto mayor sea el
requisito. De conductas es decir. De razones. Número de respuestas que
tengo que dar. O mayor sea el intervalo. Mayor requerimiento de tiempo. O
mayor cantidad de tiempo tiene que pasar. Más se aumenta la pausa. Más
tiempo estamos sin responder. Son los programas fijos. Que son los que
tienen una pausa. Curiosamente cuando hablamos de razón fija. Tiene que
ver. Parece que tiene que ver más. La duración de esta pausa. Tiene que
ver más con la frecuencia. Con la que ocurren los reforzadores. Fijaros
que ambos están relacionados. Cuanto más alto es el requisito. De un
programa de razón fija. Pongamos por ejemplo 100. No sólo mayor número
de respuestas. Tengo que dar. Sino que más tiempo pasa entre los
reforzadores. Porque por muy rápido que responda. Voy a tardar más en dar
100 pulsaciones. Que 50 pulsaciones. Así que. Y se incrementan las dos
cosas. De manera lineal. Tanto el número de respuestas. Como el tiempo que
pasa entre los reforzadores. Tiene más que ver. Con el programa siguiente.
Que con el anterior. Esto lo vamos a ver en los programas múltiples.
Fijaros que quiere decir esto. En este caso. Lo vamos a ver también un
poquito después. Pero voy adelantando algo. Uno puede hacer una cosa. Que
es coger un programa de razón. Y simularlo. O ponerle las mismas
características a un programa intervalo. Imaginaros que tenemos un
programa de razón 100. Razón fija 100. Podemos ver como lo hace un
animal. Un organismo. Una ratilla con su palanca. Como hemos visto antes.
Ver cuanto tarda en obtener los reforzadores. Y después me cojo un
programa de intervalo fijo. Que tenga como requisito de intervalo. El mismo
tiempo que se tarda. En dar estas 100 respuestas. Y puedo ver que ocurre.
Con las pausas. Con este programa de intervalo. Y lo que ocurre. Es que
parece que las pausas se asemejan mucho más. Entre ambos programas. Cuando
tienen que ver con el tiempo que aparecen. Y no con el número de
respuestas. Y también. Tiene que ver más con el programa siguiente.
Cuando hacemos programas múltiples. Imaginaros. Imaginaros que tenemos.
Dos programas. Uno de RF20. Y otro de RF50. Luego lo vamos a ver. Pero que
se van alternando. Así que yo doy 50 pulsaciones. A una palanca y obtengo
un reforzador. Y ahora tengo que dar 20 pulsaciones. Bueno, pues la tasa. Y
la forma. De la parada que se hace. Tras cada reforzador. Tiene que ver
más con el programa que viene después. Que con el programa en el que
estoy. Imaginaros que estoy en RF50. Doy 50 pulsaciones. Para obtener el
reforzador. La pausa o lo que va a durar la pausa. Viene determinado por el
programa que viene después. No por el que acabo de hacer. A eso se
refiere. Bueno. Esto también lo hemos visto. Es una de las reglas
básicas. De los diferentes programas de reforzamiento. Cuando igualamos.
Las tasas. Y patrones de reforzamiento. La tasa de respuesta. Es mayor en
los programas de razón. Estos son los sistemas. Los experimentos de
acoplamiento. Que os acabo de contar. Un acoplamiento es lo que os he dicho
antes. Es decir. Es poner un programa de intervalo. Que quede igualado a un
programa de razón. Por ejemplo aquí. Que se ha hecho en este caso.
Tenemos un programa de razón. No sé lo que pone aquí. Imaginaros un
programa de razón 30. Y hacemos a una rata. Hacer este programa de razón
fija 30. Y vemos el tiempo que tarda. Entre cada uno de los reforzadores.
Luego cogemos. El momento en el que apareció cada uno de los reforzadores.
Y lo aplicamos como un programa de intervalo. A otra rata. Y vemos que con
la misma distribución. De reforzadores que ocurría. En un programa de
razón. Es decir las condiciones son las mismas. Y obtiene el mismo número
de reforzadores. La tasa de respuesta es más baja. En el programa de
intervalo. Fijaros. Esto está relacionado con lo que os había dicho
antes. Con que en programas de intervalo. La tasa de respuesta. Es decir la
velocidad a la que yo doy una respuesta. Influye muy poquito. En la
frecuencia en que yo obtengo reforzadores. Sin embargo en programas de
razón. Está directamente relacionado. Cuanto más rápido respondo. Más
rápido obtengo los reforzadores. Esa es una de las razones. Si no la
principal. Por la que los programas de intervalo. Dan lugar a tasas más
bajas. Porque no importa tanto cuantas veces responda. Yo voy a obtener
reforzadores igual. Sin embargo en la tasa de razón. Si quiero
reforzadores. Tengo que responder muy rápido. En el programa de intervalo
del ejemplo. No había una media de intervalo. No en este caso. Lo que se
hace es ajustar exactamente. Cuando aparecen los reforzadores del programa
de razón. Al momento en el que aparecen en el intervalo. Así que el
intervalo va variando. Simplemente se ajusta. Para que sean exactamente los
mismos momentos. Y así se pueden comparar ambos. Esto es simplemente para
comparar. Las tasas de respuesta entre dos programas. Uno de intervalo y
otro de razón. Bueno que ocurre en este caso. Luego vamos a ver alguna
cosa más sobre esto. Pero que ocurre en este caso. Porque los programas de
intervalo. Tienden a reforzar. Lo que se denominan. Tiempos entre
respuestas. Digo ya para que lo sepáis. Porque lo vamos a utilizar
bastante. Es tiempo entre respuestas. El tiempo que hay. Entre una
respuesta y la siguiente. Fijaros. No solamente en un programa de
reforzamiento. No solamente se puede reforzar. El que se dé una respuesta.
También queda reforzado. El tiempo que ocurre. Entre cada respuesta. Entre
cada una de las respuestas. Y fijaros en los programas de intervalo. En los
programas de intervalo. Lo que suele ocurrir. Es que solamente con dejar
pasar el tiempo. Hay más probabilidad. De que una respuesta sea reforzada.
Así que ¿qué se refuerza? ¿Qué se hace más probable? Tiempos entre
respuestas largos. Si responder muy rápido. No hace que yo obtenga
reforzador. Pero responder una vez. Y solamente dejar pasar el tiempo. Hace
que la siguiente respuesta. Sea más probable. Que yo obtenga un
reforzador. Eso hace que estos tiempos entre respuestas cortos. No sean
reforzados. Sean tiempos largos entre respuestas. Los que sean reforzados.
Por eso la tasa de respuesta es más baja. Si hay mayor tiempo entre
respuestas. La tasa global de respuesta. Sería más baja. Así que cuando
estamos en un programa de intervalo. Estamos reforzando. No sólo que se
dé la respuesta. Sino que el tiempo entre respuestas. Sea más espacial.
Sin embargo en programas de razón. No se refuerza nada en particular. Y si
algo se refuerza. Serían los intervalos cortos. Vamos a explicarlo
también. En un programa de razón. Imaginaos un programa de razón fija.
De razón fija 30. Lo que suele ocurrir. Ya habéis visto este patrón. Con
un break and run. Generalmente hay una pausa después del reforzamiento.
Pero justo antes. De obtener el reforzador. ¿Cómo son los tiempos entre
respuestas? Bueno pues son. Muy cortos. Así que ¿qué es lo que queda
reforzado? Queda reforzado el responder. De manera rápida. Y con tiempos
entre respuestas muy cortos. Eso es lo que refuerza. Si algo refuerzan. Los
programas de razón. Mientras que los programas de razón. Refuerzan
tercios cortos. Los programas de intervalo. Entre respuestas largas. Esta
explicación que os acabo de dar. Es lo que se denomina. Explicación
molecular. De los tiempos entre respuestas. Es decir. Relacionan los
tiempos entre respuestas. Con lo que ocurre en un momento concreto. Entre
una respuesta y la siguiente. O entre una respuesta. O entre un intervalo
entre respuestas. Y la aparición del reforzador. Como el reforzador
aparece de manera contigua. A momentos en los que la respuesta. O los
tiempos entre respuestas son muy cortos. Se refuerzan esos tercios. En el
de intervalo. Como el reforzador suele aparecer. Asociado a tiempos entre
respuestas largos. Bueno pues. Se refuerzan esos tercios largos. Veis que
eso no tiene que ver con momentos concretos. Por eso se llama. Explicación
molecular. En referencia a lo que ocurre en un momento concreto. Pero hay
una explicación alternativa. Una explicación. Que se llama explicación
molar. Y que tiene que ver con lo que vamos a ver ahora. Las funciones de
retroalimentación. Bueno. Primero vamos a ver la explicación alternativa.
En el fondo es muy similar. Solo que se refiere a patrones globales. A
patrones extensos. De reforzamiento. No solamente al momento concreto. O a
la respuesta concreta. Sino a como ocurre la contingencia. En todo el
intervalo de aprendizaje. Bueno. Que ocurriría en este caso. En los
programas de razón. Habría una correlación directa. Entre la tasa de
respuesta y reforzamiento. Es decir. Cuando el animal aprende. Observa de
manera general. Que cuanto más rápido responde. Es decir. Cuando los ter
son más bajos. Cuanto más rápido responde. Más cantidad de reforzadores
se obtiene. Sin embargo. En los programas de intervalo. Casi no hay ninguna
relación. Porque da igual lo rápido que responde. El reforzador. Aunque
tú respondas a la misma velocidad. Que en un programa de razón. El
reforzador no va a aparecer. Hasta que no pase el intervalo. Así que la
relación no es muy elevada. Así que se refuerzan los ter. Los tiempos
entre respuestas. Más elevados. Esto es lo que se llama. Una explicación
molar. Y tiene énfasis en la correlación. Que hay entre tus respuestas. O
entre el tiempo en tus respuestas. Y la obtención de reforzadores. ¿Qué
es una función de retroalimentación? Es una función que describe. Cómo
actúa el ambiente. O cómo ocurre un cambio en el ambiente. O cómo se da
un reforzador. O con qué frecuencia ocurre un reforzador. Cualquier
parámetro de un reforzador. En función de cómo haga yo. La respuesta. O
en función de algo. De algún parámetro de mi ejecución conductual. En
este caso. Estamos hablando de tasas. Es decir de la velocidad a la que
respondo. Y del número de reforzadores. Así que la función de
retroalimentación. Me describe cómo influye la velocidad. A la que yo
respondo. En la obtención. De un mayor o menor número. De reforzadores.
Fijaros aquí tenéis. Cómo sería una función de retroalimentación. Una
cosa importante. Aquí no asumimos. Que hay una variable independiente. Es
decir algo que cause lo otro. No es que. Mi respuesta cause la aparición
de los reforzadores. O que la aparición de reforzadores. Cause que cambie
mi tasa de respuesta. Simplemente es una correlación. Simplemente indica
la relación que hay entre ambos. Pero no se asume ninguna relación
causal. No es que yo responda más rápido. Y por tanto hay una mayor tasa
de refuerzo. Simplemente. Describe. Cómo. Una cierta característica del
ambiente. En este caso el número de reforzadores. Modifica a su vez. Una
cierta característica de mi ejecución. De mi respuesta. En este caso la
tasa de respuesta. Bueno. Cómo sería la función de retroalimentación.
De un programa Rf con n respuestas. Vamos a poner por ejemplo. Rf 20. No
sé si lo veis bien aquí. Me parece que sí. Que no se sale de la
pantalla. Hay momentos en los que si escribo en alguna de las pantallas.
Puede salirse de la vuestra. Aunque yo tengo una pantalla más grande.
Bueno pues tenemos un programa Rf 20. Bueno pues si os fijáis. La tasa de
reforzamiento. Es decir la tasa a la que yo. Obtengo. Una. Un reforzador.
Es igual. A la tasa a la que yo respondo. Es decir cuántas respuestas. Doy
por minuto. Partido del requisito. De ese programa. Del número de
respuestas. Que necesito dar por ese programa. Si el requisito de este
programa. Es 20. Y yo doy 10 respuestas por minuto. Tendré una tasa de 0,5
reforzadores. Por minuto. La tasa de reforzamiento. Será de 0,5. Si mi
tasa de respuesta. Es de 20 respuestas por minuto. La tasa de reforzamiento
será 1. Es decir un reforzador por minuto. Y así sucesivamente. Veis como
la tasa a la que yo recibo reforzadores. Está directamente relacionada.
Con la tasa a la que yo respondo. Puede ser por segundo, por minuto, por
hora. Como queráis. Depende también de la propia conducta. Y de cómo
esté programado el experimento. En el fondo es lo mismo. Si lo dividís en
360. Tenéis la tasa por segundo. Realmente no es relevante. Se puede. Eso
es en función del tiempo. Puede ser cualquier tiempo. Primero abajo
estaría. El número de respuestas que se requieren. Y arriba estaría el
número de respuestas. Que doy por unidad de tiempo. Así que dependiendo
del número de respuestas. Que doy por unidad de tiempo. Obtendré tantos
reforzadores en ese tiempo. No oscila entre 0 y 1. Porque la tasa de
reforzamiento puede ser mayor. Imaginaros. Si yo doy. 50 respuestas. O 60
respuestas. Por minuto. La tasa de reforzamiento será 3 reforzadores. Por
minuto. No es una proporción. Sino simplemente nos indica. Cuantos
reforzadores obtengo. Por unidad de tiempo. Si yo respondo mucho más
rápido. Mayor será el número de reforzadores que obtenga. Por eso. En
los programas de razón. Tanto fija como variable. Es un cociente. Entre el
número de respuestas que doy por unidad de tiempo. Y el número de
respuestas que se requieren. Para obtener un reforzador. Es muy sencillo.
Cuantas más doy. Más obtengo por minuto. Cuanto más rápido de al
pulsador. Más monedas obtendré en cada minuto. Si yo le doy. Son cada 30
respuestas. Si yo soy capaz de dar 300 veces. En un minuto al pulsador.
Obtendré 10 monedas en un minuto. Si solo soy capaz de dar 150. Solo
obtendré 5. Así que hay una relación directa entre. Con qué velocidad
respondo. Cuantas veces respondo. Y el número de reforzadores que obtengo.
Esto para los programas de razón. Pero que pasa con los programas de
intervalo. Bueno. Pues aquí la cosa es mucho más difícil. Porque la
función que sale. Es algo del tipo que tenéis aquí. Una función
hiperbólica. Fijaros. Aquí tenemos las respuestas por minuto. Cuantas
respuestas doy por minuto. Y aquí tenemos los reforzadores. Os he dicho
antes. Que no hay una relación clara. Entre el número de respuestas que
doy por minuto. Y el número de reforzadores que obtengo. En un programa de
intervalo. Y uno lo primero que puede pensar es. No, no es que no haya
mucha relación. No hay ninguna. Si el reforzador va a caer solamente al
final del intervalo. Da igual como yo responda. Siempre obtendré lo mismo.
Bueno. Pues eso no es así realmente. Porque lo que sí que ocurre. Es que
los cambios. Cuando la tasa de respuesta es muy baja. Afectan mucho. Pero
no a tasas altas. Vamos a intentar explicar. Imaginaos que tenemos un
programa de intervalo fijo. Que pongamos. 10 segundos. Intervalo fijo de 10
segundos. Esto quiere decir. Que se reforzará la primera respuesta. Una
vez transcurridos 10 segundos. Pero imaginaros que yo estoy dando una
respuesta. Cada 30 segundos. Yo respondo una vez. Cada 30 segundos. Así
que. Termina el primer intervalo de 10 segundos. Pero yo no respondo hasta
20 segundos después. Así que. ¿Qué estoy obteniendo en este caso? A
pesar de que yo podría obtener. Según este programa de intervalo. Podría
obtener hasta 6 reforzadores por minuto. ¿Cuántos estoy obteniendo? Con
una respuesta cada 30 segundos. 2. Reforzadores por minuto. Estoy perdiendo
reforzadores. Eso es. Si yo aumento mi tasa de respuesta. A una respuesta
cada 20 segundos. Obtendré. 3 reforzadores por minuto. Y si. 1 cada 10
segundos. Ya obtendré el máximo 6 reforzadores. ¿Qué quiere decir esto?
Que cuando mi tasa de respuesta es muy baja. Aumentarla. Aumentará el
número de reforzadores. Pero según voy aumentando. La tasa de respuesta.
Llega un momento en que por mucho que la aumente. Ya no va a haber más
reforzadores. Al principio con tasas bajas si hay una relación. Pero luego
ya da igual. Con cuanto responda. Una vez que ya estoy respondiendo. 6
veces. Por minuto. Porque sería cada 10 segundos. Como el programa es cada
10 segundos. Una vez que estoy respondiendo 6 veces por minuto. Da igual
que yo responda 6. O que responda 100. El número de reforzadores va a ser
el mismo. Una vez que llego a este límite. Eso es una función
asintótica. Una vez que llego a este límite. La función ya no crece
más. Ya no tengo más reforzadores. Así que en una parte de la función.
Incrementos en mi tasa de respuesta. Llevan incrementos en la función de
reforzamiento. Pero ese tiene un límite. Tiene una asíntota. Así que no
puedo crecer. Por mucho que yo aumente mi número de respuestas. No puede
crecer por encima del programa. Que yo he formulado. ¿Qué quiere decir
esto? Que en general este tipo de programas. Dan lugar a mucha mayor
variabilidad entre sujetos. Y a que ocurran más. Más situaciones de
superstición. ¿Os acordáis de esa situación? En la que no dependía de
la conducta del sujeto. Sino que simplemente se demostraban. O aparecían
reforzadores. Sin que tuvieses que hacer nada. El hecho de que aquí ocurra
eso. No eso exactamente. Sino que aquí en este caso. Los reforzadores
aparecen con una respuesta. Justo después de un intervalo. Da lugar a que
haya una mayor variabilidad. Porque muchas de las respuestas. Que se
suponen deberían dar reforzador. No dan lugar a ese reforzador. Porque
todavía no ha acabado el intervalo. Así que otras respuestas pueden
aparecer. Que se hagan contingentes. O que aparezcan de manera casual. Sí.
Es más frecuente en los programas de intervalo. Simplemente por esa
razón. Porque cuando tú quieres reforzar una respuesta. De presión de
una palanca. Y resulta que tienes un programa de intervalo de 30 segundos.
Muchas de las respuestas a esta palanca al principio. No serán reforzadas.
Sin embargo puede aparecer. De manera espuria otra conducta. Que justo
aparezca después del intervalo. Y que haga que tú presiones esta palanca
de otra manera. Por ejemplo dando con un ala. En vez de darle con la pata.
O en una rata dándole con el hocico. Y que esa respuesta que a lo mejor
tú no pretendías. O algún otro movimiento. Que tú has hecho justo a la
vez. De la respuesta que estás dando. Se empiece a asociar también a la
petición. Sobre todo teniendo en cuenta las diferencias. Que hay entre
superstición. Que simplemente sería cuando no se controla. O cuando la
obtención del reforzador. No está controlado por la propia conducta. Pero
nosotros creemos que sí. Y esto que en este caso sí está controlado por
la conducta. Pero lo más importante es que en este caso. La variabilidad
en el aprendizaje. Es mucho mayor. Mientras que los programas de razón. Se
aprende muy rápidamente cuál es la conducta que se pide. Y se realiza con
una mayor. Sí hay muchos ejemplos en humanos. Muchísimos ejemplos. De
hecho gran parte de estos programas. Y de todo lo que se ve en aprendizaje.
Luego se aplica. Sobre todo en educación. Y los programas educativos. Que
tenemos en la actualidad. Son muchos herederos de cómo se aplican este
tipo de programas. De hecho Skinner tuvo una influencia. En el aprendizaje
humano. Y en la educación tremenda. Sobre todo en la forma. En la que es
pedagógico obtener premios y castigos. Sobre todo premios. Porque estaba
totalmente en contra de castigos. Y otras muchísimas aplicaciones. Y
también en la terapia. Vais a ver muchísimos ejemplos. Aplicaciones en
humanos de esto. Durante toda la carrera. En terapia cognitivo conductal.
Os vais a hartar de ver programas de este tipo. Ya tenemos las funciones.
De retroalimentación. Vamos a ver algo. Relacionado. Hemos visto ya lo que
significa el TER. Que es el tiempo que hay entre respuestas. El tiempo
entre que se da una respuesta. Y se da otro. Y hemos visto también. Que no
solo es posible. Reforzar una respuesta concreta. Sino que es posible
reforzar. Los diferentes. Tiempos entre respuestas. Reforzar el que se
responda más rápido. O más lento. Es decir. Pueden enseñar los
animales. No solo a responder de una determinada manera. Para obtener un
premio. Sino a responder más rápido o más lento. Para poder obtener ese
premio. O para optimizar la obtención de esos premios. De esos
reforzadores. Así que puedo. Reforzar TERs largos y TERs cortos. ¿Cómo
se hace esto? El diseño básico. Es elegir un tiempo. Vamos a poner 20
segundos. Y lo que voy a hacer es reforzar tiempos de respuesta. Más
largos que 20 segundos. Imaginaos que el 20 segundos está aquí. O tiempo
de respuesta. Más cortos que 20 segundos. ¿Cómo puedo hacer esto? Tengo
dos tipos de programas. El reforzamiento. Esto significa. Reforzamiento
diferencial de tasas bajas. Y esto es el reforzamiento diferencial. De
tasas altas. ¿Qué hago en el reforzamiento diferencial de tasas bajas?
Bueno. Pues refuerzo una respuesta. Solo si ha transcurrido un tiempo
determinado. Desde el anterior. En este caso. Imaginaos que pongo 20
segundos de tiempo límite. Vale. Pues solo voy a reforzar. Solo caer a una
bolita de comida. Si pulso la palanca. Si han transcurrido más de 20
segundos. Desde que di la última respuesta. Ojo. Esto no es un programa de
intervalo. No son 20 segundos desde que obtuve el reforzador. En un
programa de intervalo. Significa que puedo obtener un reforzador. Cuando
doy una conducta. O si desde que se obtuvo el último reforzador. Han
pasado 20 segundos. Es decir. Tras la primera conducta. Cuando han pasado
20 segundos. Desde la obtención del último reforzador. Cae el reforzador.
Se reinicia el intervalo. Y pasados 20 segundos puedo responder. Aquí no.
Aquí solamente obtengo reforzador. Si han pasado 20 segundos desde mi
última conducta. No desde el último reforzador. Es importante esa
diferencia. Eso es lo que hago. Si respondo antes. Antes de esos 20
segundos. Por ejemplo aquí. Entonces se añade un castigo. Es decir no
obtengo el reforzador. Lo que se suele hacer es reiniciar el intervalo. Si
respondo aquí. Antes de que hayan pasado esos 20 segundos. Tengo que
volver a esperar 20 segundos desde la respuesta. Para obtener el intervalo.
Así que hay un periodo de tiempo fuera del reforzamiento. En el que si no
hubiese respondido. Podría obtener el reforzador. Pero ahora no puedo.
Porque tengo que esperar otros 20 segundos. Ojo esto es importante. Esto
puede parecer una omisión. ¿Os acordáis cuando hablábamos de que una
conducta de omisión. O un aprendizaje de omisión. Es aquella situación
en la que. Retiramos un reforzador por emitir una conducta. Emites una
conducta. Y te retiran el reforzador. Te quitan el reforzador positivo.
Así que lo que ocurre es que disminuye. La aparición de esa conducta.
Pero ojo esto no es así. Nosotros si queremos que haya la conducta. Lo que
no queremos es que sea antes de un determinado tiempo. Así que es un
castigo. Porque nosotros queremos. Que se siga dando la conducta. Es decir
lo que estamos intentando es. Castigar esta conducta. Pero reforzar otra
conducta. No que se deje de dar la conducta. Así que no estamos retirando
premios. Por no dar una conducta. Sino castigando una conducta. Que no
queremos para reforzar otra. Que aparece en un momento diferente. Eso es
importante también. Así que en este tipo de intervalos. Lo que ocurre es
un castigo. No una omisión. Para las conductas que ocurren. Antes de que
haya pasado el tiempo. Que hemos prefijado en ese momento. No castigo
positivo. Es castigo positivo. Es un castigo. Porque lo que queremos es que
haya. Estamos castigando una respuesta. Fijaros aquí hay una. Aquí hay un
problema. Es decir estamos a la vez. Fijaros en la situación. Que
aparezcan después del intervalo. Pero claro para obtener el reforzador. Yo
tengo que dar esta respuesta. Después del intervalo. Que casualmente es la
misma. Que ocurriría si la doy antes. Si la doy antes. No te doy al
reforzador. Pero aun así quiero que des esa respuesta. Fijaros la
dificultad de esto. Estamos castigando un organismo. Por dar una respuesta
que queremos que de. Pero en un momento diferente. Así que no intentamos.
Que desaparezca la respuesta. Solamente intentamos pasarla a otro momento
temporal. Por eso. Estos procedimientos son más difíciles. Y más
difíciles de conseguir. Y llevan a mucha mayor variabilidad también.
Porque hay una especie de tensión. Entre el hecho de que se castigue. Se
castigue una respuesta. Pero a la vez queremos reforzar esa respuesta. Y
que la única diferencia sea el momento en que se da. Son mucho más
fáciles. Los programas de refuerzo diferencial. De tasas altas. En este
caso. Pongo un intervalo igual. Y solo refuerzo una respuesta. Si ocurre
antes de que acabe el intervalo. Si el intervalo es de 20 segundos.
Solamente te refuerzo. Si ocurre la respuesta antes. ¿Qué ocurrirá con
esto? Que cada vez la respuesta será más rápida. Porque así me aseguro
de que se refuerza antes. Además como termina el intervalo y vuelve a
empezar. Cuanto más rápido responda. Más rápido va a obtener el
reforzador. Esto es mucho más fácil de obtener. Que esto. Y lo que de
verdad quiero. No quiero que responda. Pero responde si te castigo. Hay una
tensión bastante grande. Que puede dar lugar. A mucha variabilidad. A
muchos cambios. Bueno. ¿Cómo se explica esto? ¿Cómo se podrían
explicar. Los diferentes programas. De condicionamiento operante. Que hemos
visto. En función de lo que acabamos de ver. Del reforzamiento
diferencial. En función de tiempos entre respuestas. De reforzar. Tiempos
entre respuestas bajos. O tiempos entre respuestas altos. Es decir.
Responder más rápido. O responder más lentos. Lo que viene a decir esta
explicación. La teoría del reforzamiento diferencial. De tiempos entre
respuestas. Es que todos los programas que hemos visto. Refuerzan
específicamente. Una duración determinada. Y que por eso. En los
diferentes programas que hemos visto. Ocurren los diferentes patrones de
respuesta. Las pausas. Y las ráfagas. El festoneado. O la conducta. De
pulsación. O de respuesta continua. ¿Qué dice esta teoría? Pues se
reforzaría. El tiempo entre respuestas. Que ocurre justo antes del
reforzador. Imaginaros en un programa. Pongamos. De reforzamiento.
Variable. De razón variable. 40. Lo que dice esta teoría. Es que se
reforzaría el intervalo. Que hay entre la respuesta 39. Y la respuesta 40.
Aquí se puede dar de muchas maneras. Pero el tiempo entre respuestas. Que
se va a reforzar. Y que va a determinar la tasa de respuestas. El tiempo
que hay entre la respuesta 39. Y la 40. Es la que va seguida del
reforzador. Así que esto es lo que queda reforzado. Justo lo que aparece.
Antes del reforzador. Pero aquí tenemos un problema. Con programas de
razón variable. E intervalo variable. Es muy fácil porque los tiempos de
respuesta. Hemos visto que son muy homogéneos. Cuando teníamos razón
variable e intervalo variable. Vimos que en ambos casos. Las respuestas
eran siempre homogéneas. No había pausas de reforzamiento. Esto sería
razón variable. Y esto sería intervalo variable. No había pausas de
reforzamiento. Así que es muy fácil atribuirlo a esto. Porque como todos
los intervalos. O no hay pausas. Y todos los intervalos son iguales. El
hecho de que se refuerce esto. Se generaliza al resto de intervalos. Así
que todos los intervalos terminan siendo. Todos los intervalos o los
tiempos entre respuestas. Terminan siendo iguales. Las gráficas de razón
variable e intervalo variable. Son fáciles de explicar. Pero ¿qué ocurre
con los programas de razón fija? E intervalo fijo. Porque aquí lo que
vimos. Es que los tiempos entre respuestas no son homogéneos. En la de
razón fija. Se responde rápido y luego se para. Luego ráfaga y se para.
Es decir, tenemos momentos de tiempos entre respuestas muy largos. Y
momentos de tiempos entre respuestas muy cortos. Y lo mismo para el
festoneado. Lo que tenemos son momentos de tiempos entre respuestas muy
largos. Y momentos donde la tasa de respuesta es muy alta. Es decir, los
tiempos entre respuestas son muy cortos. Los reforzadores siempre aparecen.
Al final de los TERs cortos. Es decir, siempre aparece el reforzador. En
los momentos en los que las respuestas son tan rápidas. Así que lo que
uno podría pensar es. Si el intervalo entre la penúltima y la última
respuesta es siempre muy corto. ¿Por qué no se generaliza ese tiempo
entre respuestas al resto del intervalo? ¿Por qué aparecen esas pausas?
Eso es uno de los problemas que tiene la teoría del reforzamiento
diferencial. Para explicar esto. Así que hay que buscar mecanismos
adicionales. En general se piensa en la discriminación temporal. En cada
momento se refuerzan diferentes respuestas. Es decir, un mecanismo en el
que los sujetos son capaces de discriminar en el tiempo. ¿Cuándo va a
estar disponible el reforzador? ¿En qué momentos va a estar disponible?
Tanto en la razón fija como en el intervalo fijo. Porque en la razón fija
saben que durante las primeras respuestas. O una vez que has obtenido un
reforzador. La posibilidad de reforzamiento es muy baja. Aunque dependa de
tu conducta. Antes de descansar o en ese momento. Habrá una pausa y
después una escalada. Muy rápida. Pero después de la obtención del
reforzador. La probabilidad es baja. Y como son capaces de discriminar
temporalmente. Se refuerzan diferentes tiempos de respuesta. Aquí estaría
después de obtener el reforzador. Lo que se habría reforzado es parar.
Porque la probabilidad de obtener reforzamiento es baja. Y según se va
avanzando. Empieza el cambio. Por supuesto son necesarios otros mecanismos
explicativos. No vamos a ver más. Sobre esto. Pero tener en cuenta. Que
mientras que en las. Perdón. En los programas de razón variable,
intervalo variable. Es fácil explicarlo o atribuirlo. A cómo se refuerzan
los tiempos entre respuestas. En los de razón fija e intervalo fijo. Es
decir. Cuando la conducta no es homogénea. Cuando la conducta tiene
pausas. Tiene diferencias entre unos tiempos y otros. Es difícil
atribuirlo solamente. A que se refuerce un tiempo de respuesta concreto.
Básicamente porque los tiempos de respuesta. Son diferentes en cada
momento del intervalo. Bien. Ya tenemos visto esto. Pues vamos a cambiar
ahora de tercio. Y vamos a cambiar de tercio porque. Cuando empecemos a ver
la conducta de elección. Nos vamos a centrar en un tipo de programas. Muy
específico. Fijaros. Os he hablado de conducta de elección. Y la conducta
de elección es algo en el fondo muy sencillo. Tengo varias alternativas de
respuesta. Cada una me da. Una razón. O un tipo de. Perdón. De
reforzamiento diferente. O una tasa de reforzamiento diferente. Y yo tengo
que elegir entre pulsar una u otra. Y siempre lo voy a hacer. Intentando
maximizar la cantidad de premios que obtengo. Bueno. Como veis la
situación es muy sencilla. Dos alternativas. Dos posibles conductas. Y
tengo que elegir. Vamos a ver las diferentes maneras en las que se puede
dar eso. Luego nos vamos a centrar en una concreta. Pero vamos a ver todas
las posibles posibilidades que tenemos. De programas compuestos de
reforzamiento. Programas en los que se puede responder de diferentes
maneras. O que incluyen varios programas dentro de ese programa general. Y
vamos a empezar primero. Por los programas alternantes y secuenciales.
¿Qué son estos programas? Son los programas en los que los dos. Los
diferentes programas. O los diferentes contingentes. Contingencias de
reforzamiento. Se van alternando de una a otra. Es decir. No están
disponibles a la vez. Va apareciendo uno y después otro. Y tenemos dos
tipos. Programas alternantes. Y programas secuenciales. Y dentro de los
alternantes y secuenciales. También tenemos dos tipos. Sin estímulo
discriminativo. Y con estímulo discriminativo. ¿En qué consiste esto?
Los alternantes. Son programas que se. Se van cambiando al azar. Mientras
que los secuenciales son programas. En los que para pasar al siguiente.
Tengo que haber cumplido con el anterior. Y la parte de arriba. Pues muy
sencillo. Sin estímulo discriminativo. Es que no hay ningún estímulo que
me señale en qué programa estoy. Con estímulo discriminativo. Es que me
señala ahí algo. Una señal que me dice en qué programa estoy. Y eso da
lugar a cuatro diferentes programas. Vamos a verlos uno a uno. Y vamos a
empezar con los programas alternantes. El mixto y el múltiple. El programa
mixto es muy sencillo. Es la parte seguramente más sencilla de todo el
tema. Que precede justamente. A la parte más complicada del tema. Bueno.
Tenemos el programa mixto. Un programa alternante. Dos programas de los que
hemos visto. Dos programas básicos. De intervalo fijo, variable, razón.
Lo que queramos. Alternándose al azar. Sin que la conducta del sujeto
tenga que ver. Es decir. Le metemos un tiempo. Por ejemplo. Pongo dos
programas. Un intervalo fijo, 20. Obtengo un reforzador cada 20 segundos. Y
una razón fija, 10. Es decir. Obtengo un reforzador cada 10 respuestas.
Bueno. Pues digo. Vas a estar en intervalo fijo durante 5 minutos. Y los 8
siguientes en razón fija. Y luego se van alternando. Es decir. 5 minutos
aquí, 8 minutos aquí. Y da igual lo que hagas. Siempre vas a estar 5
minutos aquí, 8 aquí. Así que lo que va a ocurrir es que vas a ir
cambiando de programa. Y en cada programa tiene unos requisitos. Y vas a
tener que ir respondiendo a ese programa. En el programa en el que estés.
Para poder obtener los reforzadores. Se le da un tiempo a cada uno. Y se va
cambiando de uno a otro. Tan sencillo como eso. Ir alternando de uno a
otro. Sin ninguna señal. ¿Vale? Porque no hay ninguna señal que los
identifique. Y tampoco puedo cambiar yo por mi conducta. Simplemente
cambian al azar. ¿Cómo es el programa múltiple? Bueno, pues exactamente
igual que el mixto. Pero cada componente se señala. Con un estímulo
discriminativo. Es decir. Imaginaros esta misma situación. Pero ahora
cuando empieza el programa de intervalo fijo. Yo pongo en la caja de
Skinner. Una lucecita que se pone en rojo. Y mientras esté en rojo. Sabes
que estoy en este programa. Cuando paso al siguiente programa. La luz
cambia a verde. Y mientras está la luz en verde. El sujeto aprende que
está en este programa. Así que tiene un estímulo. Que le indica en qué
programa está. Y que por supuesto hará que cambie. La forma de respuesta.
Dependiendo del programa en el que esté. Ya habéis visto las diferencias
que hay entre los diferentes programas. Así que cambiará su conducta. La
única diferencia es que en este programa el sujeto sabe. Tiene una señal
que le indica dónde está. En este no la tiene y tiene que aprenderlo por
sí mismo. Sin ninguna señal que se lo indique. Así que es muy más
preciso. En el caso del programa múltiple. Ya tenemos los programas
alternantes. Vamos a por los secuenciales. También. Muy sencillo.
Solamente dos. El programa tándem y el programa encadenado. Caso del
programa tándem. Igual dos programas básicos. Imaginaros los mismos que
hemos visto antes. Uno de intervalo fijo y otro de razón fija. Y siempre
aparecen en el mismo orden. Así que se van alternando. Intervalo fijo,
razón fija. Así. Pero. Para que aparezca el segundo. Hay que completar el
primero. Es decir. Si yo tengo un intervalo fijo 20. Es necesario que yo de
una pulsación. O que haga una respuesta. Una vez pasados los primeros 20
segundos. Para poder acceder al de razón fija. Imaginaros un razón fija
10. Hasta que yo no complete este programa. No vuelvo a pasar al de
intervalo fijo. Es decir. Tengo que completar el programa. Y obtener mi
reforzador. Para poder pasar al siguiente programa. Bueno. Perdón. Creo
que os he hecho un lío aquí. No quiero confundiros. Resetear. Programa
tándem. Es exactamente lo que he dicho. Pero se va pasando de uno a otro.
Tienes que cumplir los requerimientos. De uno y otro. Es decir. Para pasar
al de razón fija. Tienes que completar el intervalo fijo. Pero el
reforzador solo aparece al final de los dos. Esto no se si lo había dicho
antes. Tienes que completar este programa. Completas tu intervalo fijo. Es
decir. Respondes una vez que haya pasado el intervalo dado. Y pasas al
segundo programa. Pero aquí no obtienes reforzador. Después pasas al de
razón fija. Y una vez que has completado el requerimiento. Por ejemplo 10
pulsaciones. Obtienes el reforzador. Al completar. Los dos programas. Pero
es necesario completar el primero. Para poder pasar al segundo. Ahora si
que quería dejarlo claro. Que a veces se crea la confusión. De que se
obtiene con los dos. Y que vas pasando obteniendo reforzadores de uno a
otro. Realmente lo que actúa como reforzador. De este primer programa. Es
poder pasar a este que sí que está relacionado con el segundo. Fijaros.
Como actúa como reforzador secundario. El propio programa de
reforzamiento. Actúa como reforzador. Porque después del primero. No se
obtiene ningún tipo de reforzamiento. Y por último. El programa
encadenado. Exactamente igual que el que hemos visto arriba. La única
diferencia. Es que hay una clave que nos indica en qué programa estamos.
Cuando empezamos con el de intervalo. Una lucecita roja nos indica que lo
que tenemos que hacer. Estamos en el intervalo fijo. Una vez que lo hemos
completado. Esa lucecita se vuelve verde. Y nos indica que ya hemos pasado
este programa. Y que lo podemos realizar y obtenemos el reforzador. Y de
nuevo se vuelve a poner roja. Es decir. Una luz, una clave discriminativa.
Ya os he dicho que se han utilizado. Para reforzamiento condicionado. Veis
como en esta clase de programas. Es el propio programa el que actúa como
reforzador. Realmente el programa no es un... No, no. Pueden ser de
cualquier tipo. No tienen por qué ser R, C y F. Pueden ser dos programas
de razón. O pueden ser dos programas de intervalo. Razón fija y razón
variable. Lo importante en este caso. Es que como es necesario completar
los dos. Al final lo que actúa como reforzador. Porque una vez que
completas el primero. No tienes ningún reforzador. Sin embargo se tiene
que seguir haciendo para obtener el reforzador. Lo que actúa como
reforzador. Es pasar a ser un programa. Si también variables. Cualquiera
que queráis. Pero que se necesite cumplir con los dos. Para obtener el
reforzamiento. Así que se han utilizado mucho. En refuerzo condicionado.
¿Os acordáis cuando hablamos de reforzamiento de segundo orden?
Reforzamiento condicionado. Cuando elementos han quedado asociados a otras
cosas. Y por eso tienen valor de reforzador. Por ejemplo el dinero. Que
realmente es un trozo de papel. Pero adquiere valor. Porque con él se
pueden adquirir productos de primera necesidad. O cosas que sí que
necesitamos. Y que sí que son reforzadoras en sí mismo. Con esto sería
algo similar. Realizas un programa. Para poder entrar en otro programa.
Aunque realmente. Entrar en un programa de razón fija. No tendría por
qué ser ningún premio en sí mismo. Pero como se asocia con la obtención
posterior de un reforzador. Al final este programa. Se convierte en un
reforzador condicional. Bueno. Ya tenemos los programas. Alternantes y
secuenciales. Ahora vamos a ver los programas simultáneos. Os podéis
imaginar. Los programas simultáneos. Son programas en los que dos
programas. Están presentes de manera simultánea. Fin del asunto. Por
ejemplo tengo dos palancas. Para pulsar. Y puedo pulsar una. Para obtener
un premio en unas condiciones. Imaginaos que esto es una razón variable
30. Y esto es un intervalo fijo 20. Bueno. Pues tengo que elegir en lo que
pulsar. Es decir dos programas o más. Podrían ser un montón de
programas. Simultáneamente. Y uno puede cambiar cuando quiera. Esto es
importante porque uno puede cambiar. Y puede estar el tiempo que le dé la
gana en cada uno de los programas. Tienes que elegir. Entre responder a
uno. O a otro. Cada palanca. Tiene junto su programa. ¿Qué harán los
sujetos en este caso? Porque esto es a lo que vamos a dedicar toda la
segunda parte del tema. A los programas concurrentes. A ver cómo se
realiza la conducta de elección. Lógicamente. Si yo os digo que en uno os
voy a dar. Un premio cada 20 segundos. En un programa de intervalo fijo 20
segundos. Y otro en un intervalo fijo de 60. ¿Dónde iríais casi todo el
tiempo a pulsar? Seguramente al que os dé más reforzadores. Bueno pues
eso es la conducta de elección. ¿Cómo optimizan los sujetos? La
obtención de reforzadores. ¿Son capaces de hacerlo? Eligen sus
respuestas. Y el tiempo que pasan en cada una de las conductas. En función
de cuántos reforzadores van a obtener. Bueno. Lo vamos a ver un poquito
más adelante. También tenemos. Aunque de esto vamos a ver poco. Los
programas combinados. Son combinaciones de un programa de razón. Y otro de
intervalo. Aquí sí que tiene que ser un programa de razón. Y otro de
intervalo. Y aparecen de manera simultánea. Bueno. Tienen tres
alternativas. Perdón. Tres formas de presentación. El programa
alternativo. En el que se refuerza una respuesta cada vez que se cumple con
un programa. Están presentes los dos. Pero si tú cumples con uno. Se te
da un reforzador. El programa conjuntivo. Para que se te refuerce una
respuesta. Tienes que cumplir a la vez con ambos. Tienes que dar el número
de respuestas que te requiere el programa de razón. Y a la vez pulsar en
el de intervalo. Para que te den un reforzador. Y por último. El programa
entrelazado. Que es un programa en el que se combinan. O se altera un
reforzador. O se altera un programa. Para ajustarlo a las características
del otro. Por ejemplo. Que tengas que dar un número de respuestas. Que es
un requisito de razón. Pero en un tiempo determinado. Que es un requisito
de tiempo. O que solamente. Si lo haces en un. O si lo demoras en el tiempo
lo suficiente. O si la última respuesta. Es después de un intervalo
determinado. Aparezca el reforzador. Veis que hay dos programas. Pero uno,
en este caso el de intervalo. Altera las características del de razón.
Eso es lo que se denomina programa entrelazado. Hay mil maneras de hacer
esto. Hay un montón de diferentes programas. Y de formas. Sí, sí, esto
se hace con animales y lo aprenden. Ahora vamos a ver algunas cosas. Se
enteran, se enteran. Y en este tutorial. No, lo vamos a ver en el siguiente
tutorial. Lo vamos a ver después de las vacaciones de Semana Santa. Vamos
a ver la conducta de elección. Muchos de esos experimentos están hechos
con palomas. Veréis que curioso. El tipo de conducta que tienen. Y cómo
optimizan la obtención de reforzadores. Cuando tienen varios programas.
Que ocurren a la vez, concurrentemente. Y cómo dedican el tiempo justo a
cada uno de esos programas. Para obtener el máximo número de reforzadores
posibles. Y eso se hace en todos los animales. Vamos a ver muchos
fenómenos. Porque además vamos a dejarlo exactamente aquí. Aquí es
donde vamos a pasar gran parte de la siguiente tutorial. La conducta de
elección. Vamos a utilizar esos programas concurrentes. Que hemos estado
viendo. Es decir. Lo que vamos a hacer es poner dos conductas diferentes.
Dos palancas. Cada una con un programa de reforzamiento distinto. Con dos
fuentes de reforzamiento alternativas. Cada una con sus condiciones. Y en
estos programas se va a requerir la misma respuesta. Es decir, en ambos
casos hay que pulsar una palanca. Es el mismo esfuerzo, misma conducta.
Pero la cantidad de reforzador. O la forma en que se da el reforzamiento.
Es diferente en una y en otra. Hay otra manera de hacerlo. Que sería con
premios concurrentes. Esta se utiliza mucho menos. Porque es mucho más
difícil discriminar. Entre lo que es la propia conducta y el premio. Aquí
como la conducta es la misma para los dos. La elección de una u otra
palanca. Va a depender de la calidad del premio. De la calidad del
reforzador. Sin embargo, en la alternativa de premios concurrentes. Que era
poner dos actividades. Beber y rodar. O estar en la rueda. Hacer ejercicio
en la rueda. Y se miraba el tiempo que estaba en cada una de las
actividades. Pero es muy difícil comparar eso. Porque la conducta que
tienen que hacer para conseguir el premio. En este caso la misma conducta
actúa como premio. O la conducta de beber requieren diferentes esfuerzos.
Y son conductas diferentes. Así que son difícilmente comparables. Así
que es mucho mejor utilizar la misma conducta. Que puedan elegir realizando
la misma conducta entre dos alternativas. Y que lo que se diferencien sea
las características del reforzamiento. Y eso lo vamos a ver la semana que
viene. El día 20 creo que es cuando tenemos. Porque no tenemos tutoría en
dos semanas. La semana que viene es día 6 y no tenemos tutoría. Y tampoco
el 13 que es no lectivo en la UNED. Así que ya nos vemos el día 20. Os
recomiendo que repaséis un poquillo esto. Hay algunos conceptos
interesantes y algo más complejos. Y sería interesante que no lo
olvidéis del todo. Porque si no os va a costar retomarlo. Y vamos a
empezar con la ley de igualación. Esto en el fondo es algo muy sencillo.
Es el hecho de que los animales pasan tanto tiempo o distribuyen sus
respuestas en función de cuánto premio obtienen. Es decir, si una
conducta o si una palanca en particular de estas dos que hemos dicho les da
más premio pasan más tiempo en esa conducta. Y lo hacen en una
proporción exacta en función de la proporción de reforzadores que
obtienen. Es decir, si tienen dos programas uno de intervalo fijo 20 y otro
de intervalo fijo 60 y uno le da un reforzador por minuto y otro tres,
pasan tres veces más tiempo en el programa que les da tres veces más
reforzadores. Es decir, igualan su conducta. Bueno, pues lo dejamos justo
aquí. Seguiremos explicando esto después de la Semana Santa. Espero que
lo paséis muy bien dentro de lo que se pueda. Ya sabéis que... Bueno, yo
por lo menos las voy a pasar en casa como seguramente la pasáis todos,
así que por lo menos esperemos que se acabe rápido el confinamiento, que
vaya todo muy bien que estéis todos sanos y nada, que nos vemos a la
vuelta y esperemos que en mejores condiciones. Así que nada, muchísimas
gracias a todos chicos. Hasta luego.