Bueno, empieza la grabación por lo tanto, que es la emisión. Hoy vamos a
continuar con la práctica obligatoria, con el artículo en inglés, que
acabaremos enseguida. Luego acabaremos también el tema 4, nos queda una
parte, parte final. Y si nos da tiempo, empezaremos el tema 5, que es
quizás más largo, a que le dedicaremos esta sesión en la que viene.
Luego nos quedan dos, más la de tres exámenes para los otros dos temas.
Bien, el otro día vimos la primera parte del experimento en inglés, que
trata de demostrar el fenómeno del ámbito. La renovación, una vez que se
ha extinguido un aprendizaje. Vimos que la primera hipótesis que trata de
probar es que la renovación se produce al cambiar desde el contexto de
extinción. Es decir, que la extinción es de cierto modo dependiente del
contexto. Estaba bastante probado la renovación tipo ABA. Donde
aprendemos, donde volvemos al contexto en el que aprendimos. Una vez que se
extinguió la conducta y se reproduce. En el primer experimento probó
además la renovación AAB. Es decir, cuando se extingue en el mismo
contexto que aprendemos y al cambiar a uno nuevo reaparece esa conducta
extinguida. Experimento 2 trató de comprobar otra vez la renovación A a B
y además poniendo a la prueba con un mayor periodo de extinción, la
extinción más larga en A para ver si eso eliminaba la renovación, cosa
que no ocurría, sino que seguía existiendo la A a B que no se había
probado nunca en condicionamiento operante, que es resistente a la
extinción por larga gesta C. Bien, este es el que habíamos visto. Y el
tercero, en el tercero se dedica simplemente a probar... ...la renovación
A-B-C. Quizás cambiar el contexto de aprendizaje a uno nuevo para que se
produzca la extinción puede interpretarlo el sujeto experimental como si
me cambian de contexto es para extinguirlo. Entonces, otro cambio de
contexto desde B a uno nuevo quizás no produjera renovación, quizás se
interpretara como me cambian de contexto. Por lo tanto, no va a ocurrir
nada. Sin embargo, el resultado esperado es que sí haya renovación. De
hecho, la hay. Como podéis ver, dice efecto significativo. Quiere decir
que está pendiente de significativa y en cualquier caso... Pero no hace
falta volver al contexto donde aprendimos para que haya renovación.
Cualquier contexto nuevo y diferente de extinción la produce. Es decir,
experimento 3 probamos la renovación ABC. Como veis en el cuadro, los
animales se contrabalanceaban, los lugares donde estaban los animales
pasaban por diferentes pautas y siempre se daba renovación en este
contexto significativa. ¿Veis que es el experimento más sencillo?
Simplemente corroborar la BC. Y el cuarto experimento. Lo que hace es
tratar de ver si el contexto A, el primero, ejerce como un condicionamiento
clásico. Es decir, ese contexto me incita a responder cuando la
renovación es ABA, hemos visto que era siempre más potente que por
ejemplo la AB y la ABC incluso. Entonces dice, igual el efecto de volver al
contexto de aprendizaje. A se ve potenciado porque es un contexto que se
asocia con la acción. ¿Qué hace? Pues tratar de distinguir en un grupo
esa posible asociación de A con la respuesta. Y les pone a este grupo
varias sesiones que están en A pero sin la palanca de respuesta. Por lo
tanto, el contexto en sí queda como extinguido. Si tuviera una
asociación... Con la respuesta quedaría extinguida. Bueno, ¿qué ocurre?
Que no hay diferencias entre los dos grupos. Al final resulta que no hay
pruebas de que el condicionamiento clásico de contextual con la respuesta,
es decir, lo que dicen ellos de occasion setting, ver que estás en
contextual y empezar a responder de forma más automática, no lo logra, no
se extingue por el hecho de estar en A y no ocurra nada en A ver palanca.
Bueno, es un resultado que no corrobora la hipótesis de que A está
asociado de una forma clásica con la respuesta, pero sí va a favor de la
primera hipótesis de que cualquier cambio de contexto produce renovación.
Es decir, seguimos obteniendo esa renovación. Pero una de las
explicaciones parece que no funciona. La que sí funciona es que la
extinción es específica del contexto en que se extinguió o parece ser. Y
por último, nos comenta estos resultados en nuestra discusión. Lo primero
es lo que digo, la extinción es relativamente específica del contexto
donde se extingue, es donde no aparece. pero un parque de otro nuevo, sí.
¿Y cómo lo hace? Bueno, pues puede ser de varias formas. Un aprendizaje
clásico inhibitorio con texto. Es una señal de inhibir la respuesta o un
estímulo discriminativo, una señal de que ahí no va a haber refuerzo a
la respuesta, que es lo que hemos visto en el condicionamiento operante.
Bueno, pues yo le doy explicaciones honestas y ahí nos comenta otro
experimento, que es un detalle, pero en un experimento añadieron una
segunda respuesta, la extinguieron y también hubo renovación a veces. No
es muy importante. Y el cuarto experimento, que no prueba el
condicionamiento clásico de A, podría explicarlo diciendo, bueno, el
experimento quizás no tiene un formato muy adecuado, quizás el contexto
es solo un estímulo discriminativo, por lo tanto no se puede distinguir.
En el condicionamiento operante los discriminativos, ya lo veremos, no se
distinguen. O que quitar la palanca del contexto es significativo y hace
que el contexto sea diferente. Bueno, pero es que esto en A, B y C, aunque
ahí ya no hay palanca, bueno, no se puede. Lo que ocurre es que todas las
razones estas pueden combinarse y faltaría investigar cuál es la buena.
Nos comenta también que, como vimos al principio, cuando hay dependencias,
bueno, robo de dependencias y todo eso, puede ser muy útil estos
resultados. Y bueno. Como ya comentamos. Así pues, vamos a ver las
preguntas que habría que poder contestar después de todo esto. Que si las
habéis visto ya, como ya las tenéis. El vídeo lo veremos ahora. Las
preguntas de los experimentos que nos proponen son las siguientes. Si sale
una, formas de renovación más relevantes, estas ya sabemos nada más
leerlo. A, B, A, B, C y la clásica A, B, A. ¿Qué tipo de programa de
reforzamiento de los experimentos no relativos? Si os habéis fijado, hemos
hablado de un intervalo de 30 segundos. ¿Qué tipo de claves? Visuales,
olfativas y creo que había también táctiles. Objetivo de experimento 1,
probar A, A, B, compararla con A, B, A. Objetivo de experimento 2, el
diseño. En el 2 lo que hacemos es probar A, A, B, ampliando el tiempo de
extinción en A para ver si se mantiene el efecto aeronáutico. En el 3
tratamos de probar la renovación A, B, C. Y en el 4 tratamos de ver si
podemos extinguir un hipotético condicionamiento clásico de contexto A
con la respuesta, cosa que no ocurre. Y los resultados que acabamos de
comentar serían, se prueba por primera vez el A, B y C. El A, B en
condicionamiento operante, que ya existía en el clásico. El cambio de
contexto respecto a la extinción es suficiente para el efecto de
renovación. Por lo tanto, parece que la extinción es específica de
contexto, igual que en el pauloniano en el clásico. Y, bueno, que A, B no
se ve debilitada, aunque... Aunque A, B, A es más fuerte, A, B y A, B, C
ocurren y A, B no se ve debilitada aunque estigamos más tiempo. Y lo que
no se puede probar es que hay un acondicionamiento clásico en contexto A
con la respuesta del experimento cuarto. Bien, este es el resumen. Lo veis
a fondo, lo interpretáis más, pero más que esto no hace falta. El
vídeo, aunque no lo hemos visto aquí, tendréis que responder, os habrá
respondido a estas preguntas, con esto ya tenéis suficiente. Bueno, un
pequeño resumen simplemente para saber que lo tenéis. Luego el
funcionalismo. Si no habéis dado historia de psicología, el
funcionalismo, la propia palabra lo dice, es una... corriente, inicial, de
los inicios de la psicología, y lo explica en el vídeo, que está
interesada en cómo ocurren los procesos mentales más que las estructuras
y los fenómenos en sí, sino para qué. Explicación dinámica,
adaptativa. La solución del problema de la mente, qué implicaciones
teóricas conlleva, lo habéis visto en el vídeo. Si no lo habéis visto,
bueno, que las asociaciones que se aprenden se conservan, que se conserva
memoria motora, lo que se hace, aunque al principio estas conversiones
luego se matizan. El de la caja problema de Thorndike ya lo sabemos, el del
gato encerrado, que es la comida y que, bueno, poco a poco aprendes a
vivir. Watson es el fundador del conductismo, por lo tanto aporta rigor
experimental, positivismo en la ciencia psicológica y por último cómo ha
cambiado los procedimientos de laboratorio. Bueno, lo podéis ver, cada vez
las conductas que se estudian están más acotadas, más sencillas para
poder sacar conclusiones válidas. Si tenéis alguna duda sobre la
práctica o el vídeo, podéis mandarla. Os recuerdo que al haber anulado
la práctica voluntaria, las preguntas contarán un poquito más para que
se pueda sacar una nota similar a la que se podía sacar antes. Y el
descuento es el mismo. Así que, como no vamos a ver la práctica. Vamos a
seguir a volver al tema cuarto que lo hemos dejado justo donde nombraba a
Button, en el punto cuarto que se llama fenómeno del condicionamiento
operante. Bien, el primer fenómeno que nos propone es la conducta
supersticiosa, es decir, hacer algo porque creemos que está asociado con
un resultado positivo. Aunque, como la propia palabra indica, racionalmente
sabemos que eso es muy probable que no sea así. Esta conducta la encontró
Skinner en palomas, palomas que estaban dando vueltas en el momento que les
caía la comida, casualmente. Y luego comprobó o veía que repetían esa
conducta casualmente reforzada. Una y otra vez, lo que es muy parecido a la
conducta supersticiosa de los humanos. Entonces Skinner propuso la
hipótesis del reforzamiento accidental. Dijo, a veces ocurre que una
conducta conlleva una consecuencia y por lo tanto se mantiene bien. Esa
tesis, este momento de la probabilidad, la discuten Stadon y Simmelman, la
matizan diciendo que en realidad no hay una... asociación entre conductas
supersticiosas y refuerzos accidentales, sino que más bien ese tipo de
conductas, comprobaron metódicamente, que ese tipo de conductas son las
conductas que suele hacer el animal cuando está entretenido o esperando.
Conductas que le llamaron de interin, casi de llenar el tiempo. Mientras
que las conductas terminales, las asociadas a... por ejemplo, a comer, si
el refuerzo es comida, son aproximarse al comedero y todo aquello asociado
con el acto de comer. Mientras que las de interin son explorar,
entretenerse, acicalarse y bueno, según ellos, gran parte de las conductas
que se consideran... Conductas supersticiosas eran en realidad conductas de
interín que el animal hacía solo porque estaba esperando, haciendo otra
cosa. Y así pues, son más bien innatas, son hábitos contra las
terminales que es así, se refuerzan y quedan aprendidas. En gran parte, no
todas, puede haber alguna que por recuerdo de ciertas estudias. ¿De
acuerdo? Esto es, conducta supersticiosa, la visión de animales, la
visión quimioriana de refuerzo accidental y la visión de conductas de
interín de entretenimiento. Bueno, sabemos que los humanos tenemos muchas
conductas de este tipo. Se han comprobado experimentalmente y se han hecho
pequeños experimentos. Se han comprobado y un pequeño matiz es que en los
seres humanos, como señala Einstein, que veremos luego este autor en otras
cosas, distingue entre las supersticiones personales asociadas a la
historia y experiencia de una persona en concreto, de las sociales, por
ejemplo, el viernes, el martes y trece, que son creencias que han arraigado
y se han mantenido, en grupos sociales y que adoptamos individualmente, es
decir, las supersticiones fruto de la experiencia personal, las
supersticiones culturales. Segunda, segundo matiz o segundo fenómeno del
condicionamiento operante, la deriva instintiva bueno a veces cuando se
trata de entrenar o de aprender algo complicado ocurre que los animales en
vez de llegaban a cierto punto de aprendizaje pero de ahí no pasaban en
ese momento volvían a hacer cosas digamos habituales en la especie cuando
hay un punto de bloqueo o de aprendizaje complicado se vuelven a las
conductas instintivas bueno, esto que pasó en algún experimento en el
ejemplo de los cerdos que aprendían de chermones en la hucha y en un
momento empezaban a arisquear y hacer cosas diferentes, se ha explicado en
términos de relevancia o pertenencia las conductas muy lejos del rango o
catálogo de conductas de la especie son mucho más difíciles de llegar y
se vuelve a caer en las habituales y si no hay una pertenencia una
aproximación óptima o por lo menos que se pueda salvar entre las
conductas habituales las que queremos enseñar pues puede ocurrir esto en
hay límites de aprendizaje en la especie y esto recordamos simplemente el
concepto, deriva instintiva y la pertenencia el tercer fenómeno En los
efectos de contraste, ¿qué ocurre si las consecuencias en una conducta
cambian hacia mejor o hacia peor? ¿Qué ocurre con la respuesta? Tanto las
consecuencias en magnitud como en calidad, en cualquier otro aspecto, si
hay un contraste, si por ejemplo estoy trabajando por un sueldo y un día
os lo aumentan al doble, ¿qué ocurrirá? Bueno, pues ahí tenéis un
experimento que se llama efecto Crespi, que más o menos ocurre esto. Yo
estoy rindiendo a un nivel, en el momento que me suben el sueldo aumento el
rendimiento de forma pronunciada, quizás más de lo que merece el aumento
del sueldo, y poco a poco se va asentando a nuevo ritmo, en un nivel más
alto que el anterior. Con este pequeño efecto de contraste inicial. Esto
sea un contraste positivo, claro, pasamos a mejor. ¿Qué ocurrirá si me
ocurre lo contrario? Estoy trabajando y de repente me baja. Me baja el
sueldo, la mitad. En principio lo mismo, de forma simétrica, hay una
caída abrupta del rendimiento y poco a poco se reequipara, se me pasa el
enfado y bueno, me paso a rendir de una forma acorde. Esto más o menos es
lineal, es bastante... proporcional a la magnitud de la recompensa, que es
un experimento en el que se mide la velocidad del movimiento de unos
animales en función de la cantidad de recompensa que esperan obtener al
final de la carrera. Bien, es bastante sencillo, pero es un fenómeno
importante y lo que me pregunta, recordad, contraste conductor positivo con
el efecto Crespi, el primer aumento mucho más alto y lo mismo de forma
simétrica en el activo. Otro pequeño matiz de este efecto es que depende
del estado afectivo previo, es decir, la sensibilidad al cambio es un
elemento, decisorio, en la magnitud del contraste. Se supone, aunque no lo
entran detalles, que estamos más dispuestos a responder en un estado
positivo. Bien, el cuarto fenómeno, importante también, es el llamado
indefensión aprendida, que sería un proceso que se ha equiparado, o se ha
hecho cierta analogía, con la depresión. En la indefensión aprendida,
Seligman les puso a los animales una consecuencia negativa inescapable e
incontrolable. Es decir, hicieran lo que hicieran, se producía la
consecuencia negativa, agresiva, quiero decir. El experimento constaba de
un grupo de animales, Que podía escapar, de un grupo de control que no
ocurría nada, la misma situación, y de un grupo que no podía escapar.
Bueno, recordamos que una consecuencia negativa, el condicionamiento
clásico, recordamos, producía una respuesta más pasiva, aislamiento,
falta de misión, una actitud muy parecida a la depresión o a los
síntomas conductores de la depresión humana. Y eso es lo que se vio en
los animales. Entonces, esta hipótesis de que la indefensión aprendida,
la experiencia de que las respuestas no controlan los refuerzos, llevaba a
un estado parecido a la depresión. Esta hipótesis se ha confirmado varias
veces y es un buen modelo de la depresión, de cuando creemos que algo no
funciona. Tiene algunos matices muy importantes. Primero, ¿cómo podemos
recuperar a un animal que ha aprendido, que ha estado sometido a este
fenómeno? Y dice que forzando a la acción a los animales a hacer algo, a
escapar, primero forzándolos, empujándolos, moviéndolos, como sea,
lograban de alguna forma que volvieran a aprender. Claro, el efecto primero
cuando un animal se queda paralizado es... Que no sé si lo he dicho. El
efecto se comprueba en que futuros aprendizajes no se producen porque el
animal no hace nada. Que ha estado deprimido. Entonces, los perros,
forzándolos a mover un poco, veían resultados y se recuperaban de ese
estado. Bueno, eso quizás nos da una pista de que las personas deprimidas
sí que hay que animarlas a hacer cosas o llevarlas a hacer cosas. Y la
segunda forma de recuperar sus síntomas es la experiencia de éxito.
Tratar de que cuando hacen algo, se ocurra algo bueno. Que es un
tratamiento muy poco a poco. Bien, un matiz. Y segundo matiz es que cuando
alguien ha aprendido que una conducta sirve para algo de una forma más o
menos estable, está como vacunada, como inmunizada. Contra la indefensión
aprendida. Aunque luego no le funcione, alguna otra parecida o similar, o
no le vaya bien, no le ocurre el fenómeno porque de alguna manera había
aprendido que eso podía funcionar y lo mantiene. ¿De acuerdo? Un punto
breve, importante y fácil. Y el fenómeno de la demora, es el penúltimo.
Para poner una situación de este, tenemos que recordar que el refuerzo, si
tardaba más en recibirse después de la conducta, su efecto era menor.
Llegando a que... En determinadas demoras, es decir, si el refuerzo es el
punto verde y las rayas son las veces que he emitido la conducta, llega un
momento tan débil que no funciona. Es decir, no funciona, no se detecta el
refuerzo como tal y no se aprende nada. Bien, hay un procedimiento que
puede aumentar el tiempo de demora y seguir manteniendo la efectividad del
aprendizaje. Se llama efecto de marcado. El procedimiento de marcado en el
experimento original era hacia el experimentador. ¿Qué era? Ahora, cuando
los animales hacían lo que debían, pasaban a esperar en una cámara donde
estaban un tiempo y luego recibían el refuerzo. Esta es la demora. Esa
cámara de demora o espera, si no ocurría nada, con el tiempo de demora
que se había programado, no se producía un aprendizaje significativo,
excepto si a los animales les ocurría el experimentador, los sacaba de la
caja y los volvía a meter. Es decir, simplemente una manipulación que le
llamó marcado echaba atrás el efecto de demora y hacía que los animales
aprendieran. O sea, el procedimiento de marcado consiste en que mientras
estamos esperando después de una acción que luego tiene un refuerzo,
ocurre algo inesperado y ese algo hace como un puente, una conexión. Entre
la acción correcta y el refuerzo. ¿De acuerdo? O sea, también puede
servir esto en muchos procedimientos de aprendizaje de condicionamiento.
Habéis visto que a los animales no siempre le dan el pescado o algo del
fin cuando ha hecho el salto, sino que a veces les dan una caricia o una
señal o algo que hace como un... Por un lado hace de refuerzo secundario,
es decir, lo has hecho bien y además hace de marco. Por lo largo,
acuérdate que esto está conectado con la recompensa. Bien, las
explicaciones de por qué funciona el marcado. Primero, el manipular a los
animales y sacarlos podría ser considerado como un reforzador. De alguna
manera el animal lo concibe como algo bueno porque luego llega la comida.
Es una especie de reforzador secundario asociado a la comida. Igual que el
dinero funciona porque puedes comprar cosas buenas, el manipular a los
animales... El animal funciona porque luego llega el refuerzo. Pero esta
explicación no vale porque se marcaba a todos los animales, tanto a los
que iban a conseguir el refuerzo porque habían hecho la conducta correcta
como a los que no, el grupo control, y esos no aprendían. Es decir, solo
funciona el marcado si ha habido una conducta correcta, si no, no. Es
decir, por sí mismo no es un reforzador. ¿De acuerdo? Entonces, sabemos
una forma de aumentar el rendimiento. Y el último fenómeno importante del
condicionamiento operante es la fenómeno de devaluación del reforzador.
¿Qué pasará? Si aquello que hablábamos en el medicamento clásico,
¿qué es lo que aprendemos? Asociar un estímulo, una señal, una
respuesta, una respuesta con un refuerzo. ¿Qué pasará si el refuerzo que
nos daban no nos gusta o deja de gustarnos en un momento dado? Con la
respuesta que hacíamos. Es decir, si yo trabajo mucho para conseguir un
premio determinado y luego ese premio deja de tener valor para mí,
¿seguiré haciendo el trabajo igual o no? Con una señal, por supuesto.
Fijaos que aquí necesitamos una señal, algo que diga, aquí está
disponible. Bueno, el experimento de evaluación prueba eso. Nos da un
reforzador, un sabor, en el caso de los animales, de naranja o de fresa, no
recuerdo qué era. Y, eh... Aprenden a realizar una conducta repetitiva
para conseguir ese refuerzo. El sabor, que al principio es agradable,
siempre. Pero luego, un grupo de ellos, uno de los dos sabores, se le hace
desagradable de forma artificial, como vimos, mediante... Creo que era una
inyección o... Es decir, hacían que ese sabor les entrara mal. Como ya
sabemos, incondicionalmente. Incondicionalmente, el clásico de ese sabor
perdía valor reforzador en ese caso. Entonces, ¿qué ocurría? Que la
respuesta asociada a ese reforzador disminuía de forma proporcional. Igual
que vimos... El condicionamiento clásico que ocurría cuando se devaluaba
el valor del estímulo incondicionado, también la respuesta se devaluaba.
Es decir, la asociación estímulo-estímulo que vimos. Bueno, le daban el
producto de litio. Hasta ir yendo de evaluación hace que lo que yo hago
pierda fuerza porque no me vale tanto el refuerzo, ¿de acuerdo? Pero hay
excepciones que son los hábitos sobreaprendidos. Hay acciones que no
tienen un resultado positivo visible, pero se repiten una y otra vez por...
Aunque no sean instrumentales, por un sobreentrenamiento, pues han hecho
muy a menudo, que se han convertido en lo que llamamos hábitos. Esto
experimentalmente, hábitos automáticos. Experimentalmente se ha
reproducido mediante el sobreentrenamiento de animales a los que se les
llegaba a pedir un número muy alto de respuestas para conseguir un
pequeño valor. Es decir, los animales aprendían a responder poco a poco,
iban aumentando la tasa muchísimo, muchísimas veces para conseguir
pequeñas cantidades de refuerzo. Y esos animales que habían llegado a
responder 500, si han respuesto a todos estos 500, esos animales con el
hábito sobreaprendido no les funcionaba la evaluación del reforzador.
Claro, pensad que... Al principio están acostumbrados a responder muchas
veces sin un refuerzo. Es decir, que ese refuerzo no aparezca al final no
hace gran diferencia. Nos detectamos la diferencia y seguimos respondiendo.
Esto es lo que se puede llamar conductas compulsivas. Que también ocurre
mucho en humanos y hay ejemplos para dedirnos con nombre al texto, incluso
en hábitos y consumos y ciertas dependencias. Y con esto tenemos el tema
inicial de condicionamiento. Como habéis visto es un tema como el que
introduce el condicionamiento clásico. Que es... Nos deja claras las bases
de una serie de fenómenos. Y en el tema 5, como ocurrió con el
condicionamiento clásico, entraremos en las teorías y los principios más
explicativos de por qué condicionamiento operativo y fenómeno es un poco
más complicado. Esto, cuando entráis en el 5, mucha gente comenta que es
el más complicado y todo eso. Entonces, tenéis que pensar que con la base
que traemos de todo lo anterior, el 5 se puede hacer simplemente como
matices de los anteriores, como veremos ahora. Lo importante es la base. O
sea, no es tan complicado, sino que requiere tener muy claro lo anterior.
Nada más. Entonces... Lo que vamos a ver aquí, como dice el título, son
programas de reforzamiento. Aquí están resumidos los que se ven en el
capítulo o los que habrá que saber definir. Pero, en principio, los dos
que tenemos aquí a la izquierda, los más simples, son las bases de casi
todos. Y se trata de ver qué reglas de reforzamiento podemos poner en una
sesión o un experimento para ver qué efectos tiene la conducta en el
aprendizaje. Son, digamos, pues, reglas para programar sesiones de
aprendizaje. Ya hemos visto en el capítulo anterior unas pistas de que el
reforzamiento parcial es más potente. Que el reforzamiento continuo, es
decir, cuando no siempre toda la respuesta recibe un refuerzo, sino
algunas, de forma variable sobre todo, se obtiene una resistencia a la
extensión, una persistencia mayor de la respuesta, por lo tanto, un
aprendizaje mayor. Podemos distinguir, o sea, veis. Veis que la forma más
fácil de distribuir los reforzadores hay dos, básicamente. Aquellos que
se regulan en función del número de respuestas, lo que yo obtengo depende
del número de respuestas que yo emito, o de la frecuencia, o de la tasa, o
de... Algo relacionado con la respuesta, depende del sujeto, y los de
intervalo, en los que el tiempo marca si se pueden obtener o no refuerzos
ante las respuestas. Es decir, no es el número de respuestas, sino una
respuesta a tiempo la que obtiene el refuerzo. Bien, estos programas
básicos, claro, regulan la respuesta al refuerzo y también los estímulos
discriminativos que decíamos. En determinadas situaciones, cierta
respuesta tiene un refuerzo. Discriminar esa situación, que por sí misma
no está reforzada, sino saber que se puede hacer la función del estímulo
discriminativo, como dijimos nosotros. Entonces, un programa de razón, es
decir, de número de respuestas. Las respuestas emitidas para obtener el
refuerzo puede ser fijo o variable. ¿Qué quiere decir? Fijo o variable,
pues que el número de respuestas exigidas es siempre el mismo, la razón
fija, y al cabo de esa respuesta se obtiene el refuerzo. Y el variable,
aunque en promedio, siempre ajustamos el promedio para poder comparar los
programas con otros, es un número equivalente, por ejemplo. Y el intervalo
de razón fija, lo que hacemos es variar en función al azar cuántas
respuestas se requieren cada vez. En el de intervalo, fijo, cuando pasa
cierta cantidad de tiempo, si emites una respuesta obtienes un refuerzo y
ese tiempo es siempre el mismo. Intervalo variable. Ese tiempo en promedio
es el mismo, pero aquí vemos algún ejemplo. Supongo que esto se entiende
bien, como es la base también hay que tenerlo claro. Razón fija, 6, RFC6
es lo que nos vamos a encontrar. Os acordáis que en el experimento de
Newton de la práctica obligatoria tenemos un IV30, ¿de acuerdo? Y V30.
Bueno, pues aquí razón fija 6, 1, 2, 3, 4, 5, 6, que es esta respuesta,
último refuerzo, punto B. El tiempo es indiferente, 1, 2, 3, 4, 5, 6,
refuerzo. Ración variable 5, en promedio, aquí ha emitido 1, 2, 3, 4, 5,
15 respuestas y ha tenido otras respuestas. En promedio es una razón
variable 5. Bueno, en principio la razón variable suele ser al azar. No
hay un patrón, sino que se distribuye al azar con un promedio determinado.
En intervalo fijo, 8, por ejemplo, aquí, si os fijáis la respuesta que
ocurre después de los 8 segundos, obtiene el refuerzo. Hasta que no pasan
otros 8, desde la respuesta anterior, vuelve a empezar a contabilizar. En
intervalo 1, 2, hasta el 16, aunque responda antes no obtiene nada, solo
independientemente de número de respuestas. Que hay aquí pocas, aquí
muchas, justo eso. Y el intervalo variable de 5, aquí si nos fijamos han
pasado 20 segundos, ya que hay 1, 2, 3, 4 respuestas, 5 son, ¿de acuerdo?
fácil hasta ahora bien pues lo que lo primero que vamos a ver es también
nos comenta cómo se registra esto que aunque nuevamente tenemos ya los
ordenadores pues normalmente teníamos unos registros que marcaban como yo
hago aquí más o menos el número de respuestas emitidas con tics en el
gráfico que iba avanzando en función del tiempo y bueno era un registro
acumulativo que nos permitía ver cómo iban respondiendo y cómo se iban
acumulando respuestas con este registro acumulativo vemos los programas de
razón fija conseguían este perfil es decir aquí lo que vamos aumentando
cada vez que se responde sube un poco la línea no vemos que cuando es
plana el animal no está respondiendo cuando sube está emitiendo
respuestas y bueno y otro matiz razón fija uno es reforzamiento continuo a
la respuesta que emite se obtiene un refuerzo en general se aplica una
razón fija mayor que uno en los experimentos tipo skinner que aprieta una
palanca es un movimiento sencillo pero hay que hacerlo muchas veces y lo
que se obtiene es una tasa de respuestas constante y alta con descansos una
vez conseguido el reforzamiento para un momento y luego lo estos está este
esquema está perfil de función d el programa refuerzos de la exigencia
del programa genera que las pausas son mayores y la exigencia del programa
es mayor si me canso más para tener refuerzo el descanso luego el millón
hay una lógica va bien carrera de la razón se le llama a la subida y al
descanso y tensión de la razón como términos específicos la la carrera
la subida descanso la tensión bien cuando el programa es de razón
variable es decir yo no sé exactamente cuándo voy a obtener el premio el
refuerzo la se calcula por promedios la el perfil que no tienes este es
decir una tasa respuesta bastante constante veis que no tiene pausas o
espaldas son menores que no se ven en el perfil animal descansa cuando le
parece en una forma sistemática por lo tanto el perfil es un poco más
irregular pero en el fondo de una forma lineal que es lo lógico que
podíamos esperar si imagináis la situación no en general los programas
de razón los dos dan tasas de respuesta similares en cantidad de
respuestas que se obtienen. Quiere decir, cantidad de reforzamiento
utilizado, si ponemos una razón fija de 5, una razón variable de 5, con
el mismo refuerzo y sujetos equivalentes, obtendremos una tasa de respuesta
equivalente. Pero los dos son parecidos. ¿De acuerdo? Muchas veces os
digo, como decía en condicionamiento clásico, que se imaginéis la
situación. Ocurre, la mayor parte de las veces ocurre lo que esperamos,
otras no. Pero esto nos sirve para recordar estas cosas. Programas de
intervalo. El programa de intervalo fijo produce también una especie de,
le llamamos festoneado porque es más suave, la pausa y el... retomar la
actividad es más suave y tiene una razón, la razón es más brusco, se
para y se empieza más rápido. Bueno, pues este festoneado y las pausas
por reforzamiento, que dependen del intervalo de tiempo, el mayor o menor,
y de la cantidad de refuerzo. Si podemos imaginar que si el intervalo es
grande, la pausa también será mayor, si es menor, también. Y nos hace
falta un mecanismo que explique por qué yo soy capaz de aprender mediante
un programa de intervalo y por qué me paro cuando obtengo el refuerzo.
Pues bueno, lo que hablamos, lo haremos de una especie de discriminación
temporal subjetiva, una especie de reloj interno. Y lo del intervalo
variable, yo no sé cuándo voy a obtener un reforzador, pero sé que si
respondo es más probable que no. Las paradas aquí tampoco se pueden
prever, por lo tanto obtenemos una tasa también, una línea parecida a la
razón variable en la forma y no tan pronunciada. Es decir, los intervalos
en general producen una tasa menor que los de razón. Es lógico esperar
eso porque en el de razón el refuerzo depende de mi respuesta solamente.
Mientras que en el intervalo, de alguna forma se premia esperar y no
responder de forma precipita si no esperamos. Algunos matices que se hacen.
Por ejemplo, en el intervalo, si yo espero mucho... ...a responder,
obtendré casi seguro un refuerzo. Para evitar el aprender esa pasividad de
esperar mucho a responder, lo que se hace es que el refuerzo está limitado
a un tiempo. Por ejemplo, si he puesto un intervalo fijo de 5 segundos,
pues a lo mejor el refuerzo está disponible durante 2 o 3 segundos. Si
responde más tarde esos 2 o 3 segundos, ya no ocurre nada, vuelve a
empezar el periodo. ¿Para qué? Pues para eso. Para evitar que se premie
el no responder, estar ahí esperando nada más y cada vez que le das, si
tardas mucho, obtienes un refuerzo. No sé, ¿algún matiz más? La
versión limitada. Los matices del festoneado, de la tensión y de las
razones son los que se ven ahí, no tienen mayor dificultad. Necesito un
comentario. Normalmente la tasa de... Bueno, comento una cosa que no sé si
tiene mucha importancia, pero si la voy a tocar en la página 224. Dice que
los programas de razón, hemos dicho que dependiendo de la cantidad de
exigencia del programa de razón mayor o menor, la pausa por reforzamiento
es mayor o menor. Bien, estoy de acuerdo. ¿Y qué pasa si cambiamos de
programa de vez en cuando? Es decir, primero un programa de tasa, o sea, de
una pausa larga o de una exigencia larga y esto más corta. Sabiendo que ha
cambiado el programa, es decir, con alguna señal que el animal sepa que ha
cambiado el programa. ¿Qué hará la pausa? ¿La del programa que venía
sucediendo o de lo que va a venir? Esa es la pregunta que se hace del
experimento y la respuesta es que manda el que va a venir. Si yo sé que
luego viene un programa de reforzamiento más largo, las pausas por
reforzamiento son más largas. Es un pequeño matiz. Ahora sí, lo que es
más importante es la comparación entre intervalo y razón. Ya hemos visto
que son muy parecidos. En general, siempre en intervalo variable y en
razón variable, más que no fijo, se obtiene una respuesta más vigorosa y
más aún en razón que en intervalo. Es decir, si se hacen los
experimentos para compararlo, lo que hacemos es poner, por ejemplo, en
razón variable e intervalo variable, de forma y manera que los refuerzos
sean similares y ver con cuál se consiguen más respuestas. ¿Cómo
logramos que los refuerzos sean similares? Bueno, pues hacemos un programa
de intervalo y luego programamos el de razón en función de los refuerzos
recibidos en el intervalo. Y en la comparación sale ganando. Y en los de
intervalo hay que aludir a sentido temporal y, por lo tanto, normal, que
sea un poco más fuerte. Esta forma de analizarlo, como veis, es difícil
de verlos en conjunto porque son diferentes situaciones. Una cosa que
depende de mí, de las respuestas que yo... Como veis, como el programa es
de razón, genera un aprendizaje de hacer algo para conseguir algo. Sin
embargo, los de intervalo activan el sentido temporal y lo que hacen es
reforzar, estar parado más o menos tiempo. No hacer emitir muchas
respuestas, sino... El tiempo entre respuestas, que sea más alto o más
bajo. Si el intervalo es muy largo, estoy reforzando o indicando que las
respuestas deben separarse una de otra para conseguir el premio. Esto lo
llamamos tiempo entre respuestas. En realidad, el tiempo entre respuestas
que suele reforzar a la razón variable es muy corto. Porque el animal
cuando hace una pausa no tiene nada, pero cuando empieza a responder,
acumula respuesta en poco tiempo, él recibe el refuerzo. Sin embargo, el
programa de intervalo tiende a reforzar tiempo. Estas respuestas son
largas, porque si paras, esperas un poco y respondes, casi seguro que
tendrás un refuerzo. Entonces, lo que se hace es una explicación de los
últimos acontecimientos que determina la respuesta. El tiempo, lo que ha
pasado. Lo que ha pasado en las últimas respuestas es lo que determina la
siguiente. Esto es un análisis, como podéis ver, molecular, muy
detallado. ¿Qué está ocurriendo? Determinará lo que hago a
continuación. Lo que ha ocurrido en apenas los últimos ensayos, las
últimas respuestas, es lo que determina. Ahora bien, hay autores que
proponen un análisis molar. Dice que cuando aprendemos, no solo nos
guiamos por lo que ocurre. los últimos ensayos, los últimos refuerzos,
sino que lo que hacemos es un análisis global de la correlación entre mil
respuestas y los refuerzos conseguidos. Somos capaces de calcular cuánto
hemos recibido en sus primeros que hemos hecho. Y eso es lo que determina
la tasa de respuesta. Es una explicación molar o global. Somos capaces de
captar la correlación entre lo que hacemos y lo que recibimos. Una forma
de analizar este tipo de polémica o de cuestión teórica es la llamada
función de retroalimentación. En esta función no nos preguntamos cuál
es la causa de cada respuesta, sino que no hacemos un análisis causal,
sino que simplemente relacionamos respuestas con refuerzo obtenido en cada
uno de los programas. Ponemos en una gráfica el número de respuestas y el
número de refuerzos y los cruzamos. Es decir, cuando obtenía aquí
respuesta, obtenía aquí refuerzo y así sucesivamente. Y obtenemos este
tipo de gráfico. En un programa de razón se suele obtener una línea.
¿Por qué? Porque el número de respuestas es proporcional al número de
refuerzos, con lo cual se obtiene una línea recta. Pensad que si cada x
respuestas va a tener un refuerzo, siempre esto va a ser proporcional. En
la misma sesión, por supuesto, si cambiamos la exigencia, es diferente.
Mientras que en el programa de intervalos obtiene un aumento de la
respuesta al principio muy rápido y una estabilización después cuando el
animal de alguna forma obtiene ese sentido del tiempo. Es lo lógico, ¿no?
Las cantidades de reforzadores que obtenes en una cantidad de tiempo llegan
a un límite máximo. En el programa de intervalos no se puede tener todas
las reforzadoras que tú quieras, sino el máximo que te permite el
intervalo. Si cae uno por minuto, en una hora obtendrás 60, como mucho, si
lo haces bien. Bueno, pues esta función nos ayuda a distinguir o ver qué
diferencias hay entre uno y otro y qué mecanismos hay. Para aprender bien.
Lo volveremos a ver el día siguiente, a seguir con este tema, a ver si
después va a acabar bien o por lo menos dejarlo bastante avanzado. Y es el
tipo de cosas que vamos a ver aquí. Es decir, matices y discusiones acerca
del funcionamiento del condicionamiento operante. Matices que como podéis
ver a veces dan explicaciones locales, moleculares, otras. Molares, y cada
una tiene su propio desvánito. Pero hablamos siempre de lo mismo, de ese
aprendizaje asociativo, estímulo discriminativo, conducta, refuerzo. Y
cuál es la teoría más adecuada o cuáles explican qué fenómenos y
cuáles no. ¿De acuerdo? Bueno, si tenéis dudas, ya sabéis, los medios
de contacto os animo a que los uséis. Si no, hasta el viernes que viene.