Bien, siguiendo el ritmo que llevábamos, nos tocaba hoy ver el tema 5,
perdón, 6, los programas de elección concurrente. Dijimos que los
programas se podían plantear como simples, bajando intervalo fijo
variable, e incluso programas específicos en los que trabajábamos con
respuestas diferentes. O sea, variábamos el tiempo entre respuestas y
reforzábamos las tasas altas de respuesta baja. O programas compuestos en
los que se... Combinan uno, varios, al menos dos simples. Dijimos que la
clasificación se basaba en múltiple y mixto, el cambio de entre
programas, lo decide el experimentador, haga lo que haga el sujeto. Y el
mixto no se avisa y el múltiple no avisa. Y los de tándem y encadenado,
que son propiamente secuenciales, porque el cambio ocurre porque has
completado un programa y el refuerzo ocurre cuando completas ambos. Por lo
tanto, hay que completar los dos. Y en el tándem no se avisa el cambio, en
el encadenado hay una señal que avisa. Bien, los que aparecen a la vez,
simultáneos, el animal puede responder al que prefiera. Tenemos los
concurrentes y los combinados. Los combinados hay una condición, por
ejemplo, que completan menos uno de ellos, o los dos para la serie de
refuerzo, o cualquier otra condición que se nos ocurra. Y los
concurrentes, que son los que vamos a ver ahora, se utilizan para dar a
elegir los programas que están a la vez disponibles y que solo dependen de
las preferencias del animal. Con los programas concurrentes, entonces...
Vamos en la ley de igualación. ¿Cuál? ¿Qué programa elegirá un animal
en función de los refuerzos que pueda conseguir? La primera vez que se
utilizó esto... antes de dar programas concurrentes, lo que se solía
hacer era comparar el número de refuerzos que podían conseguir un
programa u otro, pero los refuerzos podían ser diferentes y las
preferencias de los sujetos experimentales podían ser también diferentes
entonces este tipo de programas de elección el refuerzo es el mismo solo
que se elige una u otra forma de conseguirlo ¿cómo prefieres ganarte tú
el sueldo? ¿con un sueldo por cada mes trabajado o un sueldo por
incentivos? por objetivos conseguidos algo así sería la perspectiva
entonces en las primeras determinaciones en las primeras veces que se sigue
este procedimiento se utilizaba programas de intervalo variable en el
programa de intervalo variable yo puedo poner dos concurrentes en los que
una tecla tiene el programa A otra tecla tiene el programa B ambas tienes a
mi disposición y puedo poner en una por ejemplo un intervalo de 30
segundos y en la otra 60 ¿qué ocurrirá? el animal responderá
probablemente más que 30 segundos porque va a conseguir los refuerzos
antes cada 30 segundos una respuesta a tiempo puede ocasionar un refuerzo,
va respondiendo de vez en cuando consigue, pero la otra tecla aunque menos
veces me dé refuerzo pulsarla de vez en cuando, cuando haya pasado dos
refuerzos de 30, me dará un refuerzo también 60, entonces como veis el
paradigma cuando el animal se hace consciente de alguna forma de la
distribución de los refuerzos dará una distribución de respuestas en
ambas ¿no? cada vez que ha pasado un minuto si responde en el programa B,
recibiré un premio cada vez que ha pasado medio minuto si responde A,
daré un premio ¿Qué se espera que ocurra aquí? Si la tasa de refuerzo
va a ser el doble, en el IV30, en el IV60, cuando llegue al máximo, por
ahí de la curva le hacíamos, cuando llegue al máximo, el animal sea
presto, o sea, sea capaz de conseguir casi el máximo de refuerzos, aquí
conseguirá el doble que aquí. ¿Qué esperamos que ocurra con la
respuesta? Respuesta. Herstein dijo que la respuesta se va a distribuir de
la misma forma, por eso se llama ley de igualación. Dijo que la
distribución de las respuestas va a ser similar a la distribución de los
refuerzos, que se pueden conseguir en cada alternativa. Es sencilla la
lógica, aunque hay unas pequeñas fórmulas no tienen nada de importancia,
de hecho no son muy exactas. Entonces, ¿qué ocurre si utilizamos dos
programas similares? El valor variable 60. Ojo que es un intervalo
variable, no es decir que a los 60 segundos lo tengo en el premio seguro.
Pero distribuir respuestas en uno u otro, tasas iguales, la mitad de cada.
Entonces, la medida que se suele utilizar, hay otras y las veremos luego,
es esta. El porcentaje de respuestas que se han dado en una opción
respecto al total de respuestas. Y el porcentaje de refuerzos que se han
logrado en una opción respecto al total de refuerzos. Y la ley de
igualación dice que la tasa relativa a respuestas se va a igualar a la
tasa relativa a recuerdos. Es una ley bastante sencilla en su formulación
lógica. Tenemos algún experimento ahí con cuatro palomas. Palomas que
vemos que se distribuyen, vamos, más o menos, cuatro palomas se
distribuyen. con la misma tasa, ¿de acuerdo? Heston probó diferentes
combinaciones y en todas ellas se cumplía esta fórmula, ¿no? Todas eran
intervalos variables. Varios ejemplos, por ejemplo la misma cantidad de
refuerzos, 40 por hora se pueden conseguir con intervalos variables de 6
segundos o de 2 segundos, pues dependiendo del tiempo un minuto se cuesta,
pero bueno, son unos minutos y horas pues en 10 horas más 30 horas
obviamente respondería mucho más a 2 y cuando son iguales responde lo
mismo. Bueno la forma de recordar la ley es la tasa de refuerzo de
respuestas que yo daré en cada alternativa, depende de la posibilidad de
premios que tengas al carácter ni más ni menos. Ahora bien recordamos que
el reforzamiento no siempre es equivalente en la cantidad de premios, el
valor del refuerzo puede ser matizado por la intensidad o la saliencia o la
magnitud, recordamos, la demora el tiempo que tarda en darme, bueno pues si
esos factores los metemos en la fórmula cantidad, demora, sabor, la
preferencia del animal, tendremos que la tasa total de respuestas se
distribuye según el valor del refuerzo y el valor del refuerzo será
repartido entre todas las posibles opciones, aquí hablamos de dos la más
imperial, le damos 20 si queréis el valor del refuerzo, la magnitud, la
demora en A la magnitud, la demora en B y todo ello de una forma
multiplicativa, aunque la fórmula está no aclara bien porque no, si
sumamos los valores de A y B no da uno, pero que nos quede claro, el
refuerzo con todas sus variantes su valor general Va a hacer, va a
distribuir, va a dirigir las respuestas hacia las alternativas que lo den
con mayor medida en la misma tasa. Tasas relativas. Aquí supongo que no
tenéis ningún problema. Si tenéis algún problema, lo habéis estudiado,
y algo no se entiende porque hay algunos conceptos que quedan poco
explicados, no es que sean más complicados, sino que el libro explica
poco, no tenéis problema preguntarlo. Luego, al final, os enseñaré
algunas preguntas, si no las habéis mirado en exámenes, para que veáis
que tampoco las preguntas van al fondo. Es una cuestión, o sea, no van a
detallar, van a entender. Bien, ¿qué ocurre si en vez de como hizo
Einstein, que tenía programas de intervalo variable, yo tengo dos
programas de razón, o de razón fija? Por ejemplo, un programa de razón
fija de... Bueno, también puede ser variable. Un programa de razón fija
de cinco respuestas y otro programa de razón fija de diez. Gracias. Una
palanca por cada 5 respuestas me da un refuerzo y la otra palanca cada 10
respuestas me da un refuerzo. ¿Cuántas veces responderé en la palanca B?
Ninguna, ninguna. ¿Para qué? Para que si son iguales las dos palancas no
son equivalentes, ¿para qué le voy a dar a una 10 veces para conseguir lo
mismo que la otra me da con 5? 5, eso es obvio, eso lo único que tenemos
que ver con esto, si se cumple la ley de igualación o no. ¿Habéis
mirado? Podría parecer que no, que distribuimos las respuestas donde nos
conviene, o sea, como RA, RB va totalmente hacia A, RB es 0. Esta fracción
nos da 1. ¿1? Podemos pensar que los refuerzos en RB también podrían
existir, pero es verdad que en los programas de razón la atención a no de
un refuerzo depende de las respuestas. Si yo no respondo, RB es cero y por
lo tanto esto también vale uno, se cumple la ley de igualación. También,
en los programas de razón, aunque respondamos solo a una alternativa, se
cumple la ley de igualación porque los refuerzos que vamos a conseguir
también dependen de mi conducta y hacen que las dos fracciones sean
equivalentes. Bien, cuando combinamos intervalo de razón, ¿qué ocurre?
Bueno, pues cuando combinamos intervalo de razón, en principio... ...se
cumple bastante bien la ley de igualación, vamos a aquel programa que nos
dé mayor número de refuerzos, con una pequeña desviación hacia el
programa de intervalo. Es decir, preferimos un poco más el programa de
intervalo a pesar de que sea menos productivo que el de razón. ¿De
acuerdo? No quiere decir que se prefiera más el intervalo de la razón,
sino que la proporción de respuesta, siendo mayor de razones, menor de la
que cabría esperar si respondiéramos de forma óptima. Es un dato
importante, recordadlo. Cierto sesgo a favor del programa de intervalo
variado. Bueno, esto se puede explicar un poco, alguna teoría trata de
explicarlo. Otro factor, otra forma de ver la desigualación, es la
desigualación temporal. La desigualación temporal dice, no sólo
igualamos el número de respuestas que damos en cada alternativa, sino
también el tiempo que permanecemos en cada alternativa. En función de los
programas de refuerzo que haya en ellas. Es decir, tiempo en alternativa A
relativamente al tiempo total es equivalente al refuerzo en alternativa A
relativamente al refuerzo total. Otra vez, si queréis, con todos los
modificadores del refuerzo que podemos poner. Y aquí nos presenta un
programa tipo Finlay, que es un programa que permite separar las
preferencias entre uno y otro. Programas porque lo que hay es una respuesta
de elección y luego el programa en sí. Es decir, primero se elige
mediante una respuesta, mediante una tecla o lo que sea. Se pone el marco.
Un programa u otro. Y podemos ver la preferencia o el tiempo que se está
en un programa u otro. En el tipo Finlay se pueden medir incluso
alternativas que no den ningún refuerzo. Alternativas simplemente que...
le proporcione comida con cierta frecuencia en un lado, cierta frecuencia
en otro y el animal está un tiempo aquí cuando quiere cambiar a otro
mediante el botón de cambio y podemos medir las preferencias sin la
contaminación del refuerzo final, el tiempo que está en cada lugar
podemos medir el tiempo de permanencia puro como sin la contaminación de
la cantidad de refuerzos o la cantidad de respuestas porque en este caso no
se le exige ninguna respuesta podemos eliminar el requisito de respuesta y
comprobar esta ley eliminamos esta fracción o podemos eliminar, bueno el
programa tipo fin de simplemente es eso, es una tecla que permite cambiar
un programa, luego en el programa podemos hacer lo que queramos, podemos
hacer una teoría de edición clásica o vamos a hacer una totalmente
diferente bien, con todo esto que hemos visto hemos visto que podemos ver
una serie de... Bueno, antes de nada, vamos a formular una ley general que
recoja todas las variables que se han estudiado respecto a la ley
particular. La que hemos visto de Herstein es la formulación más
sencilla, primera. Poco a poco se han ido añadiendo factores, como hemos
visto antes, las variables de la preferencia del refuerzo y también vamos
a añadir factores de las preferencias del sujeto personales para formular
una ley general de igualación. Pero, antes de eso, hay un pequeño
problema para esta ley, bueno, para todas las leyes de igualación, y es
que a veces el mero cambio de un lugar a otro produce un refuerzo, por
ejemplo, si tenemos un intervalo variable corto, vamos a poner 2 y un
intervalo variable 4 probablemente, cada vez que cambiemos a 4 recibamos un
refuerzo. Entonces es posible que se refuerce la conducta de cambio y no
refleje tanto la preferencia por el intervalo variable de 4 o de 2, sino
que tendamos a cambiar más de la cuenta porque se tiende a reforzar el
primer ensayo después de haber cambiado. Bueno, esto se llama tendencia a
la alternancia. La alternancia puede ser también la preferencia del animal
por cambiar de conducta, por probar, por curiosidad y también por refuerzo
accidental. Entonces, se introduce una pequeña demora por el cambio.
Quiere decir que en el momento que yo cambio de programa, de tecla, hay
unos periodos cortos, relativamente cortos, en el que no hay refuerzo.
Ahora, ¿qué pasa? Para evitar que esa primera respuesta en alternativa de
cambio reciba un refuerzo y se esté reforzando, se esté primando la
conducta de cambio y no tanto la preferencia por el programa de cambio.
Demora por el cambio. ¿De acuerdo? Le introduce el experimentador. Ya con
esto desaparecería todos estos problemas de alternancia. Otros sesgos.
Puede haber muchos. Puede haber preferencias por una señal, por otra, por
una conducta del animal, del sistema perceptivo que estemos utilizando.
Entonces lo que necesitamos para poder ver las preferencias por un programa
de reforzamiento u otro es o bien conocer todos esos sesgos o bien
eliminarlos de alguna forma. Baum propone un método para medir los sesgos
y eliminarlos. El método es muy sencillo. En una primera fase planteo un
programa en Rookie mediante... Mediante la equiparación de los
reforzamientos que se consiguen en ambas alternativas, las hacemos, en
cualquier caso, equivalentes, objetivamente equivalentes. Entonces, el
sujeto empieza a responder. Si hay una preferencia hacia una de las dos
sistemática, no aleatoria, digamos que hay un sesgo personal hacia esa
alternativa. Y en la fase experimental lo corregiremos. Es decir, si ante
la igualdad de refuerzos yo elijo, pongamos un 10% más una alternativa que
la otra, consideramos que ese es mi sesgo mínimo. Sí, preferencia marcada
hacia un lado. Entonces, a la hora de medir qué programa me interesa más
tengo que restar ese 10%. Bueno, es el método del BAUM para corregir los
sesgos de todo tipo. asociados a un sujeto experimental. Cada sujeto
experimental tiene una definición. Una vez que conozca los sesgos cada
sujeto experimental, la fórmula en la fórmula del reforzamiento tenemos
que meter los sesgos como una variable más para corregirla y ahora sí se
va a cumplir la ley general de igualación. Es decir, la ley general de
igualación recoge en una magnitud que llamamos sesgo, las preferencias
sistemáticas, no casuales hacia una alternativa que no depende del
reforzo, que depende de otras variables que no nos interesan. Aquí en este
punto nos introduce otra forma de medir la preferencia de respuesta hacia
una evaluación. Otra formulación equivalente De la ley de evaluación es
esta. Las respuestas en A comparadas con las respuestas en B, ya no con el
número total, sino A o con B, dependen de los refuerzos en A comparados
con los refuerzos en B. Es equivalente a esta fórmula, solo que
matemáticamente se encuentra otro tipo de equivalencia. Veamos, en esta de
aquí, si me sale la fracción 1.5, tanto la respuesta como el refuerzo,
vamos a poner que se cumple la ley, quiere decir que las dos alternativas
son exactamente equivalentes para mí, en la respuesta y en los refuerzos.
Es decir, cada respuesta en A, una en B. Uno vive para dos. A medida que
voy prefiriendo A sobre B, esta fracción se aproxima a 1. Y a medida que
voy prefiriendo B sobre A, esta fracción se aproxima a 0. El punto de
equivalencia es un medio, las dos alternativas son indiferentes, el punto
de preferencia del numerador, la que esté midiendo, puedo medir A o B,
bueno, la que esté midiendo, si se aproxima a 1, la prefiero mucho más,
si se aproxima a 0, menos. Bueno, en este otro tipo de medida, la
preferencia equivalente de las dos por igual me dará un valor de 1, si RA
es igual a RB, un valor de 1, pues igual. Si prefiero en gran medida,
alternativa medida, la RA por ejemplo, sobre RB, esta fracción se aproxima
a infinito y viceversa hacia 0. Es decir, esta. Esta sale de 0, pasa por el
punto de equivalencia en 1 y ahí hasta infinito, desde la otra. Esto es
una medida de tipo logarítmico, se puede simplificar, si bien tomamos
logaritmos podemos simplificarla, o bien tomar esta que parte de 0, pasa
por un medio. darles un equivalente lo único que tenemos que entender es
que no están diciendo nada bien una vez tenemos en cuenta o nos ponemos en
ecuación todas las preferencias, los sesgos todas las posibles variables
que pueden estar interviniendo a la hora de elegir una respuesta u otra la
ley general de evaluación es esta donde hemos introducido dos parámetros
nuevos al refuerzo uno multiplicando y otro potenciando esto lo propone
Baum como una forma de poner en ecuación todos los elementos que hasta
ahora se han comprobado que funcionan o que tienen que ver con la conducta
de elección acá son los sesgos personales de una respuesta u otra y que
podemos calcular con el método de Baum igualar los refuerzos y ver si hay
una preferencia sistémica Esa es la corrección del sesgo. Y la S, que
está como un exponente, vendría a ser la sensibilidad o la fuerza con que
cada programa me funciona a un sujeto en concreto. Pongamos por caso que yo
soy mucho más proclive al reforzamiento variable, ¿qué prefieres? ¿Un
sueldo fijo al mes o prefieres uno por incentivos? Si soy mucho más
proclive, pongamos la variable, los incentivos. Esta sería una preferencia
marcada y la S sería un número mayor que 1. Si me da igual uno que otro,
no hay una... Preferencia en la sensibilidad especial, S sería 1 y esta
ecuación quedaría de forma neutra como aquí. Y si fuera al revés, que
prefería de alguna forma el B, que sería más sensible al B, sería
más... alto, o sea, mejor, menor de 1 el valor de S y la fracción sabéis
que un número menor de 1, bueno, la fracción tendería a disminuir el
número de acertarías. Bien con esta ley, con esta función que puede
recoger todo, ya os digo que no hace falta más que entender lo que hay, la
fórmula en sí no, la parte matemática no tiene mucha importancia, sí
tenemos que entender estos dos conceptos la sobreigualación y la
infraigualación si pongamos por caso, la alternativa A es equivalente a la
de B, y yo suelo elegir más la A que la B yo tengo, o sea, más la
favorable a la no favorable sobreigualación si son equivalentes,
normalmente no va a haber no tiene sentido esto, pero sí, por ejemplo
elijo más, la más favorable, estoy sobreigualando, estoy dándole trato
de favor a la que es mejor. Para mí, a la que me da más refuerzo, la
elijo más. Es decir, más de lo que correspondería, más de la ecuación
matemática. Entonces la S se llevaría más de uno, sería más sensible,
cometería sobre... Y al revés, cuando la que me da más refuerzo la elijo
menos de lo que debiera, se comete infraigualación. En la página 249
tenéis... Bueno, no, perdón, no sé qué página es porque en mi libro es
un poco grande. Pero tenéis un gráfico sobre la sobre y la
infraigualación. Hay un punto medio cuando A y B, el refuerzo de A y B son
equivalentes. Y cuando dejan de serlo, hacia arriba, hacia la derecha del
gráfico, A es mayor que B. El refuerzo de A es menor. A es mayor que B.
Entonces cometo sobreigualación al elegir más A de lo que debería, y lo
contrario, infraigualación. Y por debajo de ese punto media, es decir,
izquierda de la gráfica, B es favorable, es más favorable, cometo
sobreigualación. Si lo elijo más al B, es decir, se va hacia abajo, y lo
contrario, si elijo más el A, cometo infraigualación. Ojo que simplemente
es una artifición porque A y B son preferibles hacia arriba y hacia abajo.
Pero el concepto es muy sencillo. Si elijo la alternativa favorable más de
lo que debiera, sobreigualación. Si elijo la alternativa menos favorable,
menos de lo que debiera, infraigualación. Bueno, todos estos sesgos se
pueden recoger en la función que hemos dicho, así que ahí queda. Bueno,
también hay un caso curioso. Si la S fuera 0, la preferencia sería
constante. Si la S fuera 0, cualquier número elevado a 0 es 1, ¿no? Si la
S fuera 0, cualquier número elevado a 0 es 1, SRA partido por RB es igual
a K. La respuesta central sería constante, siempre la misma. ¿Por qué?
Porque el refuerzo que me están dando en una o en otra me es indiferente.
Imaginaos que le dan de refuerzo, en vez de dinero, papeles recortados.
Como no es indiferente, ese es cero. A mí ese refuerzo no me sirve. Bueno,
también nos da un dato que puede ser importante, y yo no lo he visto
muchas veces, que dice que si yo utilizo la demora por el cambio, una
demora por el cambio larga, o bien el cambio de una alternativa a otra me
cuesta de alguna forma mucho, probablemente cometa sobreigualación. ¿Por
qué? Porque me quedaría en una alternativa más favorable más tiempo del
que debiera por no cambiar. Un dato que puede ser objeto de pregunta. Si
entendimos el concepto se puede incluso deducir. Bien, esto es el concepto,
las fórmulas, las teorías formuladas a grosso modo, ahora vamos a tratar
de explicar ¿Por qué? Es así. Pensemos que la teoría de igualación no
es una teoría descriptiva, simplemente dice que lo que podemos esperar
depende de esto y se da un marco para interpretar la respuesta, pero no
dice por qué, por qué o cuál es el mecanismo que le lleva a cómo
calcula el animal lo que le conviene. A la hora de explicarlo, tenemos tres
alternativas. Leyes molares, moleculares e intermedias. Todas ellas asumen
que lo que tratamos de hacer es maximizar el reforzamiento, porque partimos
de ello en todo caso, todas las del aprendizaje, pero la forma en la que
medimos ese reforzamiento es diferente. En realidad, el resultado, la tasa
de respuesta comparada con la tasa de reforzamiento, tratamos de
minimizarla, vamos, es lo mismo. Bien, la molécula. La molecular dice que
yo, en cada momento, emitiré aquella respuesta que en ese momento es más
probable que consigan refuerzo. Si yo hago eso, pongamos los programas más
sencillos de Einstein, de intervalo variable, el estar respondiendo en un
programa de intervalo más corto que el otro, que me da más refuerzos, es
muy probable que me dé más refuerzos, pero de responder de vez en cuando
al otro, también es muy probable que me dé un refuerzo. Entonces, cuando
ha pasado cierto tiempo, mi reloj interno dice ahora la probabilidad de
otro y hago una respuesta en el otro. Y a la larga, con ese mecanismo
puntual de calcular cada respuesta, sale la divido igual a cien. ¿Se
escucha? Según el programa que yo tenga, establecido, decido cada
respuesta. Y según esa decisión se consigue. La molar... Bueno, aquí
podemos tener un análisis molecular mucho más a fondo. En cada ocasión,
en cada ensayo, yo puedo hacer cuatro cosas. Que la mina, o el de, o el de
este, o cambiar de un sentido o cambiar del otro. Y cada una de esas cuatro
opciones tendrá una probabilidad de refuerzo asociada que mi mente calcula
en función de lo anterior en el programa y en el algoritmo. Y eso, por
fin, es la respuesta. La molar es más sencilla de comprender, porque es
más difícil de explicar. Según la molar, lo que hacemos es un cálculo a
largo plazo. A largo plazo, por ejemplo, como este que tengo aquí, tiene
un reforzamiento fijo, una razón fija, perdón. De 10 y otra de 20, la de
20 ni la toco. Siempre me quedo en 10. ¿Por qué? Porque a largo plazo,
esa respuesta me va a dar el máximo. Claro, siempre es más probable
también, la molecular también podría explicarnos. es más probable
también quedarme en el refuerzo de los electrones un refuerzo adentro de
10, una erradación fija de 10 con lo cual parece mejor la explicación
más completa la del molecular, pero el intervalo variable la molar
simplemente dice que a la larga las conductas se asocian con una tasa de
refuerzo bueno, la teoría molar en general si comparamos razón variable
con intervalo variable, como decíamos antes damos menos a razón variable
de lo que debería no nos gusta más el intervalo variable eso la teoría
molar no lo puede explicar pero la molecular sí porque una respuesta de
vez en cuando en intervalo variable es muy probable que sea reforzada
aunque a la larga me convenga estar respondiendo a una tasa alta a razón
variable cuando ha pasado cierto tipo dando un toque a la otra también
consigo una razón entonces, el refuerzo puntual la alta probabilidad del
refuerzo puntual hace que cambie, según la molar no debería ni que
cambiar para nada, tener una tasa en la una cambiar una respuesta a la
otra, al final lo que me quita es el número de respuestas en la otra y no
me convendría, o sea esto se explica mejor con la molecular y que
normalmente entre variables y fijos siempre preferimos un programa variable
¿por qué? bueno, la teoría molar diría que si son equivalentes en el
refuerzo que me dan debería preferirlos por igual pero la molecular dice
que las respuestas en la razón fija hay muchas respuestas que tienen una
probabilidad casi cero de ser reforzadas, y en la variable todas tienen
alguna probabilidad porque primero que sea debe ser reforzada por lo tanto
se explica mejor también y bueno, la tercera probabilidad es el punto
medio del área ¿por qué? la tercera teoría dice yo no me marco un
programa sobre otro no mido solo lo global no mido solo la cada respuesta
Sino que en cada decisión tengo en cuenta un pequeño periodo anterior y
la tasa de respuesta actual. Es decir, miro un poco en perspectiva y miro
un poco la probabilidad puntual y las comparo. Es una molar en un trozo
más largo que la molecular. En cada periodo corto de tiempo calculo una
tasa de preferencia de A y B y tomo la decisión. Y siempre la comparo con
un periodo anterior. Al final también ocurre la igualación, con todas
ellas. Bien, con esto nos resalta más o menos el esquema o las respuestas
en este momento. Bien, la parte... Bien, ahora es ¿qué ocurre cuando una
elección me obliga? a estar un tiempo, a permanecer un tiempo en una
alternativa a comprometerme en el sentido de que no puedo volverme atrás,
que es un programa que otra vez concurrente, solo que no se puede estar
cambiando todo el tiempo bueno, tiene una equivalencia muy fácil en la
vida real, es cuando tú decides tomar una alternativa a la acción
prefieres un examen por libro, prefieres ir haciendo trabajo durante el
curso una vez que lo decides, tienes que permanecer en esa alternativa y ya
veremos lo que haces al año siguiente, normalmente se hace un programa
encadenado en el que hay un eslabón inicial de elección y se aplica un
programa u otro en función de la elección concurrente encadenado
normalmente también se deja un tiempo un tiempo mínimo de permanencia
compromiso y la pregunta Lo que nos vamos a hacer es, ¿qué prefieres? Un
premio principal. ¿Qué prefieres? ¿Un premio grande inmediato? Perdón.
¿Retrasado o un premio pequeño inmediato? El compromiso que se deriva en
impulsividad, quiero todo ya, lo más posible ahora, el tiempo. O otro
control, logro reprimir la impulsividad y esperar a algo más grande más
después. Bueno, en principio los programas encadenados, concurrentes de
este tipo, cumplen la ley de igualación. Porque una vez el tiempo que se
ha comprometido a esta ley, las respuestas, si medimos, también se cumple
la ley de igualación. Y las preferencias. Las preferencias en el inicial,
cuántas veces elijo uno u otro, se cumple también la ley de igualación.
Es decir, tendo elegido el doble de veces, aquel que me da el doble de
datos. Y también encontramos un dato importante, otra vez, que prefieren
los programas de intervalos variables. a pesar de que sean a veces más
exigentes bien más allá de la parte técnica, sí que tenemos que verlo
como algo que se parece más a las elecciones que hacemos realmente en la
línea bien sin entrar en muchos detalles por la falta de tiempo porque
recuerdo que no está en la clase vamos a tratar de marcar conceptos
fundamentales en este caso lo importante es distinguir entre impulsividad y
autocontrol una vez en el ensayo de la Ecliniclin se implementa se le
impone una espera mayor para un premio mayor y le llamamos impulsividad,
preferir la recompensa inmediata aunque sea menor A una de mayor magnitud
posterior. La magnitud era uno de los factores que podemos meter en la ley
general de igualación. Nos quedaría, con su sensibilidad correspondiente,
nos quedaría la fórmula que tenéis ahí en el punto 2-6, que sería una
fórmula personal en que media una persona es autocontrolada aunque en
medida es impulsiva. Bien, hay otra teoría, la del valor del refuerzo, que
lo que hace es poner en la ecuación la demora automáticamente y decidir
que un refuerzo inmediato tiene mucho más valor que el mero hecho de su
magnitud. Entonces, la demora sería un factor, ¿verdad? al valor y la
magnitud directo. Por lo tanto, para medir en qué medio de refuerzo se
hace activo, deberíamos poner en el numerador la magnitud y en el
denominador la demora. Demoras altas disminuyen el valor. Magnitudes altas
lo aumentan. ¿De acuerdo? Y lo podemos calcular. Hay un ejemplo que
probablemente se podrán poner un ejemplo en el examen donde te dice,
¿qué prefiere usted? ¿Un refuerzo de magnitud 10 en 10 días o un
refuerzo de magnitud 1 en un día? 10 dividido por 10 es lo mismo que 1
para 1. Se ven equivalentes. Y si te doy 1 de magnitud 2 en un día, el
valor de 2 dividido por 1 es el doble que 10 dividido por 10. Pues en una
teoría de valor de refuerzo sería 2 dividido por 2. Bueno, matizan un
poco para que el denominador no pueda valer 0 y le ponen una K como una
constante que modula las preferencias o los sesgos de cada uno. Cada
individuo prefiera o le guste ese refuerzo. Y sería eso magnitud por
demora. Y el cálculo, os recuerdo que es una alternativa, es una
alternativa teórica, que dice el valor de refuerzo que puede medir
teniendo en cuenta la magnitud y la demora. Podemos predecir que va a ser
un sujeto con estos dos parámetros. Bien, se supone que también el
castigo, o sea, el reforzamiento con un estímulo agresivo para disminuir
conductas, hace lo mismo, pero el castigo tiene sus propias variables. La
intensidad suele ser mucho más relevante que la demora. Pensad un momento
con algún ejemplo. Veis al dentista al olor de muela. Este no es el olor
de muela, no tiene problema, pero veis al dentista sin olor de muela. Todo
eso también se ve en el tema PSI. Bien, el concepto interesante que viene
a continuación, importante. es una extensión de la ley de igualación a
el refuerzo general que ocurre en un programa de aprendizaje simple es
decir, en el que yo programo una respuesta con un refuerzo hemos dicho que
mi interés hasta ahora era ver en qué medida se emite esa respuesta en
función de cómo administro el refuerzo. Ahora bien podemos hacer un
análisis en términos de elección cuando el animal decide emitir la
respuesta que yo le pido deja de hacer otras cosas que podría estar
haciendo y que probablemente prefiera hacer es decir, toda todo programa de
refuerzo supone una elección desde esta perspectiva y si supone una
elección lo que estaremos haciendo es distribuir las respuestas en
función de los refuerzos que nos den esas alternativas por ejemplo mi
conducta de no hacer nada de pasarme la tarde mirando las nubes a mí me da
una satisfacción un refuerzo Y la conducta de, yo qué sé, de limpiar el
coche o limpiar la casa también le da el refuerzo y la distribución entre
las dos dependerá cuánto tiempo le ha llegado a cada una. La
distribución del refuerzo, la intensidad, la magnitud, el sesgo que tiene
por ahí. Es decir, los programas de refuerzo simple como ¿por qué no lo
hago usted el coche? ¿qué premio le tengo que dar? Suponen una
competencia entre respuestas por omisión, las que haría yo en cualquier
momento o en ese momento y las que no. Bueno, pequeño cambio, la respuesta
esperada contando con que la respuesta entre A o la respuesta entre B. La
respuesta por omisión sería todo lo que yo haría si me hiciera A.
Entonces, las dos juntas. Mi nivel de actividad se considera constante en
esta teoría. RA más RO es constante. Hay un máximo de actividad o una
tasa de actividad que yo puedo hacer y la distribuyo. entre las opciones
que tengo le pones este, bueno pues ahora da más error le llamamos K y
aquí queda la ley de igualación generalizada para cualquier programa el
refuerzo por omisión por no hacer lo que tú me propones está aquí, K es
la respuesta que tú me pones más todas las demás cosas entonces tenemos
una nueva forma de ver respuesta esperada, de otras cosas una nueva forma
de ver el refuerzo de la elección bien, los últimos puntos volvemos a las
teorías que hemos visto alguna vez sobre qué es lo que asociamos a la
hora de aprender o predecir el ambiente cuando no tengo el condicionamiento
operante de la misma forma que nos preguntábamos qué queda asociado mi
mente en el condicionamiento clásico aquí me estaré preguntando qué es
lo que yo en mi mente queda asociado, para Zornak la ley del efecto
consistía en hacer las reacciones moleculares entre la jaula en la que
estoy, ciertos tipos de movimientos en cadena salir y comer entonces es una
teoría molecular hacia atrás, en la que el refuerzo va asentando las
conexiones en cadena en mi mente, las asociaciones en cadena entre la
conducta o el perro, estímulo a la jaula y la respuesta es ahí una ley
molar en actividades libres hay una regulación a largo plazo toda esta
cadena una cadena entre el estímulo discriminativo la respuesta y la
respuesta de la conducta algunos autores pasan a estímulo-estímulo, es
decir los estímulos discriminativos y los posibles refuerzos que generan
en mi mente para todo manteníamos mapas cognitivos, teníamos objetivos,
pero pasamos la teoría otra vez vemos otra vez a Hull que habla de una
teoría motivacional que explica mete variables como vimos en la historia,
mete variables motivacionales, cognitivas con el mapa y la planificación
también es para leer e insistir más en una explicación que hoy por hoy
es más una visión global conectada entre más molar y conexiones
estímulo-estímulo moleculares asociadas el último punto es más
importante reglas de ejecución operante cuando decíamos que una un
estímulo puede ser reforzador o puede ser un castigo o no decíamos que
era simplemente funcional una descripción que un reforzador es todo
aquello que incrementa la probabilidad de una conducta y un castigo todo
aquello que la disminuye bueno pues Premat nos propone que cualquier
conducta que yo prefiera a otra puede reforzarla Si yo prefiero estar
tumbado en una de las nubes a lavar en la casa, limpiar, el hecho de que me
impidan estar tumbado en una de las nubes y que me lo permitan, puedo
reforzar el que limpio, ¿no? Limpiar y luego te puedes descansar. ¿De
acuerdo? El principio es el primero. Si a mí me dejan elegir, la conducta
elegida puede ser reforzadora de la no elegida. Utilizarse como reforzador.
Es una forma de ver, clasificar o ver por qué se puede lograr. Bien. Esto
incluso se puede matizar más. Timberland y Givaldison proponen que además
de las más elegidas, también las conductas menos elegidas pueden resultar
reforzadas. Por ejemplo, si yo todos los días hago 5 minutos o... Te
dedico todas las semanas una hora a cierta actividad y el resto de la
semana a otra, el hecho de que me impidan esa hora de la actividad menos
preferida, y me la deje en media hora, un cuarto de hora genera en mí una
necesidad una prudación y podríamos utilizarla como reforzador. Si yo te
impido hacer algo y luego te lo permito puedo actuar como reforzador porque
la necesidad tuya parece ser en la línea base de la zona entonces podemos
utilizar como reforzadores conductas que no son preferidas conductas
minoritarias siempre y cuando bajemos la posibilidad de emitirlas por
debajo de un nivel habitual bueno esa es la teoría de privación de
respuesta y con esto obtenemos una línea de preferencias en función del
número de fuerzas del número de respuestas que predicen ciertos
fenómenos en relación de lineales y no lineales en función de dónde
está mi punto de preferencia personal y las constricciones de la
situación no voy a entrar en eso porque esto si una situación me permite
solo estar en esta línea y mi punto de preferencia está aquí siempre
buscaré el punto que quede más cerca, ¿no? Entre hacer B y hacer A solo
me permiten esta combinación tanto, o sea, por ejemplo, hacer A y B a la
misma tasa siempre buscaré el punto que se parezca más a lo que yo haría
de forma autónoma sin restricciones. Bien, os quiero mostrar ya estas
lecturas, supongo que habéis mirado algún examen para ver de qué
hablamos en este tema por ejemplo, este examen puede ser el de pasado.
Quiero verlo en este tema para que veáis un poco de dónde apunta. Aquí
estamos en aversivos y aquí tenemos la elección de los sujetos expuestos
en problemas concurrentes se ajusta a la frecuencia de escape la intensidad
de la actividad de castigo a niveles incorrectos Fijaos que el escape y el
castigo son Son los reforzadores. Entonces, nos están preguntando por la
ley de igualdad. Otra. Aquí están mezcladas, pero bueno. Bueno, es una
obra muy básica. Es una obra de 5 de entrega. Podéis ver. El libro de
discriminación, que es en el capítulo siguiente. En el capítulo
siguiente de Down, para corregir los sesgos, el primer paso es equiparar,
bueno, bueno, el reforzamiento de las dos alternativas para ver luego la
respuesta, ¿no? Son, van al concepto general. Bueno, esto es en otros
temas. Ah, no, mira. En el experimento de elección, la demora por el
cambio constituye la descripción, o sea, la definición de demora por el
cambio. ¿Qué es? Una estética respuesta. Un procedimiento para controlar
el comportamiento de alternancia o el tiempo que tarda en cambiar la
alternancia. Bueno, un procedimiento para controlar la alternancia,
recordamos. Podéis ver que hay que tener una perspectiva clara de los
conceptos, pero que no hace falta... ... que os metáis en líos mucho más
profundos que nos dejen claro los conceptos básicos si no, se ven claros
el próximo día veremos el esquema de los dos que quedan y bueno, hasta el
examen que vaya bien que estudien mucho