Bien. Empiezo ahora la grabación porque no me he dado cuenta de ponerla antes, pero al final ya habíamos empezado. El siguiente tipo de estudio es el operante libre, es decir, la conducta se puede dar cuando el sujeto quiera. Hay un entorno donde hay oportunidades de respuesta. El más típico es la caja de Skinner. Es otro autor que la caja que hizo contenía mecanismos, habitualmente una palanca que se pulsaba y dispensaba comida o algún otro refuerzo. El animal estaba ahí y podía responder cuando quisiera dependiendo del programa y dependiendo de las condiciones. Es importante distinguir la respuesta operante como la definió Skinner. Un operante no es una respuesta clara. No es una respuesta concreta, sino una respuesta que produce un resultado concreto. Apretar la palanca. Nos da igual qué cadena de... de actos musculares o cerebrales tengan lugar si al final tiene ese tema que está la palanca eso es un operante porque había que definir bien cómo se lograba instaurar una respuesta instrumental partiendo de la nada es difícil entonces al principio se usaba un condicionamiento atrás una especie de condicionamiento clásico cuando aparecía comida en el comedor se hace un pequeño ruido todo eso hacía que la anima se excitará fue a mirar qué ocurría y eso es lo que vimos el condicionamiento clásico de seguimiento del signo de aquello que ocurre algo voy a ver qué pasa y poco a poco se le va dando un refuerzo si hace determinadas conductas cada vez se van acercando más a la que queremos en el momento que algo ya está instaurado que no es la que queremos dejamos de reforzar esa reforzamos un paso más allá eso significa y bueno y para que podamos reforzar un paso más allá De alguna forma el animal tiene que ser capaz de hacer algo nuevo. ¿Cómo ocurre eso? Pues porque la variabilidad es inherente a la actividad de la mayoría de los seres vivos. No hacemos todo siempre igual. Pequeñas variaciones que nos permiten ver las consecuencias, con lo cual nuevas combinaciones de conductas e incluso construir nuevas conductas. Hay un ejemplo en el libro, que no voy a entrar mucho, pero les enseñaron a hacer aperturas del pico a la hora de picotear diferentes de las que han hecho nunca los palos. Mediante este tipo de moldeamiento progresivo. ¿Qué medimos en las respuestas operantes? Pues normalmente se mide cuántas respuestas por unidad de tiempo. Se llama tasa. Hasta ahora esto es bastante sencillo, pero luego se complica bastante. Vamos con la siguiente. Tipos de procedimientos de condicionamiento de instrumento. En esto hay una práctica también, parece, que os pone diversos ejemplos. De la vida real o ejemplos de laboratorio en el que tenéis que decidir qué tipo de proceso es, qué tipo de contingencia o causa que no se le ha puesto aquí pues la pondré. Se da las consecuencias y el resultado de ese programa. El procedimiento que usamos en primer lugar más habitual es el refuerzo positivo. Si el sujeto hace algo hay una asociación con algo, con un premio en este caso, un estímulo positivo y esto lleva habitualmente a que la tasa de respuesta aumente. Un segundo procedimiento que también habremos oído hablar muchas veces es el castigo. También conlleva la aparición de algo, de este algo aversivo. Por eso mismo la causa o la contingencia es positiva también. Porque aparece algo, aunque sea aversivo, que es el estímulo negativo este se llama aversivo. y habitualmente la respuesta disminuye el procedimiento de refuerzo negativo aquí desaparece algo refuerzo negativo estoy quitando una conducta un estímulo negativo que le hacía daño lo quito se hace lo que yo quiero habitualmente se dan de dos tipos escape y de evitación escape es cuando ya se ha producido el estímulo negativo por ejemplo la famosa descarga que se utiliza cuando siente la descarga se va a otro sitio el animal escapa y la evitación es que hay una señal previa que le indica que se va a producir la descarga y la evita no llega a sentirla ambos son reforzamiento negativo el reforzamiento negativo es cuando se va a producir la descarga y la evitación es cuando se va a producir la descarga y la evitación bueno, sí pero lo que aprende la asociación pero lo que le enseñamos es una conducta de por ejemplo saltar de un compartimento a otro en la jaula o apretar una palanca para evitar que venga la descarga o sea, sí que hay una asociación previa, claro hay un condicionamiento clásico por medio muchas veces ocurre pero lo que le enseñamos es una respuesta instrumental ¿ok? lo que queremos que haga es algo en este caso pongo aquí que la contingencia o la relación causa es negativa porque desaparece algo del entorno ¿qué desaparece? un estímulo adhesivo, con lo cual habitualmente la respuesta aumenta o sea, el reportamiento negativo es si haces lo que te digo, te evitas la descarga o escapas si no, no y por último, el de omisión, que también se llama diferenciando las conductas del aire más por pie en el que se quita un premio un estímulo positivo para evitar que se produzca alguna conducta por ejemplo, si un niño se porta mal lo podemos aislar podemos encerrar su cuarto Le quitamos el ambiente positivo y disminuye la calma. ¿Por qué se llama diferencial de otras conductas? Porque pierde la oportunidad de que otras conductas sean reforzadas. Está en el ambiente en el que se siente bien y las cosas le vienen positivamente y le evitamos todo eso al sacarlo de ahí. Bueno, pues es un nombre. Pero veis el cuadro más o menos y lo hacéis así limpio queda más o menos claro. La columna esta que me he puesto es la de contingencia. Cuando aparece algo es positiva la contingencia, cuando desaparece es negativa. Aparece el reforzador. Bueno, esto como resumen. Vistos los procedimientos vamos a ver los elementos que hay en un condicionamiento instrumental empezando por las respuestas. Las respuestas hemos visto... Bueno, que en cierta medida están controladas por las consecuencias. El... Aumenta la probabilidad de que se produzca una consecuencia por asociación entre el estímulo reforzado y la respuesta. Como dijo otra vez, es ella una especie de asociación. Pero no solamente es una respuesta estereotipada, sino que se puede reforzar cualquier cosa. Se puede reforzar hasta la variabilidad. Que hagas algo distinto de lo que has hecho hasta ahora. Simplemente el programa logra que al final el sujeto se dé cuenta de lo que tiene que hacer y lo hace. Dentro de todo esto podría ocurrir que unas respuestas sean más fáciles de condicionar que otras, como vimos también en el condicionamiento clásico. Hay conductas que el animal hace con más facilidad en ciertas circunstancias. Por ejemplo, sale un experimento de peces que les pedían que hicieran una conducta agresiva, les presentaban como refuerzo o como estímulo un macho o un hembra. El pez era macho, la respuesta agresiva no cuadraba con la conducta habitual de cortejo de la hembra y le resultaba mucho más difícil de condicionarlo. Por ejemplo, hay muchos más. También sabemos que hay ciertas conductas que cuando un animal se cansa o pierde la conexión, tiende a hacerlas más a menudo. Instintivamente un animal, cuando sale el calor cerdos, cuando van a comer, suelen hociquear, oler por ahí. Bueno, pues es más fácil que lo hagan que agarrar la moneda con el ojito y llevarla al sitio. Esa deriva instintiva sabemos que es una condición que hay que tener en cuenta en la realización. Esa es la condición que hay que tener en cuenta en la realización de los experimentos. Y por último, la... Lo que vimos también de los sistemas de conducta. La conducta de alimentación suele tener una secuencia y tenemos que ver qué conductas se pueden reforzar y cuáles no. Sabemos que en la búsqueda de comida no se haga ya, que en la búsqueda general y una focalizada, determinadas etapas, la sensibilidad al aprendizaje es mucho mayor dependiendo en qué etapa estemos. Bueno, el nombre de un experimento en vivo no es lo que encontramos. Por ejemplo, la variabilidad, había palomas que les enseñaban a picotear con una secuencia entre dos estímulos, A y B, ocho picotazos entre los dos y les pedían que cada vez fuera diferente de la anterior. Y al final lo hacían. O sea, se puede tener esa variabilidad. Bueno, puedes verlos, pero vamos a dejarlo así porque si no... Vamos a ver el siguiente elemento que son los reforzadores. Los reforzadores, los premios, los cascados. Los testigos, nada más que hablamos de premios en general para... Es lo más fácil. Tienen que ver sobre todo la cantidad y la calidad. Más cantidad, más calidad, más fuerza. A veces es casi lo mismo la cantidad y la calidad. Pero bueno. Es muy difícil en determinadas circunstancias dosificar y controlar qué refuerzo llega. Por lo tanto, por eso usamos las faulas, las cajas y los experimentos de laboratorio. Y también es importante los cambios que ocurren cuando... Cuando el refuerzo sube o baja durante el experimento. En operante libre, en la técnica operante libre, podemos hacerlo cambios continuos. Y sabemos que hay un efecto de contraste, es decir, el sujeto habitualmente comparamos lo que nos ocurre con lo que nos ha venido ocurriendo antes. Si va a más el premio, habitualmente la conducta va a más. Si va a menos, a menos, con el condicionamiento clásico. Si se llama contraste positivo y contraste negativo, cuando va a más y cuando va a menos. Si solo se hace una vez durante el experimento, el cambio, se llama contraste sucesivo. Es decir, primero hay una cantidad X y luego una cantidad Y, una sucesión. Y si se llama simultáneo, sigamos cambiando de ensayo a ensayo. Pensad que podemos descubrir diferentes cosas con una técnica. ¿Sabéis lo que significa cada cosa? Aquí también hay algún experimento de comida, pero vamos, no lo recuerdo, pero lo miráis. Es los conceptos. Ahora. Normalmente el contraste positivo funciona mejor que el negativo. El negativo suele producir cosas que llamamos frustración, que no dan una pauta limpia de conducta. El positivo sí. Y esto es lo que hay más o menos de reforzadores. El siguiente punto es la interacción entre los reforzadores y las respuestas. ¿Qué relación tienen? Tiene algo que ver la respuesta que le pido con lo que le doy. Eso que hablábamos antes. Si pide una respuesta agresiva, si te pide una respuesta, si te pide una comilla, espero que hagas conductas propias del sistema de conducta de la comida. Bueno, en este caso la relación puede ser de mil maneras y en general la principal es la probabilidad de que una respuesta produzca un reforzador. A veces ocurre que se refuerzan conductas incidentalmente que no esperábamos, como veremos en el argumento supersticioso. En general, la probabilidad de que se asocien una respuesta o un reforzador tiene mucho que ver con el tiempo. Una demora. incluso muy corta en las conductas que solemos ver en los laboratorios de palomas, a partir de medio segundo o un segundo dejan de condicionarse. Entonces la demora sabemos que es muy importante. Pero ojo, ¿por qué es importante? Pues una de las hipótesis más generalizadas es que, como siempre estamos haciendo algo, ese flujo conductual, si hay mucha demora antes de que ocurra mi respuesta y me dan un refuerzo, yo no sé exactamente que me están reforzando. Ese flujo conductual puede ocurrir que esté reforzando secundariamente a otras conductas. Si, por ejemplo, le asociamos la respuesta con el refuerzo previamente, la demora se puede hacer mucho más larga o si lo señalizamos enmarcado con claves contextuales. Es decir, si yo cuando hace determinada conducta le hago una señal, no necesariamente le hago una señal, necesariamente un refuerzo ahora, siempre que la haga. eso sería el marcado el marcado no se puede reforzar la haga bien o la haga mal hay un marcado para determinar los efectos y para otro no, pues los efectos marcados admiten mayores demoras que los que no o claves contextuales del entorno que la vayan a distinguir, que ha respuesta en la que ha hecho por ejemplo incluso poner una como vimos una luz o unas drogas que te sientes mal y el efecto que no deseamos que haya una interferencia pues como hemos visto en el seguimiento del signo muchas veces el animal espera que le den comida, va a mirar el cuenco y el hecho de mirar el cuenco puede quedar reforzado cuando lo que queremos reforzar es otra cosa porque la ha ido muchas veces a mirar el cuenco hay que tener una interferencia bueno ese tipo de cosas en el caso del incidental el reforzamiento casual o sea perdón antes de llegar a las supersticiones la relación causal Quería decir que también es muy importante, quiere decir la relación causal que no solo el tiempo importa, sino que te des cuenta que hay una relación en efecto, la probabilidad de que aparezca el refuerzo está asociada con esa conducta. En los animales y el tiempo es la hipótesis de contiguidad temporal la más potente, pero también hay que tenerla en cuenta esa. Porque si no vemos que tenemos control sobre el refuerzo, no ocurre la aprendizaje. Bueno, las supersticiones de encontro Skinner, encontró que las palomas en su caja de recondicionamiento de respuesta operante libre, muchas veces empezaron a hacer unas conductas siempre las mismas. Una paloma le dio por dar vueltas, otra le dio por mirar un rincón. Bueno, él dijo que probablemente por un reforzamiento accidental. Habían aprendido, porque eso nos ocurre a nosotros también, cuando ese bolígrafo roto que ha probado el examen no lleva siempre y cosas así. Esa hipótesis de Skinner, que fue un reforzamiento accidental, luego la matizaron, porque vieron que no eran tantos animales. Si lo mirabas bien las conductas, el ciclo de la conducta con más detalle, había que distinguir las respuestas que se hacían durante, entre los ensayos, las respuestas terminales justo al final cuando iba a haber un refuerzo y había que tener en cuenta también los sistemas de conducta del animal. El animal. Teniendo todo esto en cuenta, ellos no encontraron apenas respuestas supersticiosas. ¿Y si el interino es el tipo que va desde un intervalo? Desde un reforzamiento hasta que se aproxima el siguiente, se le llama un interino. Entonces las conductas de interinos son muy diferentes de las que cuando uno está esperando el reforzamiento y tal. Y viendo todo eso, vieron que las palomas tenían patrones más comunes de lo que parecía. No había tantas conductas extrañas. Bueno, y una... Un hallazgo importante con respecto a lo causal, como señala aquí con la flecha, es cuando percibimos que nuestra... conducta no controla los refuerzos se produce en defensión aprendida que es una reacción de pasividad y de pareciera depresión humana es curioso el ligman y conlleva un diseño triángulo en el que normalmente se hace un grupo en el que se asocia una descarga o una posibilidad de escape una descarga es el refuerzo a otro grupo no se le deja escapar y a otro grupo es utilizar el control por no es la ninguna descarga y se tiene las mismas condiciones al final el grupo que no se deja escapar no aprende nunca nada y dentro de la indefensión aprendida qué hipótesis han dado sobre esto o hipótesis teóricas de por qué funciona bueno puede ser que la motivación del animal caiga cuando no funciona nada la expectativa que va a ocurrir algo malo es otra hipótesis Y por último, otras más variadas, hablan de, en general, cuando están produciendo consecuencias negativas, disminuye la actividad. Si disminuye la actividad es menos probable que haga actividades reforzantes. Otra es que no preste la suficiente atención al entorno para darme cuenta de qué está ocurriendo al lado de qué. ¿Por qué? Si le ponemos a un pequeño marcador, cuando ocurre la respuesta que esperamos, como apagar la luz, pequeño marcador, resulta que ya no se produce la indefensión aprendida. A pesar de que no pueda escapar, cuando él espera que va a ocurrir algo, al final puede aprender. O sea, eso es un dato a favor de que es una pérdida de atención. Si logramos que mantenga la atención con algo, funciona. Y por último... Por último, el feedback que te da el escape es complejo porque el feedback que te da el escape es una sensación de bienestar. interno, porque no se ha producido ese dolor y todo eso forma parte del condicionamiento clásico aquí se nos mete el condicionamiento clásico instrumental entonces es una respuesta bastante compleja que es difícil de aislar y con eso lo dejamos la indefensión, y vamos al punto siguiente en el que vamos a ver del tema 6A los programas de repartimiento, hemos visto hasta ahora el diseño de un ensayo las contingencias que se utilizan, y ahora vamos a ver programas a medio largo plazo en el que lo que se trata es instaurar conductas instrumentales mediante una relación respuesta continua puede en los laboratorios lo solemos hacer para que se pueda distinguir bien lo que está ocurriendo pero en la vida real no se ocurre todo el tiempo vivimos siempre rodeados de consecuencias de flujos convictuales nos pasan cosas buenas y cosas malas Entonces, el regularlo en un laboratorio es lo que se llama programar la reforzada. En general, un programa similar se define como tal porque produce resultados similares. Ahora veremos cuáles hay y veremos que los resultados siempre son parecidos. A veces varía la fuerza de la respuesta aprendida, pero el patrón de aprendizaje es muy parecido. La velocidad, qué se aprende y cuándo y cómo. Vamos a ver los más sencillos que son programas de razón y los de intervalo que están en la diapositiva siguiente. Razón es el número de respuestas que hay que dar para obtener un refuerzo. Nada más. Si la razón es 1, por cada respuesta le den un refuerzo. Se llama reforzamiento óptimo. Si la razón es mayor que 1... Le doy, pido varias respuestas, más de una, para dar un refuerzo. Más de una respuesta. O sea, la razón, se suele decir razón 10, quiere decir que cada 10 respuestas operantes vas a conseguir una unidad de respuesta. Entonces, estamos hablando ahora de razones fijas. Cada respuesta, cada 10 respuestas es fija. También debajo vemos que hay una respuesta, una razón variable. No le doy siempre, tras el mismo número de respuestas, el refuerzo. Pero sí en promedio, tengo que poner una cifra. Entonces se llama razón variable 10 al promedio de respuesta necesaria para conseguir un refuerzo. Unas veces la conseguía a la primera, otras veces a la decimotita. Con promedio de 15, o de 10. ¿Qué resultados tenemos? Bueno, pues en razón fija tenemos este patrón que hay aquí. Bueno, como habéis visto en el libro, aquí se produciría el reforzamiento en estos puntos. ¿Qué ocurre? Pues que inmediatamente antes del reforzamiento se produce una carrera de la razón que se llama. Una subida de la tasa de respuesta alta. En cuanto lo recibe, una pausa, una zona llana, pausa por reforzamiento. Que no es de descanso, porque se ha comprobado que no descansa, sino que es más bien que se está preparando para la siguiente, nada más. Y se llama tensión de la razón cuando cambiamos la razón durante los ensayos. Si de repente, como hemos visto antes, tenemos el contraste con el reforzamiento, le pedimos más respuesta. Respuestas para el mismo reforzador. Se produce una pausa cuando ya ha hecho las respuestas que antes le pedíamos. Tensión de la razón y luego se produce el incremento hasta que logra llegar a la nueva razón. Esos son los conceptos que vienen ahí. Y esta es la forma típica de conducta a lo largo del tiempo y el número. Mirad, ¿sabéis por qué sube el gráfico continuamente? Porque son respuestas acumuladas. Estoy contando siempre todas las anteriores más las de ahora. De esta manera yo veo también la forma esta, la pendiente, me indica el grado, la rapidez del aprendizaje. Si es muy alta la pendiente, en poco tiempo ha aprendido muchas respuestas. Aquí el gráfico que vemos en la tasa de razón variable, vemos que no hay tantas pausas. Son casuales las pausas y más breves si las hay. La tasa de respuesta es prácticamente constante. Aunque... Al final... El aprendizaje es parecido, las distribuciones son muy diferentes. Un ejemplo de razón fija, de la vida real. Razón variable, las máquinas... Trabajo en cabina y el sueldo, claro que sí. Hago 10 piezas, cobro tanto. Razón variable, las máquinas de premio. De vez en cuando salen premios, pero... Bueno, hay muchos ejemplos. Una de las prácticas es esta. Ver situaciones y decidir qué son. Viene bien para aclarar los conceptos. Pasamos ahora a los programas de intervalo. Aquí la variable que determina el refuerzo es el tiempo. Pero no es que se reciba un refuerzo por tiempo, sino que se recibe un refuerzo después de la primera respuesta. Después de un tiempo determinado. O sea, la respuesta, o sea, el refuerzo está disponible después de ese tiempo. ¿Esto? ¿Qué? El refuerzo está disponible a X. No, no, no. El refuerzo está disponible después de un tiempo si se ejecuta la respuesta. Si no, no. Se puede no producir, claro. Si no hace la común. El intervalo es, pasa un tiempo T, haces. Lo que yo quiero, tiene refuerzo. O sea, el refuerzo está disponible tras T si hay respuesta. Esto implica, en cierta medida, ¿veis la curva de aprendizaje? Que es parecido al que hemos visto antes. A esta subida aquí le llamamos cestón de intervalo fijo porque, o sea, al final del intervalo hay un incremento de las respuestas. Esto implica que tenemos una especie de reloj interno. Podemos medir el paso del tiempo de alguna manera. El intervalo variable es similar, análogo a lo que hemos visto antes. Aquí el tiempo en el que está disponible el refuerzo es variable, con un promedio X, que podemos llamar intervalo variable de 10 segundos. O sea, a veces a los 2 segundos estará disponible, a veces tardará 10. Si es respuesta, y el patrón podéis ver que está muy parecido al de razón variable. Hay otro procedimiento que hay que señalar. Bueno, algún ejemplo, por ejemplo, de intervalo pijo. No sé, cualquier... La lavadora. Ah, la lavadora, el que pone un periodo así, por ejemplo. O sea, si no es después de que acaba la máquina, le puedes sacar la ropa, no estaría. Bueno, 1, 1. Y el intervalo variable... Pues tener una tienda y vender, por ejemplo. Alguien entrará o alguna vez vendrá. Cuando venga alguien a hacer la respuesta correcta, cuando no viene ese alguien, no puedo responder, por ejemplo. Bueno, ahí el tipo que he dicho que se añade aquí es de intervalo de espera limitado porque es muy más parecido a la vía real. Este es igual que el intervalo, el procedimiento del intervalo, solo que el refuerzo solo está disponible durante un tiempo limitado, como suele ocurrir. Si desaprovechan la oportunidad, desaparecen. Por ejemplo, las ofertas, me parece que no dan ninguno de los ejemplos. Bueno, vamos a ver qué procedimiento, qué programa de reforzamiento produce mayor o mejor resultado. Comparamos el intervalo y el refuerzo. Aunque superficialmente, son parecidas las gráficas como hemos visto, Tenemos que entender que implican procedimientos internos muy diferentes. Por ejemplo, el sentido temporal. El primero es el sentido temporal. No existe en el de razón y tiene que existir en el de intervalo. O sea, los mecanismos internos o lo que se aprende tiene que ser diferente. Por ejemplo, Reynolds hizo un experimento en el que procuró que la tasa de refuerzo llegara a ser la misma en un grupo de intervalo y en un grupo de razón. ¿Cómo lo hizo? Pues dependiendo, haciendo depender al grupo de intervalo de los refuerzos que conseguía en el de razón. Y variaba el intervalo en función del de razón para que la tasa fuera similar. Y con una tasa de refuerzo similar, la respuesta de razón fue más vigorosa que la de intervalo. Es un resultado. Se ha hecho también con experimentos humanos. Que les daban una moneda, o les metían en la ducha, el refuerzo, también un mismo resultado, parecido. ¿Por qué? Bueno, si usaban un videojuego en el que tenían que matar bichitos y cuando lograban algo les daban una moneda y la metían en una hucha. Que es una especie de consumatorio. Recibían el refuerzo y había un programa de intervalo y una razón. Procurando que los dos recibieran la misma cantidad de refuerzo. Y eran más poderosas las respuestas a los intervalos con el de razón. Razón variable. ¿Por qué ocurre esto? Hay varias hipótesis, como casi todo. Y en esta la primera es que, como hemos dicho, que se puede reforzar la variabilidad de conducta. Se puede reforzar casi cualquier cosa. Entonces, probablemente los programas de razón refuercen más tasas altas de... O sea, se puede reforzar la tasa... De respuestas. El ritmo al que se dan las respuestas. Las seguintes respuestas. ¿Por qué? Porque acumulando respuestas tiene más probabilidad de reducir el reforzamiento. Sin embargo, el de razón variable, el de intervalo variable, perdón, asociado al tiempo, solo cuando estamos a final de intervalo en las respuestas probablemente reciban reforzamiento. Con lo cual probablemente se estén reforzando intervalos más amplios de descanso. Y eso es un resultado que puede dar lugar al patrón que se observa. Un reforzamiento de intervalo largo de descanso, tasa de interrespuestas baja. O sea, un reforzamiento indirecto de algo que como hemos visto se puede reforzar. De ahí se han derivado programas de tasa que han intentado reforzar un ritmo u otro y funcionan bien. Las tasas, mira, esto sí. Sería refuerzo diferencial de tasas altas. El ejemplo que pone, si por cada respuesta que se dé antes de 5 segundos se consigue un refuerzo, se consigue una tasa de respuestas mayores de 12 al minuto, es decir, 5 por 12 es 60. Hay 12 periodos y 5 segundos. Si reforzamos que la tasa sea menos, cada menos de 5 segundos tiene que responder, logramos tasas de mayores de 12. Si reforzamos lo contrario, que la respuesta se dé, que hayan pasado ya 5 segundos, la tasa siempre será menor de 12 y se logran regular las conductas. Esto se llaman programas de tasa. ¿Para qué sirve este aprendizaje? Pues en la vida real hay muchos ejemplos. Aprender los ejemplos que exigen precisión, muchas precisiones en movimientos como la música o el baile artístico, exigen reforzar a veces las tasas frenadas. Ahora vos dices, ¿eh? Pues todo esto tiene que ver con ese aprendizaje. Y bueno, y con esto hemos visto los programas simples. Ahora vamos a ver algunos un pelín más complejos, y que se pueden hacer cada vez más y más complejos, que se llaman programas de elección en el que antes de aplicar un programa de reportamiento, el sujeto puede elegir entre varias posibilidades. En general, la más simple es dos. Y podemos comparar qué programa prefiere el sujeto, ¿no? En los laberintos es un programa de este tipo, en el que se va hacia un lado o hacia otro, pero también puede ser programas concurrentes, con respuesta continua, en las que puedes elegir cambiar de un programa. Un programa u otro, cuando tú quieras. El ejemplo, te he puesto aquí estos puntos porque el ejemplo más... Para el enigmático es dos botones, que pica una paloma, que picotea una paloma para elegir un programa u otro. En ese momento pasa a administrarse de ese programa de reforzamiento. Si es un programa continuo, la paloma puede cambiar de uno a otro según sus preferencias. Podemos medir cuál es la que está más. ¿Qué vamos a medir aquí? Aquí hay unas pocas matemáticas, pero muy sencillas. ¿Qué vamos a medir aquí? Cómo se distribuyen las respuestas entre una posibilidad y la otra en el reforzamiento continuo. ¿Y cómo mido eso? Bueno, pues, la tasa relativa a respuesta es la fórmula que mide cuánta respuesta dedico a uno de los dos posibilidades. Por ejemplo, la tasa relativa en A sería respuestas dadas en A, divididas por el total de respuestas dadas en A y en B. Es una tasa cuyo máximo valor es 1. Si no respondo nada a B... El valor es 1. Y el mínimo es 0. Si no respondo nada a A, es 0. Arriba hay un 0. Si respondo por igual, es 0,5. Entonces esos son los valores que me van a permitir comparar los dos programas. En general, si los dos tienen las mismas consecuencias, la tasa de respuesta será 0,5. Bueno, de forma análoga se mide la tasa de reforzamiento. ¿Qué cantidad de refuerzo consigue el sujeto en cada una de las dos posibilidades? En general, tienden a igualarse. Una persona o un sujeto experimental sometido a dos programas de reforzamiento diferentes tiende a distribuir las respuestas cuando aprende lo suficiente de forma que maximiza la cantidad de refuerzos que tiene. Es decir, iguala la tasa de respuestas a la tasa de refuerzo. Las hace totalmente congruentes. Eso se llama ley de igualación. El experimento de Hennstein fijó una tasa máxima de refuerzo con diferentes combinaciones de dos programas de intervalo variable. Por ejemplo, si le quiero dar 40 refuerzos por hora, puedo hacer dos programas. Uno de intervalo variable de 6 minutos, máximo 10 refuerzos por hora, 6 por 10 es 60. Y uno de intervalo variable de 2, máximo 30, sumados dan 40. Y hacerlo con otras combinaciones y ver qué preferencias tiene. Y lo que observó es que al final la distribución de respuestas se igualaba a la distribución de refuerzos. Es decir, el enunciado de la ley de igualación. Sin más datos. Vamos a ver un poco más al fondo la ley de igualación. Hemos visto ya la fórmula que se puede simplificar. La fórmula de la ley de igualación dice, la tasa de respuestas al final es igual a la tasa de respuestas. Que si la simplificamos simplemente multiplicando los dos lados nos desaparece el multiplicador y se puede decir que la tasa relativa de respuestas entre A y B es igual a la tasa relativa de respuestas entre A y B. Esa función básica se observó que en determinadas circunstancias no funcionaba bien. Había, a veces se igualaba un pelín por lo bajo, había menos respuestas de las posibles, o a veces por lo alto y a veces había incluso sesgos por determinadas respuestas. Bueno, buscando qué formulación matemática podía dar respuesta a todas, esos datos, esta es la fórmula en la que se... Sino que hay cierto consenso. En este caso, lo que hacemos es poner un exponente a la tasa de refuerzos y poner un multiplicador. El exponente tiene que ver con la sensibilidad al refuerzo del animal o del sujeto. Si la comida le gusta mucho. Si una especie prefiere unas cosas que otras. Lo que esperaba, la necesidad que tenga en ese momento. Muchas variables con el terreno. Y se resumen en un exponente. Si ese exponente es menor que 1, hace la tasa de refuerzo más baja, infraigualada. Si es mayor que 1, supraigualada. Y por último, el factor B es un sesgo hacia la respuesta. Una preferencia a ejecutar ciertas respuestas o la posibilidad de ejecutarlas más fácilmente. Con lo cual. Un valor, el valor será relativo en función de que sea positivo o negativo también y se le llama sesgo. Los conceptos de infraigualación, supraigualación y sesgo se entiende porque no es aplicar en un momento sino entender la relación proporcional directa o indirecta de uno y otro. Bueno, un paso más con la vida de igualación es ver un programa de refuerzo que no sea de elección un programa de refuerzo como el que hemos visto antes, instrumental, se podría analizar bajo esta perspectiva. ¿Cómo? En un programa normal la respuesta esperada produce un refuerzo y podemos pensar que durante el periodo en el que no se produce una respuesta esperada se producen otras muchas respuestas que a su vez obtienen una serie de resultados que dependen del contexto, no de nuestro programa. Pero... Las podemos poner en la fórmula. La respuesta... Por omisión o respuesta a cero. Hacer otras cosas consigue una serie de refuerzos asociados. Y podemos aplicar la ley igual que antes. Solo que en este caso se simplifica un poco más porque queremos asumir que la tasa de actividad, la respuesta A más las respuestas por defecto, es constante. Lo podemos poner un valor K, que es la tasa de actividad que hay. La actividad total. Y nos queda esta fórmula. ¿De qué depende que haya una respuesta ante un refuerzo A? Depende del valor de K, la actividad general, y de la tasa de refuerzo conseguida. En este caso, este tipo de análisis, ves que la respuesta es proporcional negativa al reforzamiento ambiental, al RC cero. No necesariamente no aprendemos una cosa o la aprendemos otra. No aprendemos mejor solo por el refuerzo, sino también por lo que está ocurriendo en el resto del tiempo. Quiere decir esto. Lo que está ocurriendo el resto del tiempo, si lo tenemos en cuenta, se ha obtenido gran interés en clínica para la gente que no obtiene resultados en la depresión. Queremos tratar los síntomas de la depresión, pero también hay que tratar todo el resto del periodo en el que se consigue o no se consigue. También las dependencias a las drogas. Este análisis es muy útil para muchas situaciones. Y sabemos que no queremos que una persona, una conducta mala, darle reforzadores gratis de vez en cuando también la puede disminuir. No permitas reforzar una droga por otra cosa. Una persona que tiene una droga, le dan reforzadores variados en la vida cotidiana, no asociados con las drogas, disminuye la droga por esta. Bueno, veis que estos resultados son bastante lógicos, pero aquí estamos en un nivel experimental. Tenemos la fórmula, funciona. Vamos con los mecanismos o las teorías. Explican esta ley de igualación. Hemos visto que la ley de igualación es descriptiva. Es una fórmula que describe lo que ocurre, pero no describe el porqué. Entonces los porqués se dividen en dos tipos de teorías principales y una intermedia. Las principales, las molares, las que ven la elección como un mecanismo global en función de la tasa global de respuestas, no se paran a ver dónde se ha producido cada respuesta ni cómo, sino la tasa general, y las moleculares, las que ven cada respuesta, por qué se produce hacia un lado o hacia otro. El programa A va hacia el programa B. ¿Por qué elegimos una y no otra? Dentro de las moleculares, es decir, las que analizan cada respuesta, se supone que elegimos la respuesta que tiene más probabilidad de ser reforzada en ese momento, que depende del programa que interprete el animal que está ocurriendo. Si en un momento dado entiendo que hay más posibilidades en otro, me voy al otro. A veces se han confirmado, o sea, vemos que una teoría molecular... Si se cumple, al final, se produce la igualación molar también, pero con una explicación molecular, que está ocurriendo en cada ensayo. En general, hay datos que lo corroboran y datos que no. Hay otro análisis un poco más complicado, que en vez de decir, yo hago la respuesta que tiene más posibilidades de ser reforzada, analiza cuatro respuestas. Estas. Permanece en un programa, permanece en otro, cambiar de uno a otro, cambiar del otro a otro. Y analizándolas por separado, se logra predecir mejor o analizar mejor esta maximización. Bueno, no he dicho arriba, lo he puesto aquí, que se supone que todo el mundo quiere maximizar la respuesta de los activos. Esta es la finalidad común que todas las teorías asumen. Bueno. Bien. Cada respuesta de estas cuatro que hay aquí, tiene una probabilidad de ser reforzada y en función de eso se van distribuyendo. A veces, cambiar, pues tiene un coste, lo hago o no lo hago. Bueno, la molar, hemos visto por encima la explicación que era molar. Simplemente dice que si un programa de reforzamiento razón fija es de 10 y otro razón fija es de 20, ¿para qué me voy a molestar en dar 20 respuestas en un programa cuando con el otro puedo conseguir muchos más reforzadores? Que lo que importa no es esa relación individual sino la global, ¿para qué? Y claro, algún resultado de este tipo lo hay, pero hay algún problema también. A veces en dos intervalos variables que con un pequeño número de respuestas en otro intervalo maximizarían refuerzo global total, no se dan. A veces se quedan fijos o no dan. No. No lo explica la teoría. La teoría dice que el refuerzo molar total es lo que determina, no es así en este caso. Y en otros experimentos, razón variable contra intervalo variable, también lo mismo. Si cambiaran de vez en cuando al intervalo variable... Conseguirían más refuerzo. Y no lo hacen, se caen en el razón. Demasiado. Bueno, doctor Rodríguez, estamos en lo último. Y el último, el de mejoramiento, dice que no se produce tanto una mejora global ni parcial, sino que de vez en cuando, cuando las cosas no nos van tan bien, cambiamos un poco a ver. Y a veces logramos pautas globales bastante malas, a veces buenas y a veces mediocres. Eso le llaman decisiones inocentes. El cambiar sin tener un análisis muy claro, a ver, cada tres o cuatro, ¿cuándo? Cada X ensayos, veo que la cosa no va al cambio, a ver qué ocurre. Ese trozo que yo analizo, cada X ensayo, se llama tasa local de respuesta. El tiempo que estoy respondiendo a una alternativa, y lo cambio, ese tiempo, las respuestas que da esa alternativa, son la tasa local. Y si en función del resultado de esa tasa local, se supone el cambio de una orden. Porque fijaos que es un análisis entre molar y molecular. Es un poco a más largo plazo, pero tampoco es molar. Y el resultado final, si se entrena bien y tratamos de igualar las tasas locales, cuando veo que la una tarda mucho y empiezo a probar la otra, al final se produce la ley de igualación de datos. Coinciden los datos. Bueno, hay un ejemplo de varios ejemplos, pues mirad el de la tiempo. Y el último punto, que sí que quiero empezar por encima, es lo mismo que la elección, solo que en este caso le pedimos que cuando elija un programa ya no pueda cambiar otro durante un tiempo. Que también es un tipo de elección con compromiso que se da mucho en la vida humana. Por ejemplo, al elegir qué estudias es tanto el coste que tienes que comprometer. Bueno, la elección con compromiso es tan simple como que hay primero el eslabón de elección y luego un tiempo. Y luego un tiempo en el programa que hayas elegido. Se pueden poner 10 minutos, se pueden poner lo que sea. Una vez elegido el programa... Los patrones de respuesta de ese programa no cambian con lo que hemos visto hasta ahora. Si es de razón fija, es el mismo patrón. Lo que nos importa aquí es por qué a veces se prefieren, por ejemplo, los programas de razón variable en vez de los de fija. Que suele ocurrir. Nos gusta probar, nos gusta el estímulo, podría ser. Y también las relaciones entre el eslabón inicial y el final. A veces, en el eslabón inicial, cualquier señal que se produzca, el clic, la luz, la puerta que se abre, acaba haciendo una especie de refuerzo secundario. Se condiciona clásicamente. Entonces, la relación entre el eslabón inicial y el final sí que se importa. Ya sabemos que la tasa, si va a un programa, es la misma que me gusta. Pero sí, ¿cómo pasamos del eslabón inicial al final? Ya hemos visto que... Consecuencia es el autocontrol, la capacidad para elegir estímulos más demorados, pero más potentes, refuerzos, perdón. Más demorados, pero mejores. Y aguantarnos el más reciente, pero peor. Estas funciones que en el tiempo, el valor del refuerzo va cayendo. Si cae uno más deprisa que el otro, perderá fuerza. Y esta función que dice que el valor del refuerzo depende de su magnitud inicial y la demora con que lo damos. A más magnitud, o sea, más fuerte sea, mejor. Y a más demora, peor. Está en el denominador. Y la K es un parámetro de la función descontadora, lo rápido o lo lento que baja. El ejemplo que suele haber ahí es de las adicciones a las drogas. Y sabemos que esta gente, por los datos hemos visto que tienen una función descontadora que baja mucho más rápido. Con lo cual les resulta mucho más difícil postergar el refuerzo. Y es una cuestión que no tiene que ver solo con las drogas, sino con cierta inclusividad general del sujeto. Y bueno, aquí también se ve en el capítulo de su tema, con un experimento con chicos... Con esto acabamos por hoy, que es la hora y hasta dentro de unos segundos. Veremos los temas siguientes si no tenéis otra cosa que aprender.