Un segundo, que empiece la grabación. Bueno, pues ya parece que está. Así que, nada, vamos a empezar. Bueno, recordad, esta es nuestra última clase, nuestro último tutorial online antes de que empiecen las vacaciones de Semana Santa. Vamos bastante bien. Bueno, buenas tardes a todos, que no sé si os lo he dicho. Vamos bastante bien en el temario. Vamos a empezar el capítulo 5. Ya sabéis que son 7. Mi idea es utilizar dos tutorías para este capítulo, esta y la siguiente. Quizás no lleve un poquito más porque ya veréis que este capítulo en particular es bastante largo y hay una parte del tema del capítulo, la segunda parte, cuando hablamos de la ley de igualación y de algunas teorías sobre el reforzamiento, cómo funciona el reforzamiento, el condicionamiento operante, que tienen alguna complicación más y que tendremos que ver con algo de detenimiento. En esta primera parte, en esta segunda parte del tema 5, que es lo que quiero que avancemos hoy, quiero que veamos toda la parte referida a los tipos de programas de reforzamiento que hay. Ya hemos visto algo de esto en el anterior tema, pero no referido a los programas, sino referido a las cuestiones básicas del reforzamiento operante, en particular los tipos de contingencia. Los tipos de contingencia que tienen que ver tanto con el hecho de que se presente o no el reforzador como con el tipo de reforzador que se presenta. Si es agradable, si es un reforzador positivo, si es un reforzador negativo. Ahora nos vamos a centrar en los diferentes programas, es decir, en cómo se puede administrar y qué formas, cuáles son las principales formas en que se puede administrar un programa de reforzamiento y qué aprendemos de ellas sobre cómo funciona el reforzamiento y determinadas conductas. Ya os digo que nos vamos a centrar en la segunda parte del tema, en lo que se denomina conducta de elección. Ya veréis que es algo bastante sencillo, algo que casi todos habréis, todos habréis sufrido en vuestras carnes en muchas situaciones, en muchísimas, y que además tiene mucha relevancia tanto para el comportamiento humano como para el comportamiento animal. La situación en la que uno tiene varias opciones de conducta a elegir con diferentes consecuencias y tiene que elegir entre ellas o tiene que seleccionar a qué dedica más tiempo o menos tiempo o cómo responde a cada una de estas contingencias. Bueno, vamos a dedicarle eso seguramente después de Semana Santa. Ya sabéis que... Entonces, me parece que solamente perdemos una tutoría, que es la de la semana que viene, que cae miércoles, porque el miércoles siguiente ya volvemos a tener, a pesar de que el lunes no es festivo, pero ya martes y miércoles vuelve a ser festivo. Creo que no tenemos ninguna otra fiesta por medio, ya os digo un poco de memoria porque estoy perdiendo un poco la noción del tiempo ya, ya no sé en qué día vivo, ni si es primavera, verano, cambio de hora, voy un poco perdido. Pero bueno, ya nos reencontraremos. Vamos a empezar con esto, ¿de acuerdo? Vamos a empezar con los diferentes programas de reforzamiento. Así que vamos a ver en qué consisten. ¿En qué consisten los diferentes programas de reforzamiento? Bueno, pues simplemente en la forma en que programamos los reforzadores, cómo se van a dar los distintos reforzadores de manera contingente a la emisión de la respuesta. ¿Cómo vamos a dar los reforzadores? ¿Cómo vamos a administrarlos? ¿Cómo vamos a administrar los reforzadores en función de las respuestas que den los sujetos? Es decir, o dicho de otra manera, las reglas, las condiciones que se tienen que dar para que reforcemos una respuesta. ¿Cuántas veces tengo que responder? ¿Cuánto tiempo tiene que pasar? Vimos en el anterior capítulo, lo vimos en el apartado de extinción, vimos las diferencias que había entre diferentes programas de condicionamiento cuando hablábamos de extinción o resistencia a la extinción. ¿Cuánto? ¿Se resiste un programa o cuánto tarda un programa en desaparecer cuando está en condiciones de extinción? Decidme si a los demás os pasa que no se ve ni se escucha nada o es un problema solamente tuyo. ¿Hay alguien más que le pase que no se vea? Vale, sí oís, ¿no? Vale. Lo voy a escribir. Voy a poner que refresque la pantalla. A ver si refrescando o reiniciando el navegador. Lo voy a poner o reinicia el navegador. A ver si así le puede funcionar. De todas maneras, como esto queda grabado, hay menos problema. Bueno, ¿qué ocurre? Vimos ahí que había diferencias entre los diferentes tipos de programas. En general, la forma más usual de realizar un programa de condicionamiento operante es reforzando solamente algunas respuestas. Y esto lo que da lugar a un aprendizaje más duradero. Y más resistente a la extinción. Esto es lo que denominábamos y vamos a seguir denominando el reforzamiento intermitente o parcial. que da lugar a un aprendizaje más fuerte, más duradero y mayor resistencia a la extinción. Ya lo vimos en el capítulo anterior, pero esta es la forma usual y de hecho la mayoría de las veces que nos encontramos en situaciones de aprendizaje, aunque no sean explícitas, nos encontraremos con este tipo de cosas. Cuando uno va a trabajar no se le refuerza todos los días, sino que en general obtiene su sueldo una vez al mes, algunos una vez a la semana o de diferentes maneras, pero no cada vez que va. Cuando uno se puede encontrar una situación, como por ejemplo luego veremos en el caso de las máquinas tragaperras, no se refuerza, no te dan dinero cada vez que echas y no habría negocio, sino que es una vez de cada muchas conductas y sin embargo la conducta sigue ocurriendo. De esta manera se consiguen tasas de respuesta muy elevadas y aprendizajes muy duraderos. Vamos a ver algunas cosas fundamentales. Vamos a ver diferentes tipos de programas y los principales tipos de programas, los principales tipos de formas de reforzamiento, se dividen en dos principales bloques, programas de razón y programas de intervalo. ¿Qué quiere decir esto? Bueno, pues que una respuesta puede ser reforzada en base al número de respuestas que sea necesario para que se dé el reforzador, que serían los programas de razón, es decir, número de respuestas necesarios o en base a un intervalo, un intervalo de tiempo, tenerlo en cuenta, ¿vale? Es decir, cuánto tiempo ha pasado desde el último reforzador. Importante aquí. Esto se podría confundir con otro tipo de condicionamiento, con un condicionamiento clásico o con un condicionamiento adventicio, espurio. Es decir, ¿os acordáis cuando veíamos esos casos en los que simplemente se administraba un reforzador cada 20 segundos? Bueno, hay que tener en cuenta que esto no es así aquí. Aquí lo que se refuerza es la primera respuesta que ocurre una vez que han pasado un determinado tiempo desde la aparición del último reforzador. Es decir, si aquí aparece un... Un reforzador, porque hemos pulsado una palanca. Todas las respuestas que demos dentro de este intervalo no serán reforzadas, por mucho que respondamos. Será reforzada la primera respuesta que ocurra después de que finalice el intervalo. Y el intervalo se refiere al tiempo de aparición entre dos reforzadores, desde que aparece el último hasta que pueda aparecer el siguiente. Eso es importante, es necesaria la respuesta para que puedan obtener el reforzador en un programa de intervalo hay que responder. Si no, no sería reforzamiento. No sería reforzamiento operante. No se estaría reforzando o aumentando la probabilidad de una conducta. El tiempo se refiere... ... a que solamente se puede obtener ese reforzador cuando respondemos después de que haya terminado ese intervalo. Bueno, pues además de poder ser programas de razón que dependen del número de respuestas y programas de intervalo que no dependen del número de respuestas sino de un intervalo fijo de tiempo, bueno, no fijo, un intervalo de tiempo entre los diferentes reforzadores, esos dos programas pueden ser también, a su vez, de dos tipos. Pueden ser fijos o pueden variar. Así que tenemos un total de cuatro programas. Tenemos dos programas de razón, los programas de razón fija, en los que tenemos que dar un número de respuestas y ese número de respuestas siempre es el mismo. Por ejemplo, imaginaros 40 respuestas, bueno, pues cada vez que, imaginaros el típico ejemplo que hemos tenido siempre, la ratita con la palanca y obtiene comida. Una vez que da 40 respuestas, cae una bolita. Cuando vuelve a hacer otras 40 respuestas, bueno, pues queda otra. Y también tenemos programas de razón variable. Son exactamente iguales que los otros. La única diferencia es que ahora el número de respuestas necesarias para obtener un reforzador no es fijo. Varía en torno a un número. Si en un programa de razón fija 40, obteníamos un reforzador cada 40 respuestas. En un programa de razón variable, también 40, lo que obtendríamos es un reforzador cada aproximadamente 40 respuestas. De media son 40 respuestas. Pero en un ensayo pueden ser 37, en otro 42, en otro 38, en otro 46. Es decir, van variando en torno a un número fijo, en torno a una media, en torno a un parámetro específico. Que en este caso, hemos dicho en el ejemplo que sería 40, pero podría ser cualquier otro. Eso en cuanto a los programas de razón. En los programas de intervalo, pues exactamente lo mismo, pero referido al tiempo en vez del número de respuestas. En los programas de intervalo fijo se recibe un reforzador, se obtiene un reforzador, perdón. Por la primera respuesta que ocurre tras un determinado intervalo de tiempo, que siempre es fijo. Si pensamos eso en un intervalo de 10 segundos, se reforzará la primera respuesta que ocurra tras haber pasado 10 segundos desde el último reforzador. Desde que aparece el último reforzador. Siempre que aparece el reforzador, se reinicia el intervalo y tiene que pasar 10 segundos. La primera respuesta que ocurra después de ese intervalo se refuerza. En el intervalo variable, pues lo mismo. Solo que ahora el intervalo no dura siempre 10 segundos. Siempre lo mismo y de nuevo varía. En torno a un parámetro fijo. Imaginaros de nuevo un intervalo variable 10. Bueno, pues en este caso la primera respuesta después de aproximadamente 10 segundos sería lo que se reforzaría. Unas veces serían 8 segundos, otras veces serían 12. La forma de variación ya depende de las características del experimento y de lo que quiera el experimentador, pero siempre la media es el número que indicamos. Es decir, el intervalo variable 10 de media serían 10 segundos, pero en algunos serían más y en otros serían menos. Así que no hay un intervalo exacto. Es más difícil saber exactamente cuál va a ser el intervalo o cuál es el momento en el que vas a recibir el reforzador. Ya veréis las diferencias que hay entre cada uno de esos programas. ¿Qué es lo primero que vamos a ver? Vamos a ver, de hecho, dos cosas. Después de ver algunos contenidos más, vamos a ver todos los tipos de programas. Y vamos a ver las características y qué cosas específicas o a qué tipo de características específicas respecto a la forma en que se responde lleva cada uno de estos programas. Bueno, vamos a empezar con la forma en que se registran las respuestas porque lo primero que hay que hacer cuando metemos a nuestra ya omnipresente ratita en la caja de Skinner con su palanca para obtener comida es registrar todas las conductas que realiza y todo lo que ocurre. Esa situación, cuándo se realiza la conducta, cuándo se da el reforzador, cuándo aparece cierto estímulo que indica cuándo va a aparecer el reforzador o cuándo está disponible o cuándo no. Bueno, pues eso se hace, bueno, mejor dicho, eso se hacía mediante un registrador de respuestas, un registrador que se denomina registrador acumulativo. Bueno, esto lógicamente ya no se utiliza. Nadie tiene en su laboratorio un rollo de papel gigantesco con dos plumillas que van escribiendo y marcando en un papel. Es como si fuese una especie de, ¿cómo se llama? La máquina está de la verdad. Un polígrafo. Ya esto no existe. Ahora lo que se utiliza son ordenadores. Lógicamente todo esto queda grabado en los ordenadores cada evento y cada tiempo. Queda grabado en un archivo de ordenador. No tenemos archivos kilométricos que luego tengamos que ir apuntando a mano. Esta era la situación original o como se hacía originalmente. Pero bueno, vamos a explicarlo con esto que queda más claro. Además en el papel se ve muy bien cómo se realiza. Esto permite registrar o medir muchos parámetros. Tenemos dos ejes. Lo voy a hacer aquí directamente en este eje porque está girado además. En este eje tenemos el tiempo. Por aquí va pasando el tiempo y la plumilla simplemente registra en un eje horizontal el paso del tiempo. Bueno, y en este eje, aquí hacia arriba, no voy a llamarlos ni X ni Y porque como está esto girado, a saber cuál es la X y la Y, esto debería ser la X y esto la Y, pero al estar girado parece que esto es la X y esto la Y. Así que vamos a dejarlo en el eje del tiempo y el eje de las respuestas. Aquí se registran las respuestas de manera acumulativa. Cada vez que da una respuesta, la plumilla pega un salto hacia arriba. Así que se van registrando de manera acumulativa. Por desgracia para nosotros, en los últimos tiempos, en las últimas semanas, estamos muy familiarizados con este tipo de registros acumulativos, registros no acumulativos, variaciones en porcentaje, etc. Así que este tipo de registros acumulativos y de incrementos y de tasa de incremento y pendientes de incrementos os van a sonar seguramente. Bueno, en este caso tenemos el eje de respuestas y aquí se anota con un desplazamiento vertical cada una de las respuestas. Lógicamente, cuanto más rápido se incrementa, más respuestas se dan. ¿Veis? Cuanto más respuestas doy por unidad de tiempo, más rápido se incrementa. Mayor es la pendiente de esta curva. Y aquí puedo registrar un montón de cosas. Puedo registrar el tiempo que ocurre entre respuestas, ese espacio horizontal que hay entre cada salto, es el tiempo que hay entre respuestas. El tiempo total que se emplea respondiendo y sin responder. Las partes horizontales son tiempos sin responder. Las partes verticales son periodos que se están respondiendo. Tenemos más. La perseverancia, que sería un cociente entre ambas cosas, entre el tiempo respondido y el tiempo sin responder. Es decir, cuánto tiempo paso respondiendo y cuánto tiempo paso sin realizar ninguna respuesta. Y además también me permite señalar en la misma hoja algunos eventos o todos los eventos, que ocurren en la situación. Fijaros, en el eje del tiempo, si veis, tiene unas pequeñas marquitas, unas pequeñas muescas. Bueno, ese es el momento en el que aparecen los estímulos discriminativos. Los estímulos que señalan si estamos en un programa concreto de reforzamiento, si han cambiado las condiciones de reforzamiento o que nos indican que está disponible el reforzador. En caso de que se incluyan, no todos los programas incluyen estímulos discriminativos. Sin embargo, en el otro eje tenemos también unas pestañitas. Entonces, mi pantalla del portátil es muy pequeña y yo no lo veo bien. Pero si os fijáis bien y si no lo podéis hacer, si descargáis o cuando descarguéis los materiales, tenéis aquí... Una especie de marcas diagonales que se hacen en el eje de las respuestas. Eso nos indica el momento en el que se ha dado el reforzador. Cada vez que se administra un reforzador, se marca en ese momento. Y así podemos saber el tiempo también que ha pasado entre los reforzadores, además de la tasa de respuesta entre reforzadores o el tiempo que ha pasado sin responder o respondiendo entre un reforzador y otro. Así que lo que tenemos es una curva o un registro acumulativo que nos va dando todas las respuestas y va acumulando todas las respuestas del sujeto. Y que nos indica, en función de la pendiente, de cómo avanza, de la velocidad a la que se acumulan las respuestas, nos indica la tasa de respuesta. Cómo de rápido o cuántas respuestas se dan por unidad de tiempo. Bueno, ya tenemos cómo se registra todo esto. Ahora, pensad que esto se sustituye por un ordenador que simplemente va marcando en un registro cuándo ocurre cada cosa y el número de respuestas. Además, nos permite marcarlo. Nos permite marcar otras muchas cosas y hacer muchos análisis online o incluso sin nosotros tener que estar contando cada una de las respuestas, con lo que lo hace bastante más fácil. Bueno, pues ya tenemos la forma de registrar respuestas. Ahora nos toca ver cada uno de los programas. Porque cada uno de los programas da lugar a características diferentes. De hecho, los programas de razón tienen un tipo de respuesta o dan lugar a un tipo o una tasa de respuesta. Los programas de intervalo dan lugar a otro tipo de tasa de respuesta. Pero es que además los programas fijos y los programas variables también tienen diferencias entre ellos. Y juntos cada uno da lugar a un patrón específico para cada uno de los programas principales o los programas básicos de reforzamiento. Empezamos con la razón fija. Bueno, ya hemos dicho antes, en un programa de razón fija hay que dar un número de respuestas determinado para obtener el reforzador. Siempre se representan de esta manera. Se pone una R, una F y detrás se pone el número que indica el número de respuestas que son necesarias para obtener el reforzador. Es decir, el requerimiento del programa. En este caso, Rf40, querría decir que tenemos un programa de razón fija que necesita de 40 respuestas para que se administre un reforzador. Bueno, ¿por qué se caracteriza? Aquí tenéis el patrón típico de respuesta en un programa de razón fija. En general, los programas de razón fija son programas que tienen una elevada tasa de respuesta. Es decir, se responde muy rápido. La ratita que tenemos en nuestra casa. En la caja de Skinner. Se pondría a responder muy, muy, muy rápido. Intentaría responder todo lo que se pueda. Yo recomiendo aquí una cosa que viene bien para aclararos y sobre todo para imaginaros cómo se podría responder en cada una de estas situaciones. Eso viene bien sobre todo a la hora de un examen cuando uno no recuerda cuáles son las características de cada programa. Lo mejor es pensar en uno mismo qué haría si se encontrase en uno de estos programas porque en general los individuos tratan de optimizar su conducta para obtener el máximo número de reforzadores con el mínimo esfuerzo. Pues fijaros, en este caso tenemos tasas elevadas. Eso es lógico desde un programa de razón porque cuanto más rápido respondas más reforzadores obtienes porque en un programa de razón la cantidad de reforzadores depende de lo rápido que tú respondas, depende de la cantidad de respuestas que tú seas capaz de dar. Bueno, pero además se da otra circunstancia. Bueno, en primer lugar tenemos una tasa elevada. Se responde muy rápidamente porque obtener reforzadores depende de lo que yo responda. Y sobre todo esto... Esto ocurre cuando la razón es pequeña. Es decir, cuando este número es pequeño la tasa es más elevada. Esto tiene su porqué. Quiero decir, fijaros, imaginaos que vosotros queréis obtener dinero gratis y solamente tenéis que darle un pulsador. No es lo mismo que os digan que por cada tres pulsaciones os van a dar un euro que por cada tres mil pulsaciones os van a dar un euro. Seguramente vuestra tasa de respuesta sea mucho más alta y estable. Si tenéis una... Un... Un requerimiento mucho menor. Cuando el requerimiento es muy grande incluso se puede llegar a la situación en la que no se den respuestas. Lo vamos a ver ahora. Imaginaos que os dice que tenéis que dar tres millones de veces para obtener un euro. Seguramente o no lo haríais o empezaréis y lo dejaríais, ¿veis? Podéis imaginaros esas situaciones en las que podéis encontrar vosotros para ver cómo reaccionarían y cuál sería el patrón en el caso de que no lo recordéis. Bueno, ¿qué ocurre en estos casos? Bueno, pues en este tipo de programas se da además otra situación. Es lo que se denomina pausa. Es la pausa post-reforzamiento. Los sujetos suelen responder muy rápidamente hasta que obtienen el reforzador. ¿Veis la marquita aquí que indica que han obtenido el reforzador? Y justo una vez obtenido, paran. Esta pausa, en el caso de la razón fija, se llama break and run. ¿Por qué? Bueno, pues viene del inglés lógicamente. Es parar y correr. Porque el tipo de pausa que se da en la razón fija es una en la que de repente los sujetos, una vez obtenidos el reforzador, dejan de responder, paran durante un tiempo, y luego se detienen. Y después empiezan una carrera muy rápida de respuestas para obtener el siguiente reforzador. Responden todo lo rápido que pueden, obtienen el reforzador, paran. Y vuelven a responder. De nuevo, imaginaos vosotros mismos. Si tenéis que responder para obtener algo muy rápido, lo hacéis al máximo nivel que podéis. Una vez obtenido, lo normal es parar durante un segundo, aunque sea para recuperarse físicamente porque incluso hablando de ratas y de comida, esto requiere un esfuerzo físico. Puede llegar incluso a los máximos niveles de ejecución del que es posible una rata en cuanto a pulsaciones en una palanca. Así que después hay un descanso y vuelven a correr a toda velocidad para obtener otro reforzador. ¿Cuánto corren y cuánto paran? Bueno, pues ya lo hemos visto. Depende de este número. Cuanto mayor sea, más paran o más tiempo paran en relación al tiempo que están respondiendo. Cuanto más pequeño sea este número, menor es el intervalo de parada, menor es el break and run, menor es la pausa post reforzamiento. Este valor es lo que se denomina tensión de la razón. Cuanto mayor es la razón, mayor tensión provoca entre responder. Y si es demasiado alto, esa tensión es tan grande que incluso se deja de responder por completo. Pensadlo también en situaciones humanas o cuáles seríais vosotros para optimizaros y os valdría la pena responder para acordaros de esto. Bueno, ya tenemos el programa de razón fija. Características, tasa muy alta de respuesta y pausa post reforzamiento característica que se llama break and run. Parada completa y escalada de respuestas muy rápida. Ya tenemos la primera. Vamos con el segundo. Perdón, antes, una cosa que se me ha olvidado deciros antes. En este tema también tenéis vídeos. Tenéis un vídeo para ejemplificar cada uno de los distintos programas básicos de reforzamiento. Aquí, lógicamente, no se pueden ver, pero podéis verlo si descargáis. De hecho, si todavía no lo habéis hecho, en este mismo aula tenéis el tema 5 en PowerPoint, en formato PowerPoint, tanto en PDF como en PowerPoint. Así que si no lo habéis descargado podéis hacerlo cuando queráis. Aquí tenéis un ejemplo de programas de razón fija. Están todos sacados de YouTube, de ejemplos de YouTube. Unos son sobre experimentos reales, otros son experimentos caseros que hacen la gente en su casa. Los podéis ir viendo. Son simplemente un ejemplo para que veáis cómo funciona y cómo son las tasas de respuesta y cómo se ajustan más o menos porque en los experimentos reales nunca salen perfectos o nunca son tan bonitos como las gráficas teóricas. Para que veáis cómo se ajusta, ya digo, la conducta de los organismos reales a cada uno de los programas. Bueno. Vamos con el siguiente, el programa de razón variable. De nuevo, ¿qué tenemos? Un programa que nos requiere un número específico de respuestas para obtener un reforzador. Nomenclatura RV y el número de respuestas requerido en promedio, ¿vale? Recordad que ahora tenemos un promedio. Si ponemos RV 40 quiere decir que tenemos un programa de razón variable que nos requiere de promedio 40 respuestas para obtener un reforzador, pero en cada ensayo no serán siempre los mismos. Vemos, unas veces serán 40, otras veces pueden ser 31, otras veces pueden ser 50, pero girarán en torno y su media será el valor que aparece aquí. Si os fijáis en la gráfica vemos varias cosas. En primer lugar, aquí lo han ejemplificado de una manera un poco exagerada. Cuando antes veíamos cuando aparecía el reforzador, que aparecía cada 40 respuestas, hemos dicho antes cada 20, ¿veis que el reforzador aparecía más o menos en cada 40 respuestas? ¿Veis que el reforzador aparecía más o menos en intervalos regulares porque la tasa de respuesta era muy uniforme? Sin embargo, aquí, que el número de respuestas requerido es diferente, aunque la tasa sea uniforme, algunos reforzadores se presentarán más tarde y otros más temprano, simplemente por el hecho de que a veces el organismo tarda más en responder que nosotros. Yo creo que aquí se han pasado un poco con la distancia, creo que aquí ha necesitado muy pocas respuestas, pero bueno, vale para ejemplificar. ¿Por qué se caracteriza este programa? Bueno, pues es el programa que da una tasa. Es la tasa de respuesta más elevada de todas. Y además, y esto es una cuestión que tiene que ver con la parte variable del programa, no hay ninguna pausa por reforzamiento. La tasa de respuesta es constante. De hecho, la respuesta suele ser tan rápida que muchas veces llega hasta los límites de la capacidad física de los sujetos. Fijaros, tenemos una tasa muy elevada sin pausas después de cada uno de los reforzadores. Las únicas variaciones que puede haber... Y que lo diferencian de una línea recta, es la propia capacidad del sujeto para responder y para mantener ese ritmo de respuesta. ¿Qué quiere decir eso? Que se pasan la mayor parte del tiempo respondiendo y muy poco se responde, muy sin responder. Así que tenemos un índice de perseverancia muy elevado. Yo creo que ya lo hemos dicho en alguna tutoría, no sé si presencialmente o online, pero ¿sabéis alguno qué tipo de conducta humana o qué situación humana... ...coincide con este patrón de respuesta, es decir, con este programa de condicionamiento? Es algo muy usual y es un estímulo que tenéis alrededor de vosotros en muchos... Bueno, ahora ya no, pero antes de todo este follón sí que teníamos alrededor nuestro mucho. Entonces, seguramente son máquinas que habréis usado todos muchas veces. Bueno, si no se os ocurre, lo digo, si no lo podéis escribir por el chat, aunque yo me adelante. Las máquinas tragaperras. Este es el patrón típico, más que juegos de azar, máquinas tragaperras, porque en los juegos de azar puede haber diferentes formas, pero sí, dependiendo de cómo estén realizados o qué tipo de juego de azar sea, lo que ocurre en general, y sobre todo en las máquinas tragaperras, que además están programadas así a posta, es decir, no es un verdadero azar, sino que es un azar programado de una manera muy determinada. Lo que tenemos es que se refuerza una serie, o se refuerza, es decir, cae dinero, por realizar la conducta un número de veces, pero no siempre es el mismo número de veces, es en torno a un número de veces. De hecho, hay una conducta muy típica de los jugadores de tragaperras, que dicen, o una frase muy típica, que dicen que la máquina está caliente. Eso lo dicen cuando llevan mucho tiempo jugando y llevan mucho tiempo sin dar premio, porque saben que en poco tiempo va a ocurrir... Va a dar un premio. No saben exactamente cuándo, pero saben que va a ocurrir. Bueno, pues eso es una derivación específica del programa de razón variable. Al final, y en eso consiste el aprendizaje, los jugadores saben que cada tiempo, o cada cierto tiempo, cada cierto número de conductas aproximado, más que tiempo, perdón, número de conductas aproximado, va a caer un premio, pero no saben decir cuánto. Así que, ¿cuál es el patrón típico de conducta en una máquina tragaperras? Constantemente y sin parar, echar dinero. Jugar sin parar y sin ninguna pausa, porque cuanto mayor sea el número de conductas, más fácil es que obtengas premio o que antes llegue el premio, aunque realmente no sabes cuál va a ser la conducta reforzada. Puede ocurrir mucho antes o mucho después. Bueno, ese es el típico caso. Y recordar que este programa es el que provoca una mayor cantidad, un mayor índice de adicción, si queréis, como en las máquinas tragaperras, una mayor cantidad de respuestas, de eso se aprovechan los que fabrican estas máquinas, lógicamente. Y no produce ningún tipo de pausa por reforzamiento. La tasa más elevada en los programas de razón variable. En el siguiente vídeo tenéis un ejemplo de cómo funcionan estos programas de razón variable en el laboratorio. Y pasamos al siguiente, vamos a pasar al otro tipo de programas, a los programas de intervalo. Y vamos a empezar con los de intervalo fijo. Algunas cosas curiosas. Fijaros, pasamos a un programa de intervalo y recordad, los programas de intervalo son aquellos en los que se requiere o se mantiene un tiempo específico para que aparezca el siguiente reforzador. Es decir, el reforzador sólo aparecerá con la primera respuesta que se dé una vez pasado el intervalo. Imaginaos que tenemos un intervalo fijo 10. Pues esto quiere decir que se reforzará la primera respuesta que ocurra después de pasados 10 segundos desde que apareció el último reforzador. Siempre recordadlo, que esto lo he repetido ya varias veces, el intervalo se cuenta desde que aparece un reforzador hasta el límite del intervalo, ¿de acuerdo? Pero hasta que no se pulse, no se empieza a contar el siguiente. Es decir, el intervalo sería 10 segundos, aquí cae un reforzador. Pero si no has pulsado aquí, si ya han pasado 10 segundos y no has pulsado, no tiene reforzador. Así que esto sigue corriendo y el siguiente intervalo empezará cuando des una respuesta y que haga el reforzador. Entonces empiezan desde aquí los 10 segundos, ¿de acuerdo? No empieza el intervalo cuando ya han pasado los 10 segundos, sino cuando cae efectivamente el reforzador. Por eso es importante recordar que en los programas de intervalo, el intervalo empieza a contar desde que aparece el reforzador y se refuerza la primera respuesta. Una vez que se ha cumplido el intervalo. Esta es la nomenclatura estándar para esto. Y de nuevo, y esto tiene que ver, ya lo habéis podido adivinar viendo el programa de razón fija y ahora el de intervalo fijo, de nuevo en los programas fijos aparece una pausa post reforzamiento. Que también depende de la duración del intervalo. Cuanto mayor duración del intervalo, mayor pausa post reforzamiento. Pero la pausa, la forma... La forma de la pausa es diferente, no tiene o tiene poco que ver con la pausa que ocurre en la razón fija. Acordaros que en los programas de razón fija pulsábamos, parábamos, break y pulsábamos, run. Es decir, una tasa muy alta de respuestas seguida de un parón absoluto y una carrera muy rápida para volver a responder. Bueno, aquí no ocurre eso. Aquí lo que ocurre es una parada y un progresivo aceleramiento. Es decir, se paras, empiezas a responder poco a poco y vas aumentando cada vez más rápido. La velocidad de respuesta hasta terminar respondiendo muy rápido. Este patrón se suele denominar, se denomina festoneado. Es un típico patrón de festoneado. Así que en los programas de razón fija la parada se llama break and run. En los programas de intervalo fijo lo vamos a denominar festoneado. Que se refiere a este cambio sistemático. En la tasa de respuesta, esta aceleración progresiva en la tasa de respuesta. Curiosamente, ¿por qué? Porque responden a mí así los sujetos. Fijaros, esto es un programa de intervalo fijo, es decir, no vas a poder obtener ningún reforzador por mucho que respondas hasta que no acabe el intervalo. Así que, ¿cuál sería la manera más útil de comportarse para obtener la mayor cantidad de reforzadores sin esforzarse demasiado? Bueno, pues si yo sé que hasta que no pase un tiempo no me van a dar un reforzador, lo mejor, claro, yo no tengo un cronómetro para medirlo, las ratas no tienen cronómetro para medir los intervalos. Así que, ¿qué es lo mejor? Bueno, pues lo mejor es una vez obtenido el reforzador sé que no me van a dar otro así que no respondo. Y según vaya pasando el tiempo y vaya siendo más probable obtener un reforzador porque puede estar acabando el intervalo. Voy respondiendo cada vez con mayor velocidad hasta que al final consigo uno y una vez hay paro. ¿Esto qué refleja? Bueno, pues refleja una especie, una cierta discriminación temporal por parte de los sujetos que son capaces de discriminar el paso del tiempo. Las diferencias temporales entre el momento en el que ha aparecido el reforzador y hay muy baja probabilidad de que aparezca otro, ninguna, y los momentos finales del intervalo cuando ya ha pasado suficiente tiempo y es posible que se haya dado un reforzador. Este disponible de nuevo el reforzador. Y esta discriminación, este patrón, este cambio describe mucho mejor el programa que la tasa de respuesta porque la tasa de respuesta no sería nada más que la media de respuestas en todo este intervalo pero nos informa poco de cómo responde el sujeto en este caso. De hecho, en los programas de razón fija también la tasa media quizás no hable mucho sobre eso. Es mucho mejor ver la forma en que se responde en las diferentes partes del intervalo o del programa de razón porque nos informa mucho más de cómo están respondiendo los sujetos. Cuando hay una tasa de respuesta muy uniforme, la media de respuesta sí es útil y sí nos informa mucho sobre cómo está respondiendo el sujeto. Cuando hay este tipo de patrones, la media no es muy informativa. Mucho más informativo ver la forma en que están respondiendo. Bueno, ya tenemos el intervalo fijo. Nos queda el intervalo variable y os podéis imaginar la forma que va a tener teniendo en cuenta cómo son los programas fijos y los programas variables con independencia de que sean de razón o de intervalo. Bueno, pues. En este caso, lo que vamos a tener, si pasa la diapositiva, que parece que... que le cuesta un poco. Lo que vamos a tener es un programa en el que la tasa de respuesta, de nuevo, va a ser bastante homogénea. Bueno, aquí tenéis, por cierto, aquí tenéis el vídeo de la paloma en un programa de intervalo fijo, lo podéis ver también en las diapos que os he pasado en este mismo tema y que también os, bueno, las tendréis también en vuestro, creo que las tenéis ahora en un apartado propio del corte inglés porque me dijeron que las mandase ahí, me imagino que hay un repositorio allí en el que también las podéis conseguir. En cualquier caso, en los vídeos siempre las vais a poder conseguir, ¿vale? Siempre van a estar, van a quedar grabadas y en Intega siempre las vais a poder tener. Bueno, nos queda el programa de intervalo variable y como buen programa variable, con independencia de que sea de intervalo o no, va a tener un patrón específico y veis aquí lo que no hay y lo que no hay son pausas. Pero vamos por partes, vamos a empezar con las características del intervalo variable. Bueno, pues un programa de intervalo variable es un programa, en el que se obtiene un reforzador siempre, o por la primera respuesta, tras un determinado intervalo de tiempo que no siempre es el mismo, sino que varía en torno a un punto medio. Igual que el programa de razón variable necesitaba su número de respuestas que variaba en torno a un punto medio, aquí para obtener un reforzador necesita responder una vez que ha pasado un tiempo que no es fijo, sino que varía en torno a un punto medio. Imaginaros un intervalo, un programa de intervalo variable. 15 quiere decir que obtendrás un reforzador siempre que, con la primera respuesta, perdón, después de que hayan pasado en torno o como media 15 segundos. Pero una vez serán 15, otras veces serán 17 y otras veces pueden ser 12, 13 o 10, dependiendo de cómo se haya programado el experimento. Bueno, pues esto es un programa de intervalo variable. ¿Por qué se caracteriza? Bueno, pues aquí tenéis dos cosas. La primera ya la hemos dicho, no hay pausa por reforzamiento. Así que ya tenemos una característica del programa. Vamos a verlo un poquito mejor. Pero también tenéis otra cosa y es que la pendiente es mucho menor. La pendiente o la tasa de respuesta que sería la pendiente es muchísimo menor, es decir, la velocidad a la que responden los sujetos de media es muchísimo menor. Sin embargo, aunque la velocidad sea menor, pasan bastante tiempo o pasan tiempo respondiendo y poco tiempo dejando de responder completamente. Así que la perseverancia sigue siendo elevada. No tanto como en los programas de razón. Pero sigue siendo una perseverancia elevada porque en ningún momento se deja mucho tiempo de responder. Simplemente se responde a una velocidad menor, pero constante. Bueno, así que recordad, una tasa constante pero un valor inferior a los de razón variable. De nuevo, vamos a pensar en un ejemplo. Imaginaros que sois la ratita de la caja de Skinner que tiene una palanca y que le cae comida. Y por el mismo proceso de aprendizaje que en eso consiste, aprendéis que os va a quedar un reforzador siempre que respondáis, pero que tiene que pasar un tiempo entre cada uno de los reforzadores para que podáis obtenerlo. Ahora bien, no siempre es el mismo, así que es bastante difícil saber cuál es el tiempo exacto. ¿Cuál sería vuestra conducta más óptima para obtener el máximo número de reforzadores sin tener que cansaros demasiado, sin tener que agotaros respondiendo? Bueno, pues quizás lo más útil en una situación en la que el intervalo varía y no sabes exactamente cuándo va a acabar y cuándo va a empezar, sea estar cerca de la palanca y pulsar cada poco tiempo, sin ir demasiado deprisa, pero cada poco tiempo simplemente para asegurarte de que todavía no hay reforzador. Así que le vas dando una tasa constante y así te aseguras de que no va a pasar mucho tiempo desde que esté disponible el reforzador hasta que lo tengas. No tienes que cansarte mucho y como el responder mucho más rápido no te va a dar más reforzadores, puedes obtener todos los reforzadores que están disponibles respondiendo una tasa menos elevada. Fijaros que al final es una cuestión de optimización. Si lo pensáis desde la perspectiva humana sería simplemente una cuestión de optimización. ¿Qué tipo de conducta, qué tipo de forma de responder es la que optimiza? La cantidad de reforzadores que obtengo. Si lo pensáis de esa manera es muy fácil acordarse de qué tipo de patrones de respuesta, qué tipo de curvas de respuesta se dan en cada uno de los programas. Así no tenéis que estar memorizando cada uno de ellos o cada una de sus características. Porque pensado desde la perspectiva de la optimización es lo más lógico o es la conducta más lógica. Siempre creo que es lógico. No lo es desde el punto de vista humano. Esto no sería un concepto de aprendizaje, sino que sería algo más didáctico para que lo tengáis en cuenta a la hora de recordarlo. Pero lógicamente las ratas no lo piensan desde esa perspectiva o no razonan sobre cuál es su conducta óptima. Bueno, ya tenemos los cuatro programas de reforzamiento básicos. Vamos a ver algunas características de ellos y sobre todo las diferencias. Vamos a resumir las diferencias que ya acabamos de ver entre cada uno de ellos. Bueno, ahora vais a ver en la siguiente diapositiva el vídeo. Que también he subido como ejemplo. De los programas de intervalo variable. Podéis verlo y podéis ver como la tasa de respuesta es muy constante, sin aceleraciones excesivas, pero tampoco comparadas entre cada una de ellas. Y ahora sí, vamos a ver las diferencias que existen entre cada uno de los programas. Las diferencias que hay entre razón e intervalo y las diferencias que hay entre fijos y variables, que ya habéis visto algunas de ellas. Vamos por orden. Diferencia fundamental entre programas fijos y programas variables. Ya lo hemos visto, en los programas fijos suele haber pausas entre reforzamiento. Cada vez que se da un reforzador después aparece una pausa en la conducta. En los programas de razón fija se denominaba break and run y era este patrón de parada y correr rápido hacia el reforzador. En los programas de intervalo fijo era ese patrón festoneado de aceleración progresiva. Segundo, diferencia entre los programas de razón fija e intervalo fijo. Bueno, ya hemos visto que los dos se caracterizan por una pausa tras el reforzamiento. La diferencia es qué ocurre tras esa pausa. En los programas de razón fija, una tasa alta desde el principio, un incremento, no un incremento, sino una velocidad de respuesta muy elevada. En el intervalo fijo, un crecimiento, una aceleración gradual de la respuesta. ¿Qué pasa? Empieza muy despacio y que después se hace muy rápido. De una tasa constante pero muy elevada a una aceleración gradual. Bueno, en estos programas, en los programas fijos, seguimos con los programas fijos, el aumento de los requerimientos del requisito de los programas de razón o de tiempo, es decir, aumentar el número de respuestas que requiero o aumentar el tiempo necesario para que se pueda reforzar una respuesta, aumenta la cantidad o el tiempo de pausa post reforzamiento. Así que tener en cuenta, en este caso, que todos los programas fijos, todos, tienen pausa por reforzamiento y que a todos les influye el requisito que tenemos en ese programa y que lo que les diferencia realmente es la forma en la que después de esa pausa se recupera la respuesta. De tasas muy estables y muy altas, incrementos. Y otra cosa importante, los programas de razón fija, la tasa en los programas de razón fija, parece que tiene que ver más con la frecuencia con la que se obtienen reforzadores. que con la cantidad de respuestas que tenemos que dar. Y también más con el programa que va a venir después que con el programa anterior. Fijaros, en este caso, ¿qué querría decir esto? Con la frecuencia de reforzadores. Esto se ve a través de programas que se llaman no concurrentes, perdón, acoplados. Cuando se acoplan dos programas. Imaginaros que nosotros cogemos un programa de razón fija y vemos cuánto tiempo se tarda en responder, más o menos. Tienen que dar 40 respuestas. Como las tasas son muy estables, más o menos siempre van a tardar el mismo tiempo en obtener un resultado. Un reforzador. Bueno, pues lo que se ha visto es que la tasa a la que se responde tiene más que ver con ese tiempo que pasa entre que se consigue uno y otro que con el número de respuestas, que con el requerimiento de razón. Si los reforzadores son más rápidos o se obtienen de manera más rápida, a pesar de que se castigue, que lo que queremos es que la den más adelante, es decir, que la den con menos frecuencia. Fijaros, eso hace complicado porque a la vez estamos haciendo un procedimiento que confunde, que castiga a la vez que premia la misma conducta. Por eso es mucho más fácil conseguir un reforzamiento diferencial de tasas altas, de tasas elevadas. En este caso, si tenemos el mismo intervalo, lo que hacemos es reforzar una conducta si ocurre antes del final del intervalo y en ese caso cae el reforzador y se reinicia el intervalo y como máximo podrán esperar ese número de tiempo para que quede el reforzador. Si no, se vuelve a reiniciar el intervalo. ¿Qué premiamos aquí? Pues que las respuestas ocurran muy rápidamente. De hecho, cuanto más rápido ocurran, más reforzadores vamos a obtener. Aquí no, aquí al revés, cuanto más rápido ocurran, menos reforzadores obtendremos. Así que lo que estamos reforzando no es sólo responder a una palanca o dar una conducta concreta, sino que estamos reforzando el tiempo específico que queremos que pase o la velocidad de respuesta, la tasa de respuesta. ¿De acuerdo? Bueno, pues ya tenemos el reforzamiento diferencial de tiempos entre respuestas. ¿Y para qué hacemos esto? Bueno, acordaros que hemos visto una explicación basada en funciones de retroalimentación, una explicación que denominábamos molar. Pero también hay una teoría que explica cómo funcionan los diferentes programas que hemos visto en función de los tiempos de respuesta, de los tiempos entre respuesta. ¿Y qué dice? Bueno, pues viene a decir que todos los programas que hemos visto refuerzan específicamente tercios, tiempos entre respuestas de una duración determinada. ¿Cómo lo explica? Bueno, pues para esta teoría lo que ocurre es que en cada programa de reforzamiento se refuerza el tiempo entre respuestas, es decir, el tiempo que ocurre entre una respuesta y otra, el que ocurre justo antes del reforzador. Imaginaros un programa de razón 40, ¿vale? Razón fija, 40. Bueno, el tiempo entre respuestas que se refuerza sería el que ocurre entre la respuesta 39 y la 40. En la 40 es en la que se obtiene el reforzador, es decir, el tiempo entre respuestas que ocurre justo antes de la obtención del reforzador. ¿Vale? Por eso, en los programas de razón, los tiempos entre respuestas son más cortos. Así que, como además depende la tasa de reforzamiento directamente, de la tasa de respuesta, se reforzarían test cortos. Justo antes de aparecer el reforzador, aparecerían test cortos y eso haría que luego los tiempos de respuesta fuesen muy homogéneos y se podría explicar fácilmente a este reforzamiento diferencial o a este reforzamiento de tiempos entre respuestas específicas. Pero, ¿qué ocurre con los programas de razón y de intervalo? Los intervalos y razón variable, que son muy homogéneos. Pero, ¿qué ocurre con los programas de razón y de intervalo fijo? Los programas fijos, en general. ¿Os acordáis lo que pasaba en los programas fijos? Que teníamos tercios que no eran homogéneos, había periodos del intervalo en los que no se respondía y periodos en los que sí se respondía muy rápido. Y en intervalo igual, periodos de pausa y luego un incremento progresivo. Bueno, pues aquí es difícil explicar o atribuir la tasa de respuesta a este reforzamiento diferencial. Porque, por pura lógica, si lo que se refuerza es este último ter, todos los ter deberían ser iguales. Si yo estoy reforzando esto, lo que se va a repetir en cada intervalo va a ser esto. Así que, en los programas de razón variable e intervalo variable, que son programas muy homogéneos, que no hay pausas, puede ocurrir esto. Se refuerza un ter específico y se cumple durante todo el intervalo, se cumple durante todos los ensayos. ¿Pero qué pasa aquí que hay pausas y luego se aceleran? Bueno, lo que dice la teoría de los tiempos entre respuestas es que lo que se refuerza serían ter muy cortos, tiempos entre respuestas muy cortos. Porque lo que hay al final del intervalo, justo antes de que aparezca el reforzador, ¿qué es lo que hay? Respuestas muy rápidas. Recordad que en ambos programas, en los de razón, y los de intervalo fijo, en la parte final, justo antes de obtener el reforzador, se está respondiendo muy rápido. Uno por el break and run, es decir, han empezado la carrera para conseguir un reforzador, y otro por el festoneado. Están en la parte final en la que ya han acelerado muchísimo la respuesta. Bueno, y sin embargo eso no ocurre. Lo que ocurre son patrones diferentes en cada momento del intervalo. Así que parece que esta teoría no explica muy bien, por lo menos estos dos programas. Si son necesarios, mecanismos adicionales para explicarlo, en particular, la discriminación temporal. ¿Esto qué quiere decir? Ya lo hemos visto antes. Es que los sujetos serían capaces de discriminar que en qué momento del intervalo están y la probabilidad que hay de que aparezca un reforzador. Y en función de esa discriminación temporal, se refuerzan respuestas diferentes. Cuando la probabilidad de reforzamiento es baja, se refuerzan TEPs. ¿Por qué no vamos a tener reforzador? Así que lo que queda reforzado, lo que parece que una conducta más óptima es espaciar las respuestas. Sin embargo, según se avanza en el intervalo, si los sujetos tienen cierta capacidad de discriminar cuando ya es posible que aparezca el reforzador, se irán reforzando TEPs. cada vez más cortos, porque está próximo el reforzador y sabes que cualquier respuesta, que sea contigo o en cualquiera de esas respuestas, puede aparecer en el nuevo reforzador. Esto sería la explicación o la teoría del reforzamiento diferencial de TERS, que explica bastante mejor los programas de razón variable e intervalo variable que los programas fijos, es decir, lo mejor los programas variables que los programas fijos, porque los programas variables tienen tasas homogéneas durante todo el intervalo entre reforzamientos, sin embargo los fijos no lo tienen, luego hay que recurrir a mecanismos adicionales de explicación. Bueno, ya tenemos también la teoría de reforzamiento de TERS, de tiempos entre respuestas. Vamos con la última parte que vamos a ver, esto va a ser lo último que vamos a ver y nos vamos a quedar justo después de esto en la conducta de elección. Vamos a explicar diferentes de programas o programas compuestos, de reforzamiento, es decir, programas de reforzamiento que constan de dos o más programas de manera conjunta. Y se pueden presentar tanto de manera secuencial, es decir, uno después de otro, como de manera concurrente, es decir, los dos a la vez. ¿Por qué vamos a hablar de esto? Bueno, pues porque cuando veamos los programas concurrentes nos vamos a quedar justo en esos programas concurrentes para explicar el tipo de conducta muy concreta, que es la conducta de elección. Pero de momento vamos a explicar todo eso. Luego ya pasaremos directamente a la conducta de elección. Y vamos a empezar por los programas en los que se presenta cada uno de ellos, uno detrás de otro. Programas que son alternantes y secuenciales. Tenemos dos tipos, alternantes y secuenciales. Y cada uno de estos se divide en otros dos en función de que tengan algo muy sencillo, un estímulo discriminativo o que no lo tengan. Acordaros que un estímulo discriminativo simplemente es un estímulo que aparece y que nos indica si está o no está disponible el reforzador. O, en este caso, cuáles son los requerimientos para obtener ese reforzador. Que es lo que nos va a indicar, en este caso, el estímulo discriminativo. Vamos a verlos. Vamos a empezar con los programas alternantes. Vamos a ver exactamente lo que son. Empezamos... Uy, que se queda esto... Un segundo, lo voy a borrar, que se ha quedado pillado el lápiz. Bueno, vamos a empezar con el programa visto. ¿Qué es? Es algo muy sencillo. Dos o más programas. Dos o más programas básicos alternándose al azar. Por ejemplo, aquí tenéis un ejemplo. Un programa IF50, después un programa RF30, IF50 otra vez... Es decir, se van alternando uno después de otro. Y además no depende de lo que haga el sujeto, la alternancia no depende de lo que haga el sujeto. El obtener el reforzador sí, porque tienes que cumplir con el programa que está activo en ese momento para obtener el reforzador, pero se alternan de acuerdo a un tiempo preestablecido, por ejemplo 10 minutos cada uno. Así que da igual lo que yo haga, si lo hago bien o lo hago mal, van a seguir alternándose uno después del otro. Pero yo sí tengo que cumplir con ellos. Así que básicamente estaré 10 minutos en este programa, después pasaré otros 10 minutos a este, otra vez a este y así una y otra vez. Así que lo que tienen que aprender los sujetos es ir a cambiar su forma de responder en función del programa que esté activo en ese momento. Aprenden qué tipo de programa está activo en ese momento. ¿Qué es el programa múltiple? Bueno, pues exactamente lo mismo. Que el programa mixto. La única diferencia es que aquí tenemos un estímulo discriminativo. Es decir, hacemos exactamente lo mismo, pero le ponemos en nuestra cajita de Skinner una lucecita a nuestra rata que se enciende de un color diferente en cada uno de los programas. Así que cuando está en IF50 se enciende una lucecita de color rojo que indica a la rata que está en el programa IF50. Es decir, que tiene que dar una pulsación o tiene que esperar al menos 50 segundos para que su respuesta dé lugar a un programa. A un reforzador. Y se puede encender con una luz verde para indicar el siguiente, que sería RF30, que le indica a la ratita en este caso que si responde 30 veces tendrá disponible el reforzador. Así que cada uno de los colores o este estímulo discriminativo le indica al animal, al organismo, al sujeto, en qué programa está y cuáles son los requerimientos de ese programa. Eso es lo que tienen que aprender. Es la situación de aprendizaje. Bueno, ya tenemos los programas alternantes. Una forma de presentar programas de manera secuencial. Ahora vamos a ver los programas puramente secuenciales, que son dos también. Programa tándem y programa encadenado. ¿En qué consisten? Bueno, también muy sencillo. El programa tándem son dos programas básicos de los que ya hemos visto, de los cuatro que hemos visto, siempre en el mismo orden. Pero además, y esto es importante, se debe completar el primero para que se inicie el segundo. Si el primero es, pongamos, un... ...un IF20 hasta que no completes este programa, es decir, hasta que no des una pulsación una vez pasado el intervalo, no se va a iniciar el siguiente programa. El segundo puede ser un RF, por ejemplo. También podrían ser variables, esos son ejemplos para que se vean de manera más sencilla. Un RF10. Bueno, pues hasta que no completes este, no aparece este. Y en cuanto estás en este, pulsas 10 veces y ya aparece el reforzador. Es decir, el segundo programa es el que da acceso al reforzador. Solo aparece el reforzador si completamos correctamente los dos programas. Es decir, tras este programa no se obtiene ningún reforzador. Fijaros, esto se ha utilizado, y el que vamos a ver abajo también, o lo digo ya aunque el siguiente es exactamente igual, se ha utilizado para estudiar el reforzamiento condicionado. ¿Por qué se sigue pulsando aquí a pesar de que no hay un reforzador? Bueno, pues parece que se condiciona, o este programa queda condicionado a este programa que sí que está asociado a la aparición de un reforzador. Así que por condicionamiento clásico parece que... Este programa que actúa como estímulo condicionado se asocia a este, que a su vez queda condicionado a la aparición de un estímulo incondicionado que es la comida. ¿Veis? Un condicionamiento de segundo orden. Este programa adquiere propiedades de reforzador por el mero hecho de estar asociado a otro programa que sí que está asociado con un reforzador real, con un estímulo biológicamente significativo. ¿Os acordáis cuando hablábamos del dinero y cómo adquiría sus propiedades reforzantes a través de la asociación? Con el... Con otras cosas. Bueno, pues aquí tenemos un ejemplo del tipo de programas que podemos ver para comprobar este tipo de situaciones. ¿Qué es el programa encadenado? Pues exactamente igual que el programa tándem. De nuevo, la única diferencia es que se señala cada uno de los programas con una clave discriminativa. De nuevo, en nuestra caja de Skinner tendremos exactamente lo mismo, pero ahora tenemos una lucecita roja para enseñarle a la rata que está en el primer programa y una verde para enseñarle que está en el siguiente programa. Por ejemplo, podría ser un tono, podría ser cualquier otra señal. ¿Vale? Pero así puede conocer en qué programa está encadado al momento. Recordad que hay que completar los dos para obtener el reforzado. Bueno, pues estos son los diferentes programas de reforzamiento secuenciales y alternantes. Nos queda un tipo, los programas que no aparecen uno detrás de otro, los programas que son concurrentes. Es decir, los programas que aparecen los dos a la vez. Esta es la típica conducta de elección que vamos a ver y que vamos a analizar. el resto del tema lo veremos después en la primera tutoría después de semana santa en esta situación lo que tenemos son dos palancas por ejemplo es un ejemplo solamente dos palancas cada una con un programa diferente y cada una da lugar a una obtención distinta a un requerimiento distinta para obtener reforzadores es decir dos o más programas básicos simultáneamente Pongamos un RF 10 y un intervalo fijo 20. De nuevo puede ser cualquiera de los cuatro, ¿vale? Solamente son ejemplos. Bueno, ¿qué pueden hacer? En este caso los sujetos pueden cambiar cuando quieran de un programa al otro. Tienen que elegir entre responder a uno o a otro. Primero, si cada programa tiene unos requerimientos distintos va a dar lugar a una tasa de reforzamiento distinta. Así que los sujetos tienen que elegir para obtener o para optimizar el número de reforzadores que van a obtener. Es decir, adaptarán su conducta, elegirán para obtener el máximo, optimizar o obtener el máximo número de reforzadores posibles. ¿Cómo se ve esto? Pues con la proporción de respuestas a cada uno. ¿Qué proporción de respuestas? Pues en función del tipo de programa que sea y de sus contingencias de reforzamiento pasarán más tiempo en uno o pasarán más tiempo en otro. Bueno, estos son los programas simultáneos. Además, importante, no hace falta haber completado un programa para poder pulsar el siguiente. Es decir, pueden cambiar cuando quieran. Pueden elegir completamente y en libertad dentro de las opciones que tienen. Son libres pero no son omnipotentes. Pueden elegir la conducta como quieran y pueden hacerlo de la manera que deseen para optimizar lo que van a conseguir o para optimizar la obtención de reforzadores. Bueno, y nos quedan los programas combinados. En este caso, ¿qué se combina? Pues se combina un programa de razón y un programa de intervalo y se pueden hacer de diferentes maneras. Programa alternativo, tenemos tres tipos. El programa alternativo se refuerza una respuesta. Cada vez que se cumple con un programa. Si tenemos dos programas que aparecen a la vez, si yo cumplo con uno de ellos, me dan un reforzador. Ya sea este o este. Yo cumplo con uno, me dan un reforzador. Programa conjuntivo, también fácil. Solamente me darán el reforzador si cumplo a la vez con algo. Si tengo un programa de razón y otro de intervalo, imaginaros que son razón 10, intervalo 20. Pues solo se me dará un reforzador si pulso aquí 10 veces y además pulso en este cuando ha pasado. Y un programa entrelazado. Aquí ya se cambia un poquito. Aquí, de nuevo, tienes un programa de razón e intervalo, pero lo que se hace es cambiar los requerimientos de uno. A través del desarrollo del otro. Por ejemplo, en este caso sería para el programa de razón responder 10 veces pero en un intervalo o dentro de un intervalo determinado o en un espacio determinado o solamente una vez que ha pasado un intervalo determinado. ¿Veis? Los requerimientos de un programa se supeditan al desarrollo del otro programa. Por ejemplo, sumar respuestas y tiempo necesario, mayor tiempo, menor tiempo, etc. Estos son los programas combinados y concurrentes. Y ahora nos vamos a centrar solamente en este. Todo lo que vamos a ver a partir de ahora, ya lo veremos la semana que viene, van a ser situaciones basadas en programas concurrentes. Esto es lo que vamos a ver ya la semana que viene. Solo os doy una pequeña introducción de un par de minutos. ¿Qué vamos a estudiar? La conducta de elección, es decir, la preferencia entre diferentes alternativas. Si tienes dos alternativas, ¿cuál prefieres de las dos? Eso va a depender, lógicamente, de la cantidad, es decir, de la frecuencia de reforzamiento de cada uno de los programas. Dos fuentes de reforzamiento, dos fuentes alternativas. Respuestas que son iguales, es decir, para obtener el reforzamiento. Si yo, como reforzador, tengo que hacer lo mismo que expulsar una palanca, ¿tiene que ser esta o tiene que ser esta? Cada una tiene unas características. Pero la conducta que tengo que realizar es la misma. Así que, como la conducta es la misma, puedo suponer que los sujetos elegirán una u otra, más o menos, en función de la cantidad de reforzamiento de premios que obtengan. Había una alternativa a esto, que es lo que se denomina premios concurrentes. Esto consistía en dar dos conductas diferentes a los sujetos. Por ejemplo, beber y correr en la rueda. Y ver cuánto tiempo dedicaban a cada una. Pero claro, esto hace más difícil compararlo, porque las conductas son diferentes. Aquí, de esta manera, con los programas concurrentes de respuesta, puedes comparar directamente, o puedes ver cómo se eligen en función de la tasa de reforzamiento, porque la conducta no es diferente. No supone una diferencia igual a la conducta, y puedes comparar cómo eligen los sujetos en función de la tasa de reforzamiento. Bueno, pues esto nos llevará a formular una ley, que se denomina la ley de igualación. Y es que, y aquí lo dejamos, curiosamente los sujetos, organismos, ya sea en un experimento o fuera de él, tienden a igualar la tasa relativa de reforzamiento, es decir, la proporción de respuestas que dan en cada una de las alternativas, a la proporción de reforzadores que pueden obtener en cada una de las alternativas. Así que en función de lo que obtengan, reparten su tiempo y el número de respuestas en cada una de las alternativas. Esta ley de Herstein la dejamos para después de Semana Santa. Y ahora sí lo dejamos aquí. El programa encadenado también tiene que cumplir los dos requisitos para tener el reforzador. Vamos a volver atrás al programa encadenado. Sí, exactamente igual que en el otro. Tienen que cumplir los dos requisitos para obtener el reforzador. La única diferencia entre el tándem y el encadenado es que aquí hay un estímulo discriminativo. Aquí no lo hay y aquí sí, pero en los dos tienen que cumplir. Aquí lo dejamos. Muy buena Semana Santa. Con un poco de suerte no tardamos mucho en vernos presencialmente y muy buenas vacaciones, lo que podamos. Aunque van a ser unas vacaciones un poco encerradas, pero bueno, ¿qué le vamos a hacer? Y nada, manteneros seguros en casa y pasadlo muy bien si es posible. Así que nada, muchas gracias y hasta luego.