Comenzamos el primer tema sobre análisis de componentes independientes Seguiremos el texto de Stone En este primer tema lo que vamos a ver básicamente es en qué consiste ICA o el análisis de componentes independientes qué es lo que pretende y cuál es su base explicado sin matemáticas, explicado de forma comprensible En primer lugar, en el texto de Stone lo que hace es referencia a la distinción entre datos e información que son dos cosas completamente distintas Los datos transmiten información pero de forma oculta Pongamos por ejemplo actualmente las empresas como por ejemplo los bancos o cualquier empresa comercial comercial Carrefour o el Corte Inglés disponen de una base de datos tales que cuando yo voy a hacer una compra y pago registran quién soy, a qué hora voy qué hora de la semana, qué día de la semana qué he comprado y eso lo hacen conmigo y lo hacen con los cientos de miles de personas que pasan por el establecimiento todos los días De tal forma que esos son los datos Datos, hora del día Datos, qué he comprado pues arroz, la cigala pilas, pan todo eso queda registrado esos son los datos pero lo que le interesa a la comercia no son tantos los datos como extraer la información acerca de por ejemplo a qué hora suelen ir sus clientes usualmente de tal forma que por ejemplo puedan planificar la fuerza de trabajo y tener más gente durante esos momentos del día o también les puede interesar ver qué es lo que suelo comprar al mismo tiempo si cuando voy yo compro colonia y una cuchilla de afitar al mismo tiempo y es una asociación que pueden extraer de forma fiable de los datos lo que intentarán ver es lo que intentaran hacer entonces colocar la colonia y la cuchilla de afitar simultáneamente cerca una de otra para que yo me percate como las suelo asociar que no se me olvide una con respecto a la otra y por tanto las compre es decir los datos por sí mismos no son nada lo que me interesa es la información que esos datos me puede aportar y por tanto tengo que extraer esa información tengo que estar hacer correlaciones por ejemplo entre entre los datos de tipo de compra que hago o tengo que establecer histogramas para determinar en qué momento del día son los preferidos del cliente los datos transportan información pero yo tengo que extraer esa información y además la información depende de la utilidad que tenga para mí no es la misma la utilidad que pueda tener la información para la información de de mis compras para el banquero que es para el director de esa empresa para el banquero le puede interesar determinar si la gente nos pasamos del dinero que tenemos en el banco al gerente le puede interesar otro tipo de información por lo tanto la información está en función de la utilidad que tenga para mí por consiguiente datos e información a partir de los datos extrae información y esa información tiene que ser útil para mí con lo cual yo voy a plantear unas preguntas u otras a los datos voy a extraer una información u otra es lo de la utilidad bien ICA entonces es simplemente una técnica para extraer información a partir de los datos pero a diferencia de otras técnicas ICA lo que pretende es determinar cuáles son los factores que subyacen al fenómeno observado el fenómeno observado van a ser los datos en este caso ICA normalmente va a trabajar con normalmente o siempre no conozco ningún caso en el que los datos no sean series temporales es decir medimos en el tiempo una señal por ejemplo mis compras cuánto me gasto a la semana en el Carrefour o los datos bursátiles de la bolsa de Madrid y ahí vamos a tener si la bolsa baja sube he mostrado en función del día de la semana del mes una serie temporal sobre algún índice bursátil o la tasa de escala de un conjunto de neuronas todas esas son señales en función del tiempo el eje de las fisas es el tiempo y el eje de ordenada va a ser si es precio bursátiles por ejemplo uno de los índices bursátiles que hay en mi key por ejemplo si es la tasa de descarga de una serie de neuronas pues la frecuencia de descarga voces luego veremos el ejemplo en relación a las voces pero lo importante es que bajo esa serie de temporales de frecuencia de descarga de neuronas o de los precios bursátiles medidos por mi key etcétera creemos que hay realmente esos datos vienen influenciados por un conjunto pequeño de fenómenos de variables independientes ICA nos promete descubrir cuáles son esos esos factores suyacentes esas fuerzas conductoras vamos a verlo con un ejemplo más adelante supongamos el ejemplo de las voces imaginemos que yo y María estamos hablando de forma independiente en uno o en otro es decir en distintas conversaciones por lo tanto de forma independiente nuestras voces van a crear en el ambiente una serie de vibraciones que van a llegar a una serie de micrófonos de tal forma que si este soy yo las ondas de presión de mi voz van a llegar a este micrófono pero no solamente van a llegar las mías sino que van a llegar las demás las voces de María todavía tengo que manejar esto un poquito mejor el caso es que este micrófono va a recoger una mezcla de nuestras dos fuentes de la voz de mi voz y de la voz de María pero la mía la va a recoger de forma más fuerte que la de María porque me encuentro más cerca también va a depender de la intensidad de nuestra voz y si yo estoy hablando de forma más alta que la de María de forma más intensa también va a depender también lo va a recoger de forma más intensa lo importante es que lo que sale la señal que sale del micrófono es una mezcla de estas dos señales de la misma forma va a suceder con el segundo micrófono si en el segundo micrófono disponemos va a resultar exactamente lo mismo tendremos que mi voz va a llegar al micrófono y también la de María y lo que salga del micrófono va a ser una mezcla de agua de ambos pero una mezcla con distinto peso de su voz y de la mía porque ahora María queda más cerca del segundo micrófono que yo el caso es que el resultado lo que los micrófonos recogen y emiten mediante una serie de señales eléctricas a un ordenador por ejemplo es una única señal mezcla de las dos anteriores pero una única señal este micrófono está enviando al ordenador o a donde sea una única señal en forma de variaciones de voltaje y este segundo micrófono está enviando otra señal una única señal en forma de variaciones del voltaje en función del tiempo Ica entonces lo que pretende es una técnica aquí se refleja un simple rectángulo hace algo de tal forma que separa de las dos mezclas anteriores mi voz que lleva la fuente 1 y la voz de María la fuente 2 señala perdón separa entonces en este caso las fuentes las señales las fuerzas conductoras eran las voces de María y la mía el problema es que lo que recibe Ica no son esas señales sino que recibe los factores subyacentes a lo que se recibe a esos factores subyacentes se le va a llamar señales fuentes son los que interesan interesa la voz de María y la mía no sus mezclas el problema es que esas dos señales fuentes están ocultas en una gran cantidad de señales medidas que son las señales de mezcla en el ejemplo bursátil lo que podríamos enviar o introducir a Ica serán las señales de los índices bursátiles de la bolsa de Madrid de la bolsa de Londres de la bolsa de París de la bolsa de Nueva York de la bolsa de Tokio pero lo que nos interesa no son lo que está sucediendo ahí no lo sabemos es una mezcla de muchos componentes que no conocemos y lo que pretende Ica es separar esos componentes que son en realidad los que están dirigiendo la bolsa que pueden ser al final simplemente pues por ejemplo variaciones estacionales el precio del crudo o alguna otra unas pequeñas un número pequeño de señales fuentes que se mezclan de formas que no conocemos nosotros solamente conocemos las señales mezcla e Ica pretende mostrarnos las señales fuente eso es lo que pretende Ica por consiguiente se utiliza para extraer las señales fuente que no las podemos medir porque no las conocemos o no sabemos cuáles son que eso ya tiene un conjunto de señales mezcla las señales mezcla si las medimos pero sabemos que están mezcladas que es una confusión a nosotros lo que nos interesa son las señales fuente las originales por decirlo así normalmente las señales fuente van a ser un número menor que las señales mezcla y por tanto Ica también se puede utilizar como una técnica de reducción de datos pero lo veremos más adelante Ica pertenece a una clase de métodos llamados BBS significa separación ciega de fuentes como hemos dicho en el ejemplo anterior de los dos micrófonos las dos personas hablando etc Ica va a separar nuestras voces a partir de las mezclas que recibe de los micrófonos pero lo va a hacer de forma ciega en el sentido que va a hacer muy pocos supuestos acerca de lo que está sucediendo muy pocos supuestos no es una técnica paramétrica en ese sentido se dice que es ciega porque estos métodos trata Ica en concreto trata de separar las señales fuentes de los datos aunque sepamos muy poco sobre la naturaleza de las señales fuentes no vamos a asumir que las señales fuentes son normales ni que vamos a asumir muy poquitas cosas por eso se dice que es ciega asumimos muy poquito algo tenemos que asumir pero muy poco entonces Ica se encuentra dentro de las técnicas BBSD separación ciega de fuentes ya hemos explicado anteriormente este ejemplo que es el paradigma de lo que pretende hacer el análisis de componentes independientes Ica asumimos que la amplitud de las voces no está relacionada es uno de los pocos supuestos que vamos a hacer hay algún otro pero este es uno de los fundamentales la amplitud de las voces no están relacionadas entre sí cuando yo estoy hablando y cuando está hablando María cada uno lo hacemos de forma completamente independiente es decir deben estar generadas las dos señales fuentes o las señales fuentes que hayan deben estar generadas por procesos físicos no relacionados entre sí si se cumple este supuesto estamos en problemas para aplicar Ica entonces sabiendo esto una estrategia para separar las mezclas es buscar señales no relacionadas en las mezclas porque es el único supuesto que estamos haciendo la propiedad de que las señales fuentes no se encuentren relacionadas es de una importancia fundamental es uno de los pocos supuestos que vamos a hacer otro de los supuestos es que no exista una demora diferencial en la recogida de información es decir que los micrófonos recojan la información al mismo tiempo de tal forma que los tiempos estén sincronizados la no relación entre las señales fuentes puede es decir que las señales fuentes no estén relacionadas entre sí que procedan de procesos físicos distintos independientes se traduce en términos estadísticos como que las señales sean independientes estadísticamente si el valor de una señal fuente no propone acción de información en relación al valor de la otra señal fuente estamos hablando de señales independientes estadísticamente entonces por una parte procesos físicos distintos van a producir señales fuentes distintas y eso se va a capturar en el término de estadísticamente estas dos señales fuentes sean independientes pero este es un supuesto no lo sabemos lo que recibe ICA son señales mezclas de las que vamos a asumir que se cumple que proceden de procesos físicos diferentes y que no existe demora en la recogida de la información por consiente ICA lo que va a hacer es separar un conjunto de señales mezcla que es lo único que conocemos la va a separar en un conjunto de señales que son estadísticamente independientes y que vamos a asumir que son las señales fuentes subyacentes a las mezclas el rango que define las señales extraídas las señales fuentes bueno lo que tomamos por señales fuentes lo que sale de ICA que no tiene por qué ser exactamente idéntico a las señales fuentes es decir cada señal va a ser independiente del resto de las otras señales fuentes extraídas porque es lo que subyace a esta técnica la técnica parte del supuesto como hemos dicho que si diferentes señales proceden de procesos físicos diferentes entonces esto implica que estas señales van a ser estadísticamente independientes este apartado es se cumple de forma segura con procesos físicos diferentes produce señales estadísticamente independientes ahora bien lo que hace ICA no es esto lo que hace ICA es invertir el razonamiento porque no tenemos acceso a las señales fuentes tenemos solamente acceso a la señal en mezcla entonces lo que dice ICA es que aunque no esté lógicamente garantizado aunque podamos equivocarnos normalmente en la práctica si podemos este proceso se va a invertir de esta forma que aunque no esté lógicamente garantizado en la práctica va a funcionar si podemos extraer señales estadísticamente independientes de las mezclas ICA lo que tiene son las señales mezclas independientes y una serie de procesos matemáticos va a obtener señales estadísticamente independientes por consiguiente asumimos que esas señales deben proceder de procesos físicos diferentes por consiguiente ICA lo que va a hacer es lo que se le introduce el input al proceso estadístico ICA son señales en mezcla y lo que va a buscar es en esa señal en mezcla la va a intentar separar en señales independientes estadísticamente y va a asumir que proceden por consiguiente esas señales independientes estadísticamente proceden de procesos físicos diferentes este proceso no está garantizado lógicamente pero en la mayor parte de los casos lo podemos asumir que es correcto hemos dicho en psicología que ICA se utiliza mucho para separar procesos cerebrales distintos si ponemos por ejemplo a una persona un gorro de eje de electroencefalografía cada eléctrodo va a recoger la mezcla de las señales eléctricas que le envíen distintos centros cerebrales que están activos cuando el sujeto realiza una determinada tarea cada eléctrodo recoge una mezcla de señales lo que hace ICA es que separa esa señal en mezcla en componentes estadísticamente independientes entonces el sujeto está haciendo análisis de componentes independientes bien no lo sabemos no lo podemos asegurar por consiguiente ICA