El concepto: cuando miramos una silla, independientemente de su forma y color, sabemos que podemos sentarnos en ella. Cuando un pez está en el agua, independientemente de su ubicación, sabe que puede nadar. Esto se conoce como la teoría de la capacidad de pago, un término acuñado por el psicólogo James J. Gibson. Establece que cuando los seres inteligentes miran el mundo, perciben no solo los objetos y sus relaciones, sino también sus posibilidades . En otras palabras, la silla "ofrece" la posibilidad de sentarse. El agua "ofrece" la posibilidad de nadar. La teoría podría explicar en parte por qué la inteligencia animal es tan generalizable: a menudo sabemos de inmediato cómo interactuar con nuevos objetos porque reconocemos sus posibilidades.
La idea: los investigadores de DeepMind ahora están utilizando este concepto para desarrollar un nuevo enfoque para el aprendizaje por refuerzo. En el aprendizaje de refuerzo típico, un agente aprende a través de prueba y error, comenzando con el supuesto de que cualquier acción es posible. Un robot que aprende a moverse del punto A al punto B, por ejemplo, asumirá que puede moverse a través de paredes o muebles hasta que las fallas repetidas le indiquen lo contrario. La idea es que si al robot se le enseñara primero las posibilidades de su entorno, eliminaría inmediatamente una fracción significativa de las pruebas fallidas que tendría que realizar. Esto haría que su proceso de aprendizaje sea más eficiente y lo ayudaría a generalizar en diferentes entornos.
Los experimentos: los investigadores establecieron un escenario virtual simple. Colocaron un agente virtual en un entorno 2D con una pared en el medio e hicieron que el agente explorara su rango de movimiento hasta que supiera lo que el entorno le permitiría hacer: sus posibilidades. Luego, los investigadores le dieron al agente un conjunto de objetivos simples para lograr mediante el aprendizaje de refuerzo, como mover una cierta cantidad hacia la derecha o hacia la izquierda. Descubrieron que, en comparación con un agente que no había aprendido las posibilidades, evitaba cualquier movimiento que hiciera que la pared lo bloqueara a mitad de su movimiento, configurándolo para lograr su objetivo de manera más eficiente.
Por qué es importante: el trabajo aún se encuentra en sus primeras etapas, por lo que los investigadores utilizaron solo un entorno simple y objetivos primitivos. Pero esperan que sus experimentos iniciales ayuden a sentar las bases teóricas para ampliar la idea a acciones mucho más complejas. En el futuro, ven este enfoque que permite a un robot evaluar rápidamente si puede, por ejemplo, verter líquido en una taza. Habiendo desarrollado una comprensión general de qué objetos ofrecen la posibilidad de retener líquido y cuáles no, no tendrá que perder repetidamente la taza y verter líquido sobre la mesa para aprender cómo lograr su objetivo.
Fuente: MIT Technology Review
No hay comentarios.:
Publicar un comentario