Los modelos recientes de IA son sorprendentemente parecidos a los humanos en su capacidad para generar texto, audio y video cuando se les solicita. Sin embargo, hasta ahora estos algoritmos han permanecido relegados en gran medida al mundo digital, en lugar del mundo físico tridimensional en el que vivimos. De hecho, siempre que intentamos aplicar estos modelos al mundo real, incluso los más sofisticados luchan por funcionar adecuadamente. —Basta pensar, por ejemplo, en lo difícil que ha sido desarrollar vehículos autónomos seguros y fiables. Si bien son artificialmente inteligentes, estos modelos no sólo simplemente no entienden la física, sino que también a menudo alucinan, lo que los lleva a cometer errores inexplicables.
Sin embargo, este es el año en el que la IA finalmente dará el salto del mundo digital al mundo real que habitamos. Expandir la IA más allá de sus límites digitales exige reelaborar la forma en que piensan las máquinas, fusionando la inteligencia digital de la IA con la destreza mecánica de la robótica. Esto es lo que yo llamo “inteligencia física”, una nueva forma de máquina inteligente que puede comprender entornos dinámicos, afrontar la imprevisibilidad y tomar decisiones en tiempo real. A diferencia de los modelos utilizados por la IA estándar, la inteligencia física tiene sus raíces en la física; en la comprensión de los principios fundamentales del mundo real, como la causa y el efecto.
Estas características permiten que los modelos de inteligencia física interactúen y se adapten a diferentes entornos. En mi grupo de investigación en el MIT estamos desarrollando modelos de inteligencia física que llamamos redes líquidas. En un experimento, por ejemplo, entrenamos dos drones (uno operado por un modelo de IA estándar y otro por una red líquida) para localizar objetos en un bosque durante el verano, utilizando datos capturados por pilotos humanos. Si bien ambos drones se desempeñaron igual de bien cuando se les asignó la tarea de hacer exactamente aquello para lo que habían sido entrenados, cuando se les pidió que localizaran objetos en diferentes circunstancias (durante el invierno o en un entorno urbano), solo el dron de red líquida completó con éxito su tarea. Este experimento nos demostró que, a diferencia de los sistemas de IA tradicionales que dejan de evolucionar después de su fase de entrenamiento inicial, las redes líquidas continúan aprendiendo y adaptándose a partir de la experiencia, tal como lo hacen los humanos.
La inteligencia física también es capaz de interpretar y ejecutar físicamente comandos complejos derivados de texto o imágenes, cerrando la brecha entre las instrucciones digitales y la ejecución en el mundo real. Por ejemplo, en mi laboratorio, hemos desarrollado un sistema físicamente inteligente que, en menos de un minuto, puede diseñar iterativamente y luego imprimir en 3D pequeños robots basándose en indicaciones como “robot que puede caminar hacia adelante” o “robot que puede agarrar”. objetos”.
Otros laboratorios también están logrando avances importantes. Por ejemplo, la startup de robótica Covariant, fundada por el investigador de UC-Berkeley Pieter Abbeel, está desarrollando chatbots, similares a ChatGTP, que pueden controlar brazos robóticos cuando se les solicita. Ya han conseguido más de 222 millones de dólares para desarrollar e implementar robots de clasificación en almacenes de todo el mundo. Recientemente, un equipo de la Universidad Carnegie Mellon también demostrado que un robot con una sola cámara y un accionamiento impreciso puede realizar movimientos dinámicos y complejos de parkour, incluido saltar sobre obstáculos del doble de su altura y a través de espacios del doble de su longitud, utilizando una única red neuronal entrenada mediante aprendizaje por refuerzo.
Si 2023 fue el año de la conversión de texto a imagen y 2024 fue el de texto a video, entonces 2025 marcará la era de la inteligencia física, con una nueva generación de dispositivos, no solo robots, sino también cualquier cosa, desde redes eléctricas hasta hogares inteligentes. —que puedan interpretar lo que les decimos y ejecutar tareas en el mundo real.