En el panorama de rápida evolución de la IA, se está volviendo cada vez más importante desarrollar modelos que puedan simular y predecir con precisión resultados en entornos físicos del mundo real para permitir la próxima generación de sistemas físicos de IA.
Ming-Yu Liu, vicepresidente de investigación de NVIDIA y miembro del IEEE, se unió al NVIDIA AI Podcast para discutir la importancia de modelos de fundacion mundial (WFM): potentes redes neuronales que pueden simular entornos físicos. Los WFM pueden generar videos detallados a partir de datos de entrada de texto o imágenes y predecir cómo evoluciona una escena combinando su estado actual (imagen o video) con acciones (como avisos o señales de control).
“Los modelos de base mundial son importantes para los desarrolladores de IA física”, dijo Liu. “Pueden imaginar muchos entornos diferentes y simular el futuro, por lo que podemos tomar buenas decisiones basadas en esta simulación”.
Esto es particularmente valioso para IA física sistemas, como robots y vehículos autónomos, que deben interactuar de forma segura y eficiente con el mundo real.
¿Por qué son importantes los modelos de la Fundación Mundial?
La construcción de modelos mundiales a menudo requiere grandes cantidades de datos, cuya recopilación puede resultar difícil y costosa. Los WFM pueden generar datos sintéticos, proporcionando un conjunto de datos rico y variado que mejora el proceso de capacitación.
Además, entrenar y probar sistemas físicos de IA en el mundo real puede consumir muchos recursos. Los WFM proporcionan entornos virtuales en 3D donde los desarrolladores pueden simular y probar estos sistemas en un entorno controlado sin los riesgos y costos asociados con las pruebas del mundo real.
Acceso abierto a los modelos de la Fundación Mundial
En la feria comercial CES, NVIDIA anunció NVIDIA Cosmos, una plataforma de WFM generativos que acelera el desarrollo de sistemas físicos de inteligencia artificial, como robots y automóviles autónomos.
La plataforma está diseñada para ser abierta y accesible e incluye WFM previamente entrenados basados en arquitecturas de difusión y autorregresivas, junto con tokenizadores que pueden comprimir videos en tokens para modelos de transformadores.
Liu explicó que con estos modelos abiertos, las empresas y los desarrolladores tienen todos los ingredientes que necesitan para construir modelos a gran escala. La plataforma abierta también brinda a los equipos la flexibilidad de explorar varias opciones para capacitar y ajustar modelos, o crear las suyas propias en función de necesidades específicas.
Mejora de los flujos de trabajo de IA en todas las industrias
Se espera que los WFM mejoren los flujos de trabajo y el desarrollo de la IA en diversas industrias. Liu ve impactos particularmente significativos en dos áreas:
“La industria de los vehículos autónomos y la industria de los humanoides (robots) se beneficiarán mucho del desarrollo de modelos mundiales”, afirmó Liu. “(Los WFM) pueden simular diferentes entornos que serán difíciles de tener en el mundo real, para asegurarse de que el agente se comporte respectivamente”.
Para coches sin conductorestos modelos pueden simular entornos que permiten pruebas y optimización integrales. Por ejemplo, un automóvil autónomo se puede probar en diversas condiciones climáticas y escenarios de tráfico simulados para ayudar a garantizar que funcione de manera segura y eficiente antes de su despliegue en las carreteras.
En robóticalos WFM pueden simular y verificar el comportamiento de sistemas robóticos en diferentes entornos para asegurarse de que realicen tareas de manera segura y eficiente antes de su implementación.
NVIDIA está colaborando con empresas como 1X, Huobi y XPENG para ayudar a abordar los desafíos en el desarrollo físico de la IA y hacer avanzar sus sistemas.
“Todavía estamos en la infancia del desarrollo del modelo de fundación mundial; es útil, pero necesitamos hacerlo más útil”, dijo Liu. “También necesitamos estudiar cómo integrar mejor estos modelos mundiales en los sistemas físicos de IA de una manera que realmente pueda beneficiarlos”.
Escuche el podcast con Ming-Yu Liu o lea la transcripción.
Obtenga más información sobre NVIDIA Cosmos y los últimos anuncios en IA generativa y robótica viendo el discurso de apertura de CES a cargo del fundador y director ejecutivo de NVIDIA, Jensen Huang, y uniéndose Sesiones de NVIDIA en la feria.