En su nota clave del CES 2025, Jensen Huang, CEO de NVIDIA, entregó esta observación ampliamente citada: “El momento del chatgpt para la robótica general está a la vuelta de la esquina”. Para apoyar su predicción “a la vuelta de la esquina”, Huang enumeró tres realizaciones robóticas específicas que pueden funcionar inmediatamente sin adaptaciones ambientales especiales:
- Agentes de IA realizar tareas como cualquier otro trabajador de la información
- Vehículos autónomos operar en carreteras que ya están en su lugar
- Robots humanoides articulados encajar directamente en nuestro entorno físico, detectando y manipulando objetos como lo hacen las personas
Para las empresas con activos físicos significativos, quiero señalar una cuarta realización:
- Sistemas de automatización industrial Conviértete en cada vez más robótico a medida que la IA física expande la autonomía más allá de las máquinas para incluir procesos a mayor escala. Con este cambio, estamos viendo el surgimiento de empresas robóticas.
Combinando la robótica (automatización), las tecnologías operativas (a menudo llamadas OT) y los sistemas de TI en un patrimonio de datos en tiempo real y en tiempo real de toda la compañía conecta el mundo de la IA con el mundo físico. La fusión AI-OT-IT genera la verdad en el terreno en tiempo real que actualiza la toma de decisiones, mejora la eficiencia del proceso, proporciona un contexto holístico para la automatización de procesos avanzado (robótica industrial) y transforma los análisis ERP, SCM y BI de reactivo a proactivo. Por lo tanto, Physical AI es la nueva automatización industrial de la North Star Driving y la transformación digital empresarial.
La estimación de tiempo “a la vuelta de la esquina” de Nvidia para la IA física es vaga porque dos barreras técnicas impiden que Huang (y yo) proporcione un horario específico. Primero, la IA física requiere modelos nuevos, del mundo real, consciente de la física y plataformas de desarrollo únicas. En segundo lugar, a pesar de los casos comerciales convincentes y una década de desarrollo de IoT, la mayoría de los datos producidos por OT todavía son inaccesibles para los sistemas de TI y las aplicaciones comerciales con IA.
Impulsados por clientes industriales ansiosos por acelerar la transformación comercial, los proveedores de OT buscan formas convenientes para cerrar la brecha OT-IT. Del mismo modo, los proveedores de IA (incluido NVIDIA) se están duplicando en la IA física. Echemos un vistazo a algunos desarrollos recientes.
Pinchar la brecha física de IA: Nvidia Cosmos y Omniverse
Los LLM como ChatGPT y LLAMA no modelan el mundo físico. El desarrollo de modelos de IA físicos precisos para equipos como robots, vehículos autónomos y sistemas industriales requiere recopilar, filtrar, etiquetar y curar enormes cantidades de datos de capacitación del mundo real. Para acelerar este proceso intensivo en mano de obra, NVIDIA ha desarrollado Cosmos, que anunció en CES 2025. Cosmos es una plataforma de desarrollo para IA física que tiene un conjunto de modelos de la Fundación Mundial capacitados en 20 millones de horas de video. La atención se centra en la dinámica física: enseñar IA sobre el mundo físico para que los objetos virtuales se comporten como los reales y obedecen las leyes de la física. Nvidia dice que Cosmos hará por robótica e IA industrial lo que Llama 3 ha hecho para las aplicaciones empresariales.
Así es como funciona. Cosmos trabaja con Omniverse, la plataforma de colaboración de gráficos de Nvidia, para crear simulaciones realistas para capacitar a los sistemas físicos de IA. El desarrollo comienza mediante el uso de Omniverse para construir modelos 3-D realistas de instalaciones del mundo real, maquinaria, robots y otros equipos. Cosmos luego usa IA generativa para llenar escenas omniversas, aprovechando sus WFM para generar escenarios fotorrealistas y geoespatialmente precisos. Cosmos luego sintetiza escenarios adicionales para crear un multiverso de datos de entrenamiento con muchas combinaciones de situaciones diversas e inesperadas. Omniverse simula estas escenas, capturando datos visuales de varios puntos de vista, lo que permite a los desarrolladores entrenar, validar, probar y optimizar el modelo de destino.
La plataforma de desarrollo e implementación de IA física de NVIDIA comprende tres cargas de trabajo distintas que se ejecutan en tres tipos diferentes de computadoras:
- Entrenamiento de modelos de IA y ajuste fino: plataforma de supercomputadora NVIDIA DGX
- Desarrollo físico de IA, simulación, visualización, pruebas y optimización: servidores NVIDIA OVX
- Plataformas de implementación – Computadoras de Robótica NVIDIA AGX
Estas cargas de trabajo no son prácticas en las CPU tradicionales, porque las tres requieren aceleración de IA. NVIDIA ha optimizado su cadena de herramientas de desarrollo de IA para plataformas DGX y OVX, al igual que la compañía optimizó su software CUDA para sus GPU.
Del mismo modo, AGX es el objetivo nativo de la plataforma de robótica optimizada para los modelos de IA físicos de NVIDIA. Sin embargo, los clientes industriales necesitan la flexibilidad para ejecutar aplicaciones de IA en diversas realizaciones físicas de IA. Los objetivos de la plataforma varían desde sensores basados en microcontroladores con una modesta aceleración de inferencia ML a computadoras robóticas capaces de ejecutar modelos de IA generativos grandes, por lo que las plataformas AGX no siempre son objetivos de implementación apropiados. Para decirlo de otra manera, la elección de la plataforma depende de un caso de uso, no una decisión de selección de productos como qué GPU comprar.
Aunque NVIDIA ha ofrecido opciones de implementación del modelo de IA multiplataforma durante años, las herramientas físicas de IA son nuevas, y aún no tenemos experiencia práctica utilizando estos flujos de trabajo para plataformas de implementación no nvidia. Animo a NVIDIA a abordar este problema de frente y desarrollar objetivos de implementación heterogéneos en la cadena de herramientas de IA física desde el principio. El robusto soporte multiplataforma elimina las barreras de adopción de la cadena de herramientas al permitir a los clientes usar las herramientas de NVIDIA en un amplio espectro de hardware de implementación.
Puente la mentalidad de datos OT-IT: la mentalidad de “Data First”
Aunque la IA crea casos comerciales de integración extremadamente convincentes, la mayoría de los datos operativos permanecen aislados de la IA a gran escala debido a la complejidad, el costo y los riesgos de seguridad de conectar los sistemas OT con TI convencional. Esta es la brecha OT-IT: el abismo entre el mundo heterogéneo y caótico del IoT industrial y el mundo uniforme y administrado de la misma.
Hoy, AI está impulsando una mayor demanda de datos de operaciones. Motivado por esto, los proveedores de software empresarial están luchando por encontrar formas eficientes y convenientes para cerrar la brecha OT-IT. La solución es sorprendentemente simple. En lugar de tratar de empujar las tecnologías de TI al mundo OT, los proveedores ahora se están moviendo a una mentalidad directa de “datos de datos primero”, que es una nueva forma de pensar sobre la integración de OT. Durante años, los desarrolladores han luchado por convertir los combates personalizados, complicados, costosos, codificados y de gestión de dispositivos específicos de la aplicación y la conectividad de conectividad en “soluciones de extremo a extremo”. Desafortunadamente, la última década de proyectos IIoT nos enseñó que este enfoque no escala.
Los desarrolladores ahora están recurriendo a una mejor alternativa: unir OT y TI con interfaces simples para identidad de dispositivo, seguridad, datos, eventos y estado. Este enfoque simplifica el acceso a los datos de OT y permite que el software OT integrado evolucione de forma independiente de los sistemas de TI nativos de nube. Las aplicaciones de IA multimodales reducen aún más los costos de integración de OT-IT al ingerir diversos tipos de datos de la máquina como es, lo que reduce la necesidad de transformación de datos costosa.
Los anuncios de productos recientes y las demostraciones de integración de AWS, Google, Honeywell, Microsoft, Qualcomm y otros marcos de nubes importantes y proveedores de ERP confirman esta tendencia. (Cubriré este tema en un artículo de seguimiento). El objetivo es claro: alimentar el mercado de rápido crecimiento para la transformación comercial mejorada con AI con cantidades masivas de datos OT a través de protocolos estándar y API simples. En otras palabras, obtenga datos de OT sin rediseñar o modificar intrusivamente los dispositivos IIOT.
Mirando hacia un mundo de empresa robótica
“Tengo un modelo perfecto del mundo. Es un tamaño real “. La línea de una sola vez del comediante Steven Wright describe metafóricamente la construcción de réplicas virtuales (es decir, gemelos digitales) de objetos físicos, sistemas y procesos que se ven reales y simulan con precisión el comportamiento del mundo real. No es tan descabellado: los modelos físicos de IA realmente parecen ser “tamaño real” cuando se ve en 3-D. Agregar datos OT da vida a estos modelos, simulando con precisión escenarios complejos en tiempo real. Los modelos físicos capacitados con simulaciones dinámicas deberían permitir que una nueva generación de aplicaciones con IA proporcione mejoras de función de paso en la eficiencia del proceso, seguridad de los trabajadores, tiempo de actividad del equipo, calidad del producto, toma de decisiones y otros casos de uso de alto valor. Estos casos de uso ofrecen un ROI impresionante, al menos en papel y en el laboratorio. Sin embargo, la tecnología de IA física como Nvidia Cosmos es nueva, y la interacción con el equipo OT a menudo es problemático por todas las razones mencionadas anteriormente, por lo que la línea de tiempo aún es incierta.
Aquí está mi opinión sobre un horario razonable para adoptar estas tecnologías. El ecosistema de IA de Nvidia es sólido, y la compañía tiene mucho que conducir en la IA física. Además, la compañía se ha convertido en un motor principal en la IA, y está bendecido con una montaña de dinero y una lista muy, muy larga de clientes empresariales sedientos de sus productos. Todo eso hace que Cosmos y Omniverse hay buenas apuestas, y de hecho, los clientes ya están desarrollando soluciones en la plataforma. Por ejemplo, el CEO y jefe de mi firma, Patrick Moorhead, escribió recientemente sobre cómo Nvidia, Accenture y Kion están colaborando para digitalizar las operaciones de almacén. Él comparte mi optimismo sobre la plataforma de IA física de Nvidia. Las empresas con infraestructura física pueden comenzar a usar estas herramientas inmediatamente mientras planifican implementaciones a gran escala dentro del próximo año o dos.
Sin embargo, soy menos optimista sobre la economía y los plazos para conectar fuentes de datos de OT a modelos físicos. La barrera de conectividad IIOT está disminuyendo, pero no lo suficientemente rápido como para mantenerse al día con el crecimiento físico de la IA. El problema surge de la diversidad de OT y IIOT. Los sistemas de TI tienen arquitecturas uniformes, pero los sistemas OT no. En línea con lo que expliqué anteriormente, recomiendo unir la brecha OT-IT con interfaces simples que recopilan los datos de OT como es en lugar de personalizar intrusivamente dispositivos IIOT. La buena noticia aquí es que el enfoque en la IA física por parte de Nvidia y otros proporciona más impulso para lograr estas conexiones. Predigo una mejora significativa en la conectividad AI-OT-IT este año, ya que la IA física hace que las empresas hacen que las empresas sean cada vez más robóticas y aumentan la urgencia de unir la brecha OT-IT.
Moor Insights & Strategy proporciona o ha brindado servicios remunerados a empresas de tecnología, como todas las empresas de investigación y analistas de la industria tecnológica. Estos servicios incluyen investigación, análisis, asesoramiento, consultoría, evaluación comparativa, emparejamiento de adquisición y videos y patrocinios de habla. De las compañías mencionadas en este artículo, Moor Insights & Strategy actualmente tiene (o ha tenido) una relación comercial remunerada con Accenture, AWS, Google, Meta, Microsoft, Nvidia y Qualcomm.