Home Mundo Modelos de Cosmos World Foundation disponibles abiertamente para desarrolladores de IA física

Modelos de Cosmos World Foundation disponibles abiertamente para desarrolladores de IA física

33
0

Cosmos de NVIDIAuna plataforma para acelerar IA física desarrollo, presenta una familia de modelos de fundacion mundial (redes neuronales que pueden predecir y generar videos con conocimiento de la física del estado futuro de un entorno virtual) para ayudar a los desarrolladores a construir robots y vehículos autónomos (AV) de próxima generación.

Los modelos de fundación mundial, o WFM, son tan fundamentales como los modelos de lenguajes grandes. Utilizan datos de entrada, incluidos texto, imágenes, videos y movimiento, para generar y simular mundos virtuales de una manera que modele con precisión las relaciones espaciales de los objetos en la escena y sus interacciones físicas.

Anunciado hoy en CESNVIDIA pone a disposición la primera ola de Cosmos WFM para simulación basada en física y generación de datos sintéticos, además de tokenizadores de última generación, barreras de seguridad, un proceso acelerado de procesamiento y curación de datos, y un marco para la personalización y optimización de modelos.

Los investigadores y desarrolladores, independientemente del tamaño de su empresa, pueden utilizar libremente los modelos Cosmos bajo la permisiva licencia de modelo abierto de NVIDIA que permite el uso comercial. Las empresas que crean agentes de IA también pueden utilizar los nuevos modelos abiertos NVIDIA Llama Nemotron y Cosmos Nemotron, presentados en CES.

La apertura de los modelos de última generación de Cosmos desbloquea IA física desarrolladores que crean robótica y tecnología AV y permite a empresas de todos los tamaños llevar más rápidamente sus aplicaciones físicas de IA al mercado. Los desarrolladores pueden utilizar los modelos Cosmos directamente para generar datos sintéticos basados ​​en la física, o pueden aprovechar la Marco NVIDIA NeMo para ajustar los modelos con sus propios videos para configuraciones físicas específicas de IA.

Los líderes de la IA física, incluidas las empresas de robótica 1X, Agility Robotics y XPENG, y los desarrolladores de AV Uber y Waabi, ya están trabajando con Cosmos para acelerar y mejorar el desarrollo de modelos.

Los desarrolladores pueden obtener una vista previa del primer Cosmos autorregresivo y difusión modelos en el Catálogo de API de NVIDIAy descargue la familia de modelos y el marco de ajuste fino desde Catálogo NVIDIA NGC y abrazando la cara.

Modelos fundamentales mundiales para la IA física

Los modelos de Cosmos World Foundation son un conjunto de modelos de transformadores autorregresivos y de difusión abierta para la generación de videos con reconocimiento de la física. Los modelos han sido entrenados en 9.000 billones de tokens de 20 millones de horas de interacciones humanas, ambientales, industriales, robóticas y de conducción en el mundo real.

Los modelos se dividen en tres categorías: Nano, para modelos optimizados para tiempo real, inferencia de baja latencia y despliegue de borde; Super, para modelos básicos de alto rendimiento; y Ultra, para máxima calidad y fidelidad, mejor utilizado para destilar modelos personalizados.

Cuando se combina con Omniverso de NVIDIA Con salidas 3D, los modelos de difusión generan datos de vídeo sintéticos controlables y de alta calidad para iniciar el entrenamiento de modelos robóticos y de percepción AV. Los modelos autorregresivos predicen lo que debería suceder a continuación en una secuencia de fotogramas de vídeo basándose en fotogramas de entrada y texto. Esto permite la predicción del siguiente token en tiempo real, lo que brinda a los modelos físicos de IA la previsión para predecir su próxima mejor acción.

Los desarrolladores pueden utilizar los modelos abiertos de Cosmos para la generación de texto a mundo y vídeo a mundo. Versiones de los modelos de difusión y autorregresivos, con entre 4 y 14 mil millones de parámetros cada uno, ya están disponibles en el catálogo de NGC y abrazando la cara.

También están disponibles un modelo de muestreo mejorado de 12 mil millones de parámetros para refinar las indicaciones de texto, un decodificador de video de 7 mil millones de parámetros optimizado para realidad aumentada y modelos de barandilla para garantizar un uso responsable y seguro.

Para demostrar las oportunidades de personalización, NVIDIA también está lanzando muestras de modelos ajustados para aplicaciones verticales, como la generación de vistas multisensor para AV.

Avances en robótica y aplicaciones de vehículos autónomos

Los modelos de la base del mundo cosmos pueden permitir generación de datos sintéticos para aumentar los conjuntos de datos de entrenamiento, simulación para probar y depurar modelos físicos de IA antes de implementarlos en el mundo real, y refuerzo del aprendizaje en entornos virtuales para acelerar el aprendizaje de los agentes de IA.

Los desarrolladores pueden generar cantidades masivas de datos sintéticos controlables basados ​​en la física acondicionando Cosmos con escenas 3D compuestas de NVIDIA Omniverse.

Waabi, una empresa pionera en IA generativa para el mundo físico, comenzando con vehículos autónomos, está evaluando el uso de Cosmos para la búsqueda y conservación de datos de video para el desarrollo y simulación de software AV. Esto acelerará aún más el enfoque de seguridad líder en la industria de la compañía, que se basa en Waabi World, un simulador de IA generativa que puede crear cualquier situación que un vehículo pueda encontrar con el mismo nivel de realismo que si sucediera en el mundo real.

En robótica, los WFM pueden generar entornos o mundos virtuales sintéticos para proporcionar un espacio menos costoso, más eficiente y controlado para el aprendizaje de los robots. Hillbot, la startup de IA incorporada, está impulsando su canal de datos mediante el uso de Cosmos para generar terabytes de entornos 3D de alta fidelidad. Estos datos generados por IA ayudarán a la empresa a perfeccionar su capacitación y operaciones robóticas, lo que permitirá una capacitación robótica más rápida y eficiente y un mejor rendimiento para tareas industriales y domésticas.

En ambas industrias, los desarrolladores pueden utilizar NVIDIA Omniverse y Cosmos como motor de simulación de multiverso, lo que permite que un modelo de política de IA física simule todos los posibles caminos futuros que podría tomar para ejecutar una tarea particular, lo que a su vez ayuda al modelo a seleccionar el mejor de estos caminos. .

La curación de datos y el entrenamiento de modelos Cosmos se basaron en miles de GPU NVIDIA a través de Nube NVIDIA DGXuna plataforma de IA de alto rendimiento y totalmente administrada que proporciona clústeres informáticos acelerados en todas las nubes líderes.

Los desarrolladores que adopten Cosmos pueden utilizar DGX Cloud para implementar fácilmente modelos de Cosmos, con soporte adicional disponible a través de Empresa de IA de NVIDIA plataforma de software.

Personalice e implemente con NVIDIA Cosmos

Además de los modelos de cimentación, el plataforma cosmos incluye un proceso de procesamiento y curación de datos impulsado por Curador de NVIDIA NeMo y optimizado para GPU de centros de datos NVIDIA.

Los desarrolladores de robótica y AV recopilan millones o miles de millones de horas de vídeo grabado en el mundo real, lo que genera petabytes de datos. Cosmos permite a los desarrolladores procesar 20 millones de horas de datos en sólo 40 días GPU NVIDIA Hoppero tan solo 14 días después GPU NVIDIA Blackwell. Utilizando canalizaciones no optimizadas que se ejecutan en un sistema de CPU con un consumo de energía equivalente, procesar la misma cantidad de datos llevaría más de tres años.

La plataforma también cuenta con un conjunto de potentes tokenizadores de imágenes y videos que pueden convertir videos en tokens con diferentes relaciones de compresión de video para entrenar varios modelos de transformadores.

Los tokenizadores Cosmos ofrecen 8 veces más compresión total que los métodos de última generación y una velocidad de procesamiento 12 veces más rápida, lo que ofrece una calidad superior y costos computacionales reducidos tanto en capacitación como en capacitación. inferencia. Los desarrolladores pueden acceder a estos tokenizadores, disponibles bajo la licencia de modelo abierto de NVIDIA, a través de abrazando la cara y GitHub.

Los desarrolladores que utilizan Cosmos también pueden aprovechar las capacidades de entrenamiento y ajuste de modelos que ofrece Marco NeMoun marco acelerado por GPU que permite el entrenamiento de IA de alto rendimiento.

Desarrollo de modelos de IA seguros y responsables

Ahora disponible para los desarrolladores bajo el Acuerdo de licencia de modelo abierto de NVIDIA, Cosmos se desarrolló de acuerdo con los estándares de NVIDIA. IA confiable principios, que incluyen la no discriminación, la privacidad, la seguridad, la protección y la transparencia.

La plataforma Cosmos incluye Cosmos Guardrails, un conjunto dedicado de modelos que, entre otras capacidades, mitiga las entradas dañinas de texto e imágenes durante el preprocesamiento y visualiza videos generados durante el posprocesamiento por razones de seguridad. Los desarrolladores pueden mejorar aún más estas barreras de seguridad para sus aplicaciones personalizadas.

Modelos del cosmos en el Catálogo de API de NVIDIA También cuentan con un sistema de marca de agua incorporado que permite la identificación de secuencias generadas por IA.

NVIDIA Cosmos fue desarrollado por Investigación de NVIDIA. Lea el trabajo de investigación, “Plataforma modelo de la Fundación Cosmos World para IA física”, para obtener más detalles sobre el desarrollo de modelos y los puntos de referencia. Las tarjetas modelo que proporcionan información adicional están disponibles en abrazando la cara.

Obtenga más información sobre los modelos de fundación mundial en un Pódcast de IA episodio, que se transmitirá el 7 de enero, y que presenta a Ming-Yu Liu, vicepresidente de investigación de NVIDIA.

empezar con NVIDIA Cosmos y únete NVIDIA en el CES. Mire la demostración de Cosmos y el discurso de apertura de Huang a continuación:

Ver aviso con respecto a la información del producto de software.

Fuente