IA física
Acelere el desarrollo de la IA física con modelos de mundo básicos.
Descripción
NVIDIA Cosmos™ es una plataforma de modelos de mundo generativos básicos (WFM) de última generación, tokenizadores avanzados, barreras de protección y una canalización acelerada de procesamiento y selección de datos construida para acelerar el desarrollo de la IA física, en tecnologías como los vehículos autónomos (VA) y los robots.
Ventajas
Cosmos proporciona a los desarrolladores un acceso abierto y fácil a modelos de mundo básicos de alto rendimiento y canalizaciones de datos, haciendo que el desarrollo de la IA física sea accesible para todas las personas.
Modelos
Una familia de modelos preentrenados diseñados para generar vídeos basados en la física y estados de mundo para el desarrollo de la IA física.
Obtenga más información sobre arquitecturas de modelos, recursos de desarrollo y disponibilidad aquí.
NVIDIA está trabajando con el ecosistema de robótica y vehículos autónomos para desarrollar un conjunto de pruebas de referencia que reflejen los requisitos únicos de las aplicaciones de la IA física a partir de los modelos de mundo básicos.
Las pruebas de referencia de Cosmos están diseñadas para evaluar la próxima generación de modelos de mundo con criterios avanzados como la coherencia 3D y la alineación con la física, esenciales para la robótica y los sistemas autónomos.
En comparación con VideoLDM (VLDM), un modelo generativo de línea base para la síntesis de vídeo, los WFM de Cosmos destacan por su precisión geométrica con una menor tasa de error de Sampson y una mejor estabilidad temporal. Las pruebas de referencia también evalúan los WFM basados en comportamientos físicos como la gravedad y la dinámica de colisiones.
Los WFM de Cosmos superan constantemente a los VLDM en coherencia visual, logrando tasas de éxito de estimación de posturas hasta 14 veces más altas. Mientras que los modelos de difusión brindan una mayor fidelidad desde el principio, los modelos autorregresivos ofrecen un excelente rendimiento para modelos personalizados.
Vea cómo los desarrolladores de robótica, vehículos autónomos e IA de visión pueden usar Cosmos para hacer avanzar su trabajo.
Cosmos ayuda a los desarrolladores a crear conjuntos de datos adaptados para el entrenamiento de modelos de IA. Ya sea en imágenes de carreteras nevadas para automóviles autónomos o en escenarios de almacenes con una gran actividad para la robótica, Cosmos simplifica el etiquetado y la búsqueda de vídeos al asimilar los patrones espaciales y temporales, facilitando la preparación de datos de entrenamiento.
Esto ahorra tiempo, reduce costes y ayuda a proporcionar modelos de IA que son muy relevantes y tienen una gran repercusión para su uso en el mundo real.
Los desarrolladores pueden utilizar sus datos de simulación 3D para generar vídeos sintéticos fotorrealistas. Al usar Omniverse, pueden crear entornos 3D que representen sus necesidades de entrenamiento de modelos. A continuación, pueden generar vídeos fotorrealistas que estén controlados con precisión por escenas 3D para obtener conjuntos de datos sintéticos altamente personalizados.
Los modelos de mundo básicos de Cosmos ajustados con precisión para la predicción de vídeo condicionada por la acción permiten el entrenamiento y la evaluación escalables y reproducibles de modelos de políticas, los cuales definen estrategias para sistemas de IA física, al asignar estados a acciones. Los desarrolladores utilizan estos modelos para reducir la dependencia de pruebas arriesgadas en el mundo real o simulaciones complejas para tareas como la circulación con obstáculos y la manipulación de objetos, optimizando el rendimiento y garantizando la fiabilidad en aplicaciones del mundo real como la robótica y los vehículos autónomos.
Cosmos aporta inteligencia predictiva avanzada a la IA física, habilitando a los sistemas para que anticipen escenarios futuros y adopten decisiones más inteligentes. A través de la generación de previsiones (en las que se generan vídeos predictivos basados en datos anteriores e indicaciones de texto), Cosmos permite que la IA física seleccione acciones óptimas, optimizando la eficiencia, la adaptabilidad y la seguridad en entornos dinámicos.
Con NVIDIA Omniverse, los desarrolladores pueden simular múltiples resultados de Cosmos para evaluar escenarios en tiempo real, acelerar la toma de decisiones y optimizar sistemas impulsados por IA como la robótica y los vehículos autónomos. Funcionando de forma conjunta, Cosmos y Omniverse permiten que los modelos de IA física analicen todos los posibles resultados futuros, seleccionando el mejor itinerario para lograr una mayor precisión y fiabilidad en entornos complejos.
Los desarrolladores de modelos de robótica, vehículos autónomos y sectores que emplean la IA de visión están utilizando Cosmos para acelerar el desarrollo de la IA física.
Los desarrolladores de IA física pueden comenzar ahora con los modelos de mundo básicos de Cosmos disponibles en el catálogo de NGC y Hugging Face. Cosmos también proporciona una canalización de extremo a extremo para ajustar con precisión los modelos básicos mediante NVIDIA NeMo. Los desarrolladores pueden usar el tokenizador de Cosmos desde /NVIDIA/cosmos-tokenizer en GitHub y Hugging Face.
Los modelos de mundo básicos de Cosmos están disponibles mediante una licencia NVIDIA Open Model para todas las personas.
Sí, Cosmos admite el ajuste preciso mediante NeMo. Puede entrenar y ajustar con precisión modelos de manera eficiente con técnicas populares como LoRA (adaptación de bajo rango) y RLHF (aprendizaje por refuerzo a partir de comentarios humanos). También puede elegir PyTorch para continuar entrenando a los modelos WFM usando sus propios conjuntos de datos.
Sí, puede aprovechar las capacidades de Cosmos para desarrollar desde cero con el modelo básico o la arquitectura de modelo que prefiera. Puede comenzar usando NeMo Curator para el preprocesamiento de datos de vídeo. Luego, comprima y decodifique sus datos con el tokenizador de Cosmos y, una vez que haya procesado los datos, puede entrenar o ajustar con precisión su modelo con NVIDIA NeMo.
Con los microservicios NIM, puede integrar fácilmente sus modelos de IA física en sus aplicaciones en la nube, centros de datos y estaciones de trabajo
. También puede usar NVIDIA DGX Cloud para entrenar modelos de IA e implementarlos en cualquier lugar a la escala que desee.
Cosmos y Cosmos Nemotron son familias de modelos de NVIDIA diseñados para procesar e interpretar objetos visuales del mundo físico.
Los modelos Cosmos son modelos de mundo básicos que se centran en predecir y generar vídeos basados en la física, al ayudar a simular y comprender estados futuros de entornos virtuales. Por el contrario, los modelos de Cosmos Nemotron son modelos de lenguaje de visión que se especializan en consultar y resumir imágenes y vídeos, al permitir que la IA interprete datos visuales tanto físicos como virtuales y responda ante ellos.
Si se usan conjuntamente, se complementan entre sí para proporcionar capacidades avanzadas de IA basadas en la comprensión visual.