Inferência de IA
Escale e Ofereça IA Generativa Rapidamente.
O NVIDIA Dynamo é um framework de inferência modular de código aberto para servir modelos de IA generativa em ambientes distribuídos. Ele permite a escalabilidade perfeita de workloads de inferência em grandes frotas de GPUs com agendamento dinâmico de recursos, roteamento de solicitações inteligente, gerenciamento de memória otimizado e transferência de dados acelerada.
Ao servir o modelo de lógica DeepSeek-R1 671B de código aberto na NVIDIA GB200 NVL72, o NVIDIA Dynamo aumentou o número de solicitações atendidas em até 30 vezes, tornando-o a solução ideal para fábricas de IA que buscam executar ao menor custo possível para maximizar a geração de receita de tokens.
O NVIDIA Dynamo suporta todos os principais backends de inferência de IA e possui otimizações específicas para grandes modelos de linguagem (LLM), como atendimento desagregado, aceleração e escalabilidade de modelos de lógica de IA pelo menor custo e com a mais alta eficiência. Receberá suporte como parte do NVIDIA AI Enterprise em uma versão futura.
Separa as fases de contexto (pré-preenchimento) e geração (decodificação) de LLM em GPUs distintas, permitindo o paralelismo de modelos personalizados e a alocação de GPUs independente para aumentar as solicitações atendidas por GPU.
Monitora a capacidade da GPU em ambientes de inferência distribuídos e aloca dinamicamente os trabalhadores de GPU em todas as fases de contexto e geração para resolver os gargalos e otimizar o desempenho.
Rotas de inferência de tráfego feitas de forma eficiente, minimizando a recomputação cara de solicitações de repetição ou de sobreposição para preservar os recursos de computação e garantindo uma distribuição de carga equilibrada em grandes frotas de GPUs.
Acelera a movimentação de dados em configurações de inferência distribuídas, simplificando as complexidades de transferência em diversos hardwares, incluindo GPUs, CPUs, redes e armazenamento.
Simplifique e automatize a configuração de clusters de GPUs com ferramentas pré-construídas e fáceis de implantar e permita a escalabilidade automática dinâmica com métricas específicas de LLM em tempo real, evitando o provisionamento excessivo ou insuficiente de recursos de GPU.
Aproveite a inferência de LLM avançada, que serve otimizações, como o serviço desagregado, para aumentar o número de solicitações de inferência atendidas sem comprometer a experiência do usuário.
O design aberto e modular permite que você escolha facilmente os componentes de serviço de inferência que atendem às suas necessidades exclusivas, garantindo compatibilidade com seu stack de IA existente e evitando projetos de migração caros.
O suporte do NVIDIA Dynamo para todos os principais frameworks, incluindo TensorRT-LLM, vLLM, SGLang, PyTorch e muito mais, garante sua capacidade de implantar rapidamente novos modelos de IA generativa, independentemente de seu backend.
O NVIDIA Dynamo é totalmente de código aberto, oferecendo a você transparência e flexibilidade completas. Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.
Confira no GitHub e junte-se à comunidade!
Descubra como você pode impulsionar a inovação com NVIDIA Dynamo.
Os modelos de lógica geram mais tokens para resolver problemas complexos, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esses modelos com recursos como serviço desagregado. Essa abordagem separa as fases computacionais de pré-preenchimento e decodificação em GPUs distintas, permitindo que as equipes de inferência de IA otimizem cada fase de forma independente. O resultado é uma melhor utilização de recursos, mais consultas atendidas por GPU e custos de inferência mais baixos.
Faça o download no GitHub e junte-se à comunidade!
Explore tudo aquilo de que você precisa para começar a desenvolver com o NVIDIA Dynamo, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.
Converse com um especialista em produtos da NVIDIA sobre a mudança da fase de testes para a produção com a segurança, a estabilidade da API e o suporte do NVIDIA AI Enterprise.