Inferência de IA

NVIDIA Dynamo

Escale e Ofereça IA Generativa Rapidamente.

Visão Geral

Inferência Distribuída de Baixa Latência
para IA Generativa

O NVIDIA Dynamo é um framework de inferência modular de código aberto para servir modelos de IA generativa em ambientes distribuídos. Ele permite a escalabilidade perfeita de workloads de inferência em grandes frotas de GPUs com agendamento dinâmico de recursos, roteamento de solicitações inteligente, gerenciamento de memória otimizado e transferência de dados acelerada.

Ao servir o modelo de lógica DeepSeek-R1 671B de código aberto na NVIDIA GB200 NVL72, o NVIDIA Dynamo aumentou o número de solicitações atendidas em até 30 vezes, tornando-o a solução ideal para fábricas de IA que buscam executar ao menor custo possível para maximizar a geração de receita de tokens.

O NVIDIA Dynamo suporta todos os principais backends de inferência de IA e possui otimizações específicas para grandes modelos de linguagem (LLM), como atendimento desagregado, aceleração e escalabilidade de modelos de lógica de IA pelo menor custo e com a mais alta eficiência. Receberá suporte como parte do NVIDIA AI Enterprise em uma versão futura.

O Que É Inferência Distribuída?

Inferência distribuída é o processo de execução da inferência de modelos de IA em vários dispositivos ou nós de computação para maximizar o rendimento através da paralelização das computações.

Essa abordagem permite a escalabilidade eficiente para aplicações de IA em larga escala, como a IA generativa, distribuindo workloads em GPUs ou infraestrutura de nuvem. A inferência distribuída melhora o desempenho geral e a utilização de recursos, permitindo que os usuários otimizem a latência e o rendimento para os requisitos exclusivos de cada workload.

Recursos

Explore os Recursos do NVIDIA Dynamo

Ícone de serviço desagregado

Serviço Desagregado

Separa as fases de contexto (pré-preenchimento) e geração (decodificação) de LLM em GPUs distintas, permitindo o paralelismo de modelos personalizados e a alocação de GPUs independente para aumentar as solicitações atendidas por GPU.

Ícone de planejador de GPU

Planejador de GPU

Monitora a capacidade da GPU em ambientes de inferência distribuídos e aloca dinamicamente os trabalhadores de GPU em todas as fases de contexto e geração para resolver os gargalos e otimizar o desempenho.

Roteador Inteligente

Roteador Inteligente

Rotas de inferência de tráfego feitas de forma eficiente, minimizando a recomputação cara de solicitações de repetição ou de sobreposição para preservar os recursos de computação e garantindo uma distribuição de carga equilibrada em grandes frotas de GPUs.

Ícone de arquivo

Biblioteca de Comunicação de Baixa Latência

Acelera a movimentação de dados em configurações de inferência distribuídas, simplificando as complexidades de transferência em diversos hardwares, incluindo GPUs, CPUs, redes e armazenamento.

Benefícios

Os Benefícios do NVIDIA Dynamo

Ícone de escalabilidade

Escale Perfeitamente de Uma GPU para Milhares de GPUs

Simplifique e automatize a configuração de clusters de GPUs com ferramentas pré-construídas e fáceis de implantar e permita a escalabilidade automática dinâmica com métricas específicas de LLM em tempo real, evitando o provisionamento excessivo ou insuficiente de recursos de GPU.

Ícone de serviço

Aumente a Capacidade de Serviço de Inferência e Reduza os Custos

Aproveite a inferência de LLM avançada, que serve otimizações, como o serviço desagregado, para aumentar o número de solicitações de inferência atendidas sem comprometer a experiência do usuário.

Ícone de caixa de verificação

Prepare Sua Infraestrutura de IA para o Futuro e Evite Migrações Caras

O design aberto e modular permite que você escolha facilmente os componentes de serviço de inferência que atendem às suas necessidades exclusivas, garantindo compatibilidade com seu stack de IA existente e evitando projetos de migração caros.

Ícone de processo iterativo

Acelere o Tempo para Implantar Novos Modelos de IA em Produção

O suporte do NVIDIA Dynamo para todos os principais frameworks, incluindo TensorRT-LLM, vLLM, SGLang, PyTorch e muito mais, garante sua capacidade de implantar rapidamente novos modelos de IA generativa, independentemente de seu backend.

Acelere a Inferência Distribuída

O NVIDIA Dynamo é totalmente de código aberto, oferecendo a você transparência e flexibilidade completas. Implante o NVIDIA Dynamo, contribua para seu crescimento e integre-o perfeitamente ao seu stack existente.

 Confira no GitHub e junte-se à comunidade!

Desenvolva

Para indivíduos que buscam obter acesso ao código de código aberto do Servidor de Inferência Triton para o desenvolvimento.

Desenvolva

Para indivíduos que buscam acesso gratuito a contêineres do Servidor de Inferência Triton para o desenvolvimento.

Experiência

Acesse a infraestrutura hospedada pela NVIDIA e os laboratórios práticos guiados que incluem instruções passo a passo e exemplos, disponíveis gratuitamente no NVIDIA LaunchPad.

Implantar

Obtenha uma licença gratuita para experimentar o NVIDIA AI Enterprise em produção por 90 dias usando sua infraestrutura existente.

Casos de Uso

Implantação de IA com o NVIDIA Dynamo

Descubra como você pode impulsionar a inovação com NVIDIA Dynamo.

Serviço de Modelos de Lógica

Os modelos de lógica geram mais tokens para resolver problemas complexos, aumentando os custos de inferência. O NVIDIA Dynamo otimiza esses modelos com recursos como serviço desagregado. Essa abordagem separa as fases computacionais de pré-preenchimento e decodificação em GPUs distintas, permitindo que as equipes de inferência de IA otimizem cada fase de forma independente. O resultado é uma melhor utilização de recursos, mais consultas atendidas por GPU e custos de inferência mais baixos.

Serviço de Modelos de Lógica de IA

Depoimentos de Clientes

Veja O Que os Líderes do Setor Têm a Dizer Sobre o NVIDIA Dynamo

Cohere

Cohere

“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.” Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere

Perplexity

Perplexity AI

"Ao lidarmos com centenas de milhões de solicitações mensalmente, contamos com as GPUs e o software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem: "Estamos ansiosos para aproveitar o Dynamo com seus recursos de serviço distribuídos aprimorados para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA." Denis Yarats, CTO da Perplexity AI.

Together.ai

Together AI

“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e a modularidade do Dynamo nos permitirão conectar perfeitamente seus componentes em nosso mecanismo para atender a mais solicitações e otimizar a utilização de recursos, maximizando nosso investimento em computação acelerada. " Ce Zhang, CTO da Together AI.

Cohere

Cohere

“A escalabilidade de modelos de IA avançados requer agendamento sofisticado de várias GPUs, coordenação perfeita e bibliotecas de comunicação de baixa latência que transferem contextos de lógica perfeitamente em memória e armazenamento. Esperamos que o NVIDIA Dynamo nos ajude a oferecer uma experiência de usuário de primeira linha a nossos clientes empresariais.” Saurabh Baji, Vice-Presidente Sênior de Engenharia da Cohere

Perplexity

Perplexity AI

"Ao lidarmos com centenas de milhões de solicitações mensalmente, contamos com as GPUs e o software de inferência da NVIDIA para oferecer o desempenho, a confiabilidade e a escala que nossos negócios e usuários exigem: "Estamos ansiosos para aproveitar o NVIDIA Dynamo com seus recursos de serviço distribuídos aprimorados para impulsionar ainda mais eficiências de serviço de inferência e atender às demandas de computação de novos modelos de lógica de IA." Denis Yarats, CTO da Perplexity AI.

Together.ai

Together AI

“A escalabilidade de modelos de lógica com economia de custos requer novas técnicas de inferência avançadas, incluindo serviço desagregado e roteamento consciente do contexto. Juntas, a IA fornece desempenho líder do setor usando nosso mecanismo de inferência proprietário. A abertura e a modularidade do NVIDIA Dynamo nos permitirão conectar perfeitamente seus componentes em nosso mecanismo para atender a mais solicitações e otimizar a utilização de recursos, maximizando nosso investimento em computação acelerada." Ce Zhang, CTO da Together AI.

Usuários

Principais Utilizadores em Todos os Setores

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Recursos

As Últimas Novidades em Inferência da NVIDIA

Receba as Últimas Novidades

Receba as Últimas Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para os Servidores de Inferência NVIDIA Dynamo.

Leia os Blogs Técnicos

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Aprofunde-se

Aprofunde-se

Receba dicas e práticas recomendadas para a implantação, execução e escalabilidade de modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Próximos Passos

Pronto Para Começar?

Faça o download no GitHub e junte-se à comunidade!

decorativo

Para Desenvolvedores

Explore tudo aquilo de que você precisa para começar a desenvolver com o NVIDIA Dynamo, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

decorativo

Fale Conosco

Converse com um especialista em produtos da NVIDIA sobre a mudança da fase de testes para a produção com a segurança, a estabilidade da API e o suporte do NVIDIA AI Enterprise.

Leia o Comunicado à Imprensa | Leia o Blog de Tecnologia

Receba as Últimas Novidades

Receba as Últimas Novidades

Leia sobre as atualizações e anúncios mais recentes de inferência para o Servidor de Inferência Dynamo.

Leia os Blogs Técnicos

Leia os Blogs Técnicos

Leia orientações técnicas sobre como começar a usar a inferência.

Aprofunde-se

Aprofunde-se

Receba dicas e práticas recomendadas para a implantação, execução e escalabilidade de modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Select Location
Middle East