Inference

Servidor de Inferência NVIDIA Triton

Implante, execute e dimensione IA para qualquer aplicação  em qualquer plataforma.

Visão Geral

Inferência para Cada Carga de Trabalho de IA

Execute inferência em modelos treinados de machine learning ou deep learning de qualquer framework em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. O Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e a execução do modelo de IA em todas as cargas de trabalho. Ele faz parte da plataforma de IA da NVIDIA e está disponível com o NVIDIA AI Enterprise.

Implantando, Otimizando e Comparando LLMs

Receba instruções passo a passo sobre como servir grandes modelos de linguagem (LLMs) com eficiência usando o Servidor de Inferência Triton.

Características

Explore os Recursos e Ferramentas do Servidor de Inferência NVIDIA Triton

Inferência de Grandes Modelos de Linguagem

O Triton oferece baixa latência e alta taxa de transferência para inferência de grandes modelos de linguagem (LLM). Ele é compatível com o TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção. 

Conjuntos de Modelos

Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Eles permitem a execução de diferentes partes do conjunto na CPU ou GPU e suporta vários frameworks dentro do conjunto.

NVIDIA PyTriton

O PyTriton permite que os desenvolvedores do Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes. 

Analisador de Modelo NVIDIA Triton

O Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultânea. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da apçicação. 

Vantagens

As Vantagens do Servidor de Inferência Triton

Suporta Todos os Frameworks de Treinamento e Inferência

Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.

Inferência de Alto Desempenho em Qualquer Plataforma

Maximize a taxa de transferência e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia. 

Código Aberto e Projetado para DevOps e MLOps

Integre o Servidor de Inferência Triton em soluções de DevOps e MLOps, como Kubernetes para dimensionamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local. 

Segurança, Capacidade de Gerenciamento e Estabilidade de API de Nível Empresarial

O NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de retorno com suporte, segurança e estabilidade de API. 

Opções Iniciais

Comece a Usar o NVIDIA Triton

Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicativo em qualquer plataforma.

Desenvolva

Para indivíduos que desejam acessar o código-fonte aberto do Servidor de Inferência Triton para desenvolvimento.

Desenvolva

Para indivíduos que desejam acessar contêineres gratuitos do Servidor de Inferência Triton para desenvolvimento.

Experimente

Acesse a infraestrutura hospedada pela NVIDIA e os laboratórios práticos guiados que incluem instruções passo a passo e exemplos, disponíveis gratuitamente no NVIDIA LaunchPad.

Implante

Obtenha uma licença gratuita para experimentar o NVIDIA AI Enterprise em produção por 90 dias usando sua infraestrutura existente.  

Casos de Uso

Como o Triton Está Sendo Usado

Descubra como os líderes do setor estão impulsionando a inovação com o Servidor de Inferência Triton.

Unificando Servidores de Inferência

O Servidor de Inferência Triton permite que as empresas consolidem seus servidores de inferência específicos do framework em uma única plataforma unificada. Em vez de implantar e gerenciar servidores separados para cada framework de IA, ele atua como um servidor único e unificado, reduzindo os custos de atendimento de inferência. O Servidor de Inferência Triton oferece suporte a todos os principais framework de IA incluindo PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX e OpenVINO. 

Otimize Implantações de Modelo

O Servidor de Inferência Triton pode executar varreduras automatizadas para testar a latência e a taxa de transferência em muitas configurações de simultaneidade de modelo e tamanho de lote. Isso permite que os desenvolvedores identifiquem rapidamente a configuração mais eficaz que atenda ao seu contrato de nível de serviço sem nenhum trabalho manual. Para modelos de LLM, o Servidor de Inferência Triton automatiza a geração de tokens e fornece métricas de implantação, como latência de primeiro token, latência de token para token e tokens por segundo. Esse recurso acelera a identificação e a implantação da configuração de produção de LLM mais eficiente.

Crie Pipelines de IA Multimodelo Sem Esforço

Com o Servidor de Inferência Triton, as empresas podem criar conjuntos de modelos sem esforço. Ele oferece uma ferramenta low-code que conecta perfeitamente os modelos de IA em um pipeline unificado que pode ser acionado com uma única solicitação de inferência. Isso permite que as empresas incorporem workflows de pré e pós-processamento, sem a necessidade de codificação manual. O Servidor de Inferência Triton também oferece suporte ao agendamento de tarefas de pré e pós-processamento em CPUs, simplificando todo o fluxo de trabalho. 

Implante em Qualquer Lugar: No Local, No Edge ou Em Qualquer Nuvem

O Servidor de Inferência Triton vem como um contêiner do Docker, adequado para implantação no local, na nuvem ou em dispositivos no edge. Ele está profundamente integrado às principais ferramentas de IA de MLOps de todos os principais provedores de nuvem, como Amazon SageMaker, Azure ML Studio, Google Vertex AI e OCI Data Science. Para implantações em nuvem, o Servidor de Inferência Triton pode ser facilmente ativado com um sinalizador de linha de comando simples, minimizando o tempo de implementação e alinhando-se aos padrões de governança corporativa.

Histórias de Clientes

Saiba Como os Líderes da Indústria Estão Aprimorando a Implantação de Modelos com o Triton

Snapchat

Aprimorando as Compras de Vestuário com IA

Saiba como o Snapchat aprimorou a experiência de compra de roupas e o reconhecimento óptico de caracteres com reconhecimento de emoji usando o Triton para escalar, reduzir custos e acelerar o tempo de produção. 

Docusign

Acelerando o Gerenciamento de Contratos com a Plataforma de Inferência da NVIDIA

Explore como a Docusign está usando o Triton e o Azure para desbloquear informações de contratos, transformar dados de contratos em insights e aumentar a produtividade.

Oracle Cloud

NVIDIA Triton Acelera a Inferência no Oracle Cloud

Saiba como os serviços de visão computacional e ciência de dados da Oracle Cloud Infrastructure aumentam a velocidade das previsões de IA com o NVIDIA Servidor de Inferência Triton.

Usuários

Principais Usuários em Todos os Setores

Recursos

O Que Há de Mais Recente em Recursos no NVIDIA Triton

As 5 Principais Razões Pelas Quais o Triton Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Triton simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados a partir de qualquer framework de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion do HuggingFace com Triton

Este vídeo mostra a implantação do pipeline Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Triton para implantar e executar o pipeline.

Primeiros Passos com o Servidor de Inferência NVIDIA Triton

O Servidor de Inferência Triton é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalonável na produção. Devido aos seus muitos recursos, uma pergunta natural a ser feita é: por onde devo começar? Assista para descobrir.

Guia Rápido

É novo no Servidor de Inferência Triton e deseja implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Triton.

Tutoriais

Começar a usar o Triton pode levar a muitas perguntas. Explore este repositório para se familiarizar com os recursos do Triton e encontrar guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA LaunchPad

Em laboratórios práticos, experimente IA rápida e escalável usando o Servidor de Inferência NVIDIA Triton. Você poderá aproveitar imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

Receba as Últimas Notícias

Leia sobre as últimas atualizações e anúncios de inferência do Servidor de Inferência Triton.

Explore Blogs Técnicos

Leia orientações técnicas sobre como começar a inferência.

Aprofunde-se

Receba dicas e práticas recomendadas para implantar, executar e dimensionar modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantando, Otimizando e Comparando LLMs

Aprenda como servir LLMs de forma eficiente usando o Servidor de Inferência Triton com instruções passo a passo. Abordaremos como implantar facilmente um LLM em vários back-ends e comparar seu desempenho, bem como ajustar as configurações de implantação para obter desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Aprenda o que é inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA full-stack é necessária para enfrentar esses desafios, os principais componentes de uma solução full-stack plataforma e como implantar sua primeira solução de inferência de IA.

Aproveite o Poder das Soluções de Inferência de IA Prontas para Nuvem

Explore como a plataforma de inferência de IA da NVIDIA se integra perfeitamente aos principais provedores de serviços em nuvem, simplificando a implantação e agilizando o lançamento de casos de uso de IA com tecnologia LLM.

Oracle Cloud

NVIDIA Triton Acelera Inferência no Oracle Cloud

Saiba como os serviços de visão computacional e ciência de dados do Oracle Cloud Infrastructure melhoram a velocidade das previsões de IA com o Servidor de Inferência NVIDIA Triton.

ControlExpert

Revolucionando o Gerenciamento de Sinistros Automotivos

Saiba como a ControlExpert recorreu à IA da NVIDIA para desenvolver uma solução completa de gerenciamento de sinistros que permite que seus clientes recebam atendimento 24 horas por dia.

Wealthsimple

Acelerando a Entrega e Inferência de Modelos de Machine Learning

Descubra como a Wealthsimple usou a plataforma de inferência de IA da NVIDIA para reduzir com sucesso a duração da implantação do modelo de vários meses para apenas 15 minutos.

Fórum Online Triton

Explore a comunidade on-line do Servidor de Inferência NVIDIA Triton, onde você pode navegar por perguntas de instruções, aprender práticas recomendadas, interagir com outros desenvolvedores e relatar bugs.

Programa de Desenvolvedores NVIDIA

Conecte-se com milhões de desenvolvedores com ideias semelhantes e acesse centenas de contêineres, modelos e SDKs acelerados por GPU, todas as ferramentas necessárias para criar aplicações com sucesso com a tecnologia NVIDIA, por meio do Programa de Desenvolvedores NVIDIA.

Acelere Sua Startup

NVIDIA Inception é um programa gratuito para startups de ponta que oferece acesso crítico a suporte de entrada no mercado, conhecimento técnico, treinamento e oportunidades de financiamento.

Próximos Passos

Pronto para Começar?

Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicação em qualquer plataforma.

Para Desenvolvedores

Explore tudo o que você precisa para começar a desenvolver com o NVIDIA Triton, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

Entre em Contato

Fale com um especialista em produtos NVIDIA sobre como passar da fase de testes para a produção com a segurança, a estabilidade da API e o suporte de NVIDIA AI Enterprise.