Inference

Servidor de Inferência NVIDIA Triton

Implante, execute e dimensione IA para qualquer aplicação  em qualquer plataforma.

Inferência para Cada Carga de Trabalho de IA

Execute inferência em modelos treinados de machine learning ou deep learning a partir de qualquer framework e em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. Parte da plataforma de IA da NVIDIA e disponível com o NVIDIA AI Enterprise, o Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e execução de modelos de IA em todas as cargas de trabalho.

Implantando, Otimizando e Comparando LLMs

Receba instruções passo a passo sobre como servir grandes modelos de linguagem (LLMs) com eficiência usando o Servidor de Inferência Triton.

Os Benefícios do Servidor de Inferência Triton

Suporta Todos os Frameworks de Treinamento e Inferência

Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.

Inferência de Alto Desempenho em Qualquer Plataforma

Maximize o rendimento e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia.

Código Aberto e Projetado para DevOps e MLOps

Integre o Servidor de Inferência Triton em soluções DevOps e MLOps, como Kubernetes para escalonamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local.

Segurança, Capacidade de Gerenciamento e Estabilidade de API de Nível Empresarial

NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de obtenção de valor com suporte, segurança e estabilidade de API.

Explore os Recursos e Ferramentas do Servidor de Inferência NVIDIA Triton

Inferência de Grandes Modelos de Linguagem

Triton oferece baixa latência e alto rendimento para inferência de grandes modelos de linguagem (LLM). Ele oferece suporte ao TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção.

Conjuntos de Modelos

Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Ele permite a execução de diferentes partes do conjunto na CPU ou GPU e oferece suporte a vários frameworks dentro do conjunto.

NVIDIA PyTriton

PyTriton permite que os desenvolvedores Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes.

Analisador de Modelo NVIDIA Triton

Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultâneas. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da aplicação.

Principais Adotantes em Todos os Setores

Comece Agora com o NVIDIA Triton

Use as ferramentas certas para implantar, executar e dimensionar IA para qualquer aplicação em qualquer plataforma.

Comece a Desenvolver com Código ou Contêineres

Para pessoas que desejam acessar o código-fonte aberto e os contêineres do Triton para desenvolvimento, há duas opções para começar gratuitamente:

Use Código-Fonte Aberto
Acesse software de código aberto no GitHub com exemplos completos.

Faça o Download de um Contêiner
Acesse contêineres do Servidor de Inferência Triton baseados em Linux para x86 e Arm® no NVIDIA NGC™.

Experimente Antes de Comprar

Para empresas que desejam experimentar o Triton antes de adquirir o NVIDIA AI Enterprise para produção, há duas opções para começar gratuitamente:

Sem Infraestrutura
Para quem não tem infraestrutura existente, a NVIDIA oferece laboratórios práticos gratuitos por meio do NVIDIA LaunchPad.

Com Infraestrutura
Para aqueles com infraestrutura existente, a NVIDIA oferece uma licença de avaliação gratuita para testar o NVIDIA AI Enterprise por 90 dias.

Recursos

As 5 Principais Razões Pelas Quais o Triton Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Triton simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados a partir de qualquer framework de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion do HuggingFace com Triton

Este vídeo mostra a implantação do pipeline Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Triton para implantar e executar o pipeline.

Primeiros Passos com o Servidor de Inferência NVIDIA Triton

O Servidor de Inferência Triton é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalonável na produção. Devido aos seus muitos recursos, uma pergunta natural a ser feita é: por onde devo começar? Assista para descobrir.

Guia Rápido

É novo no Servidor de Inferência Triton e deseja implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Triton.

Tutoriais

Começar a usar o Triton pode levar a muitas perguntas. Explore este repositório para se familiarizar com os recursos do Triton e encontrar guias e exemplos que podem ajudar a facilitar a migração.

NVIDIA LaunchPad

Em laboratórios práticos, experimente IA rápida e escalável usando o Servidor de Inferência NVIDIA Triton. Você poderá aproveitar imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.

Receba as Últimas Notícias

Leia sobre as últimas atualizações e anúncios de inferência do Servidor de Inferência Triton.

Explore Blogs Técnicos

Leia orientações técnicas sobre como começar a inferência.

Aprofunde-se

Receba dicas e práticas recomendadas para implantar, executar e dimensionar modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.

Implantando, Otimizando e Comparando LLMs

Aprenda como servir LLMs de forma eficiente usando o Servidor de Inferência Triton com instruções passo a passo. Abordaremos como implantar facilmente um LLM em vários back-ends e comparar seu desempenho, bem como ajustar as configurações de implantação para obter desempenho ideal.

Mova os Casos de Uso de IA Empresarial do Desenvolvimento para a Produção

Aprenda o que é inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA full-stack é necessária para enfrentar esses desafios, os principais componentes de uma solução full-stack plataforma e como implantar sua primeira solução de inferência de IA.

Aproveite o Poder das Soluções de Inferência de IA Prontas para Nuvem

Explore como a plataforma de inferência de IA da NVIDIA se integra perfeitamente aos principais provedores de serviços em nuvem, simplificando a implantação e agilizando o lançamento de casos de uso de IA com tecnologia LLM.

Oracle Cloud

NVIDIA Triton Acelera Inferência no Oracle Cloud

Saiba como os serviços de visão computacional e ciência de dados do Oracle Cloud Infrastructure melhoram a velocidade das previsões de IA com o Servidor de Inferência NVIDIA Triton.

ControlExpert

Revolucionando o Gerenciamento de Sinistros Automotivos

Saiba como a ControlExpert recorreu à IA da NVIDIA para desenvolver uma solução completa de gerenciamento de sinistros que permite que seus clientes recebam atendimento 24 horas por dia.

Wealthsimple

Acelerando a Entrega e Inferência de Modelos de Machine Learning

Descubra como a Wealthsimple usou a plataforma de inferência de IA da NVIDIA para reduzir com sucesso a duração da implantação do modelo de vários meses para apenas 15 minutos.

Fórum Online Triton

Explore a comunidade on-line do Servidor de Inferência NVIDIA Triton, onde você pode navegar por perguntas de instruções, aprender práticas recomendadas, interagir com outros desenvolvedores e relatar bugs.

Programa de Desenvolvedores NVIDIA

Conecte-se com milhões de desenvolvedores com ideias semelhantes e acesse centenas de contêineres, modelos e SDKs acelerados por GPU, todas as ferramentas necessárias para criar aplicações com sucesso com a tecnologia NVIDIA, por meio do Programa de Desenvolvedores NVIDIA.

Acelere Sua Startup

NVIDIA Inception é um programa gratuito para startups de ponta que oferece acesso crítico a suporte de entrada no mercado, conhecimento técnico, treinamento e oportunidades de financiamento.