Inference

Servidor de Inferência NVIDIA Triton

Implante, execute e dimensione IA para qualquer aplicação  em qualquer plataforma.

Visão Geral

Inferência para Cada Carga de Trabalho de IA

Execute inferência em modelos treinados de machine learning ou deep learning de qualquer framework em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. O Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e a execução do modelo de IA em todas as cargas de trabalho. Ele faz parte da plataforma de IA da NVIDIA e está disponível com o NVIDIA AI Enterprise.

Implantando, Otimizando e Comparando LLMs

Receba instruções passo a passo sobre como servir grandes modelos de linguagem (LLMs) com eficiência usando o Servidor de Inferência Triton.

Características

Explore os Recursos e Ferramentas do Servidor de Inferência NVIDIA Triton

Supports All Training and Inference Frameworks

Inferência de Grandes Modelos de Linguagem

O Triton oferece baixa latência e alta taxa de transferência para inferência de grandes modelos de linguagem (LLM). Ele é compatível com o TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção. 

High-Performance Inference on Any Platform

Conjuntos de Modelos

Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Eles permitem a execução de diferentes partes do conjunto na CPU ou GPU e suporta vários frameworks dentro do conjunto.

Open Source and Designed for DevOps and MLOps

NVIDIA PyTriton

O PyTriton permite que os desenvolvedores do Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes. 

Enterprise-Grade Security and API Stability

Analisador de Modelo NVIDIA Triton

O Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultânea. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da apçicação. 

Vantagens

As Vantagens do Servidor de Inferência Triton

Supports All Training and Inference Frameworks

Suporta Todos os Frameworks de Treinamento e Inferência

Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.

High-Performance Inference on Any Platform

Inferência de Alto Desempenho em Qualquer Plataforma

Maximize a taxa de transferência e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia. 

Open Source and Designed for DevOps and MLOps

Código Aberto e Projetado para DevOps e MLOps

Integre o Servidor de Inferência Triton em soluções de DevOps e MLOps, como Kubernetes para dimensionamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local. 

Enterprise-Grade Security and API Stability

Segurança, Capacidade de Gerenciamento e Estabilidade de API de Nível Empresarial

O NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de retorno com suporte, segurança e estabilidade de API. 

Opções Iniciais

Comece a Usar o NVIDIA Triton

Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicativo em qualquer plataforma.

Desenvolva

Para indivíduos que desejam acessar o código-fonte aberto do Servidor de Inferência Triton para desenvolvimento.

Desenvolva

Para indivíduos que desejam acessar contêineres gratuitos do Servidor de Inferência Triton para desenvolvimento.

Experimente

Acesse a infraestrutura hospedada pela NVIDIA e os laboratórios práticos guiados que incluem instruções passo a passo e exemplos, disponíveis gratuitamente no NVIDIA LaunchPad.

Implante

Obtenha uma licença gratuita para experimentar o NVIDIA AI Enterprise em produção por 90 dias usando sua infraestrutura existente.  

Casos de Uso

Como o Triton Está Sendo Usado

Descubra como os líderes do setor estão impulsionando a inovação com o Servidor de Inferência Triton.

Unificando Servidores de Inferência

O Servidor de Inferência Triton permite que as empresas consolidem seus servidores de inferência específicos do framework em uma única plataforma unificada. Em vez de implantar e gerenciar servidores separados para cada framework de IA, ele atua como um servidor único e unificado, reduzindo os custos de atendimento de inferência. O Servidor de Inferência Triton oferece suporte a todos os principais framework de IA incluindo PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX e OpenVINO. 

PENDING

Histórias de Clientes

Saiba Como os Líderes da Indústria Estão Aprimorando a Implantação de Modelos com o Triton

T-Mobile Customer Story
Snapchat

Aprimorando as Compras de Vestuário com IA

Saiba como o Snapchat aprimorou a experiência de compra de roupas e o reconhecimento óptico de caracteres com reconhecimento de emoji usando o Triton para escalar, reduzir custos e acelerar o tempo de produção. 

RingCentral Customer Story
Docusign

Acelerando o Gerenciamento de Contratos com a Plataforma de Inferência da NVIDIA

Explore como a Docusign está usando o Triton e o Azure para desbloquear informações de contratos, transformar dados de contratos em insights e aumentar a produtividade.

Tarteel.ai Customer Story
Oracle Cloud

NVIDIA Triton Acelera a Inferência no Oracle Cloud

Saiba como os serviços de visão computacional e ciência de dados da Oracle Cloud Infrastructure aumentam a velocidade das previsões de IA com o NVIDIA Servidor de Inferência Triton.

Usuários

Principais Usuários em Todos os Setores

Amazon
American Express
Azure AI Translator
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

Recursos

O Que Há de Mais Recente em Recursos no NVIDIA Triton

As 5 Principais Razões Pelas Quais o Triton Está Simplificando a Inferência

O Servidor de Inferência NVIDIA Triton simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados a partir de qualquer framework de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.

Implante o Pipeline de Stable Diffusion do HuggingFace com Triton

Este vídeo mostra a implantação do pipeline Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Triton para implantar e executar o pipeline.

Primeiros Passos com o Servidor de Inferência NVIDIA Triton

O Servidor de Inferência Triton é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalonável na produção. Devido aos seus muitos recursos, uma pergunta natural a ser feita é: por onde devo começar? Assista para descobrir.

Próximos Passos

Pronto para Começar?

Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicação em qualquer plataforma.

decorative

Para Desenvolvedores

Explore tudo o que você precisa para começar a desenvolver com o NVIDIA Triton, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.

decorative

Entre em Contato

Fale com um especialista em produtos NVIDIA sobre como passar da fase de testes para a produção com a segurança, a estabilidade da API e o suporte de NVIDIA AI Enterprise.

Select Location
Middle East