Inference
Implante, execute e dimensione IA para qualquer aplicação em qualquer plataforma.
Vídeo | Ficha Técnica | Para Desenvolvedores
Execute inferência em modelos treinados de machine learning ou deep learning a partir de qualquer framework e em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. Parte da plataforma de IA da NVIDIA e disponível com o NVIDIA AI Enterprise, o Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e execução de modelos de IA em todas as cargas de trabalho.
Receba instruções passo a passo sobre como servir grandes modelos de linguagem (LLMs) com eficiência usando o Servidor de Inferência Triton.
Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.
Maximize o rendimento e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia.
Integre o Servidor de Inferência Triton em soluções DevOps e MLOps, como Kubernetes para escalonamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local.
NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de obtenção de valor com suporte, segurança e estabilidade de API.
Triton oferece baixa latência e alto rendimento para inferência de grandes modelos de linguagem (LLM). Ele oferece suporte ao TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção.
Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Ele permite a execução de diferentes partes do conjunto na CPU ou GPU e oferece suporte a vários frameworks dentro do conjunto.
PyTriton permite que os desenvolvedores Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes.
O Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultâneas. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da aplicação.
Use as ferramentas certas para implantar, executar e dimensionar IA para qualquer aplicação em qualquer plataforma.
Para pessoas que desejam acessar o código-fonte aberto e os contêineres do Triton para desenvolvimento, há duas opções para começar gratuitamente:
Use Código-Fonte Aberto Acesse software de código aberto no GitHub com exemplos completos.
Faça o Download de um Contêiner Acesse contêineres do Servidor de Inferência Triton baseados em Linux para x86 e Arm® no NVIDIA NGC™.
Para empresas que desejam experimentar o Triton antes de adquirir o NVIDIA AI Enterprise para produção, há duas opções para começar gratuitamente:
Sem Infraestrutura Para quem não tem infraestrutura existente, a NVIDIA oferece laboratórios práticos gratuitos por meio do NVIDIA LaunchPad.
Com Infraestrutura Para aqueles com infraestrutura existente, a NVIDIA oferece uma licença de avaliação gratuita para testar o NVIDIA AI Enterprise por 90 dias.
O Servidor de Inferência NVIDIA Triton simplifica a implantação de modelos de IA em escala na produção, permitindo que as equipes implantem modelos de IA treinados a partir de qualquer framework de armazenamento local ou plataforma de nuvem em qualquer infraestrutura baseada em GPU ou CPU.
Este vídeo mostra a implantação do pipeline Stable Diffusion disponível por meio da biblioteca de difusores HuggingFace. Usamos o Servidor de Inferência Triton para implantar e executar o pipeline.
O Servidor de Inferência Triton é uma solução de inferência de código aberto que padroniza a implantação de modelos e permite IA rápida e escalonável na produção. Devido aos seus muitos recursos, uma pergunta natural a ser feita é: por onde devo começar? Assista para descobrir.
É novo no Servidor de Inferência Triton e deseja implantar seu modelo rapidamente? Use este guia de início rápido para começar sua jornada no Triton.
Começar a usar o Triton pode levar a muitas perguntas. Explore este repositório para se familiarizar com os recursos do Triton e encontrar guias e exemplos que podem ajudar a facilitar a migração.
Em laboratórios práticos, experimente IA rápida e escalável usando o Servidor de Inferência NVIDIA Triton. Você poderá aproveitar imediatamente as vantagens da infraestrutura de computação acelerada da NVIDIA e dimensionar suas cargas de trabalho de IA.
Leia sobre as últimas atualizações e anúncios de inferência do Servidor de Inferência Triton.
Leia orientações técnicas sobre como começar a inferência.
Receba dicas e práticas recomendadas para implantar, executar e dimensionar modelos de IA para inferência para IA generativa, LLMs, sistemas de recomendação, visão computacional e muito mais.
Aprenda como servir LLMs de forma eficiente usando o Servidor de Inferência Triton com instruções passo a passo. Abordaremos como implantar facilmente um LLM em vários back-ends e comparar seu desempenho, bem como ajustar as configurações de implantação para obter desempenho ideal.
Aprenda o que é inferência de IA, como ela se encaixa na estratégia de implantação de IA da sua empresa, principais desafios na implantação de casos de uso de IA de nível empresarial, por que uma solução de inferência de IA full-stack é necessária para enfrentar esses desafios, os principais componentes de uma solução full-stack plataforma e como implantar sua primeira solução de inferência de IA.
Explore como a plataforma de inferência de IA da NVIDIA se integra perfeitamente aos principais provedores de serviços em nuvem, simplificando a implantação e agilizando o lançamento de casos de uso de IA com tecnologia LLM.
Saiba como os serviços de visão computacional e ciência de dados do Oracle Cloud Infrastructure melhoram a velocidade das previsões de IA com o Servidor de Inferência NVIDIA Triton.
Saiba como a ControlExpert recorreu à IA da NVIDIA para desenvolver uma solução completa de gerenciamento de sinistros que permite que seus clientes recebam atendimento 24 horas por dia.
Descubra como a Wealthsimple usou a plataforma de inferência de IA da NVIDIA para reduzir com sucesso a duração da implantação do modelo de vários meses para apenas 15 minutos.
Explore a comunidade on-line do Servidor de Inferência NVIDIA Triton, onde você pode navegar por perguntas de instruções, aprender práticas recomendadas, interagir com outros desenvolvedores e relatar bugs.
Conecte-se com milhões de desenvolvedores com ideias semelhantes e acesse centenas de contêineres, modelos e SDKs acelerados por GPU, todas as ferramentas necessárias para criar aplicações com sucesso com a tecnologia NVIDIA, por meio do Programa de Desenvolvedores NVIDIA.
NVIDIA Inception é um programa gratuito para startups de ponta que oferece acesso crítico a suporte de entrada no mercado, conhecimento técnico, treinamento e oportunidades de financiamento.
Use as ferramentas certas para implantar, executar e dimensionar IA para qualquer aplicativo em qualquer plataforma ou explore mais recursos de desenvolvimento.
Fale com um especialista em produtos da NVIDIA sobre como passar da fase de testes para a produção com a segurança, a estabilidade da API e o suporte do NVIDIA AI Enterprise.
Inscreva-se para receber as últimas notícias, atualizações e muito mais da NVIDIA.