Inference
Implante, execute e dimensione IA para qualquer aplicação em qualquer plataforma.
Execute inferência em modelos treinados de machine learning ou deep learning de qualquer framework em qualquer processador (GPU, CPU ou outro) com o Servidor de Inferência NVIDIA Triton™. O Servidor de Inferência Triton é um software de código aberto que padroniza a implantação e a execução do modelo de IA em todas as cargas de trabalho. Ele faz parte da plataforma de IA da NVIDIA e está disponível com o NVIDIA AI Enterprise.
O Triton oferece baixa latência e alta taxa de transferência para inferência de grandes modelos de linguagem (LLM). Ele é compatível com o TensorRT-LLM, uma biblioteca de código aberto para definir, otimizar e executar LLMs para inferência na produção.
Os Conjuntos de Modelos do Triton permitem executar cargas de trabalho de IA com vários modelos, pipelines e etapas de pré e pós-processamento. Eles permitem a execução de diferentes partes do conjunto na CPU ou GPU e suporta vários frameworks dentro do conjunto.
O PyTriton permite que os desenvolvedores do Python criem o Triton com uma única linha de código e o usem para servir modelos, funções de processamento simples ou pipelines de inferência inteiros para acelerar a prototipagem e os testes.
O Analisador de Modelos reduz o tempo necessário para encontrar a configuração ideal de implantação do modelo, como tamanho do lote, precisão e instâncias de execução simultânea. Ele ajuda a selecionar a configuração ideal para atender aos requisitos de latência, taxa de transferência e memória da apçicação.
Implante modelos de IA em qualquer framework importante com o Servidor de Inferência Triton, incluindo TensorFlow, PyTorch, Python, ONNX, NVIDIA® TensorRT™, RAPIDS™ cuML, XGBoost, scikit-learn RandomForest, OpenVINO, C++ personalizado e muito mais.
Maximize a taxa de transferência e a utilização com lotes dinâmicos, execução simultânea, configuração ideal e streaming de áudio e vídeo. O Servidor de Inferência Triton oferece suporte a todas as GPUs NVIDIA, CPUs x86 e Arm e AWS Inferentia.
Integre o Servidor de Inferência Triton em soluções de DevOps e MLOps, como Kubernetes para dimensionamento e Prometheus para monitoramento. Ele também pode ser usado em todas as principais plataformas de IA e MLOps na nuvem e no local.
O NVIDIA AI Enterprise, incluindo o Servidor de Inferência NVIDIA Triton, é uma plataforma de software de IA segura e pronta para produção, projetada para acelerar o tempo de retorno com suporte, segurança e estabilidade de API.
Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicativo em qualquer plataforma.
Descubra como os líderes do setor estão impulsionando a inovação com o Servidor de Inferência Triton.
O Servidor de Inferência Triton permite que as empresas consolidem seus servidores de inferência específicos do framework em uma única plataforma unificada. Em vez de implantar e gerenciar servidores separados para cada framework de IA, ele atua como um servidor único e unificado, reduzindo os custos de atendimento de inferência. O Servidor de Inferência Triton oferece suporte a todos os principais framework de IA incluindo PyTorch, TensorFlow, TensorRT-LLM, VLLM, TensorRT, ONNX e OpenVINO.
Use as ferramentas e tecnologias certas para implantar, executar e dimensionar a IA para qualquer aplicação em qualquer plataforma.
Explore tudo o que você precisa para começar a desenvolver com o NVIDIA Triton, incluindo a documentação mais recente, tutoriais, blogs técnicos e muito mais.
Fale com um especialista em produtos NVIDIA sobre como passar da fase de testes para a produção com a segurança, a estabilidade da API e o suporte de NVIDIA AI Enterprise.