Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
あらゆるプラットフォームであらゆるアプリケーションのために AI を展開、実行、拡張する。
NVIDIA Triton™ なら、GPU や CPU など、あらゆるプロセッサのあらゆるフレームワークから、トレーニング済みの機械学習モデルやディープラーニング モデルで推論を実行できます。NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise でご利用いただける Triton は、AI モデルの展開と実行をあらゆるワークロードを対象に標準化するオープンソース ソフトウェアです。
Triton を利用すれば、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDS™ cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆるメジャー フレームワークに AI モデルを展開できます。
動的バッチ処理、同時実行、最適構成、ストリーミング オーディオ/ビデオによりスループットと利用率を最大化します。Triton では、すべての NVIDIA GPU、x86 CPU、Arm® CPU、AWS Inferentia がサポートされています。
Triton は拡張用の Kubernetes や監視用の Prometheus のような DevOps/MLOps ソリューションに統合できます。また、すべての主要なクラウド、オンプレミス AI、MLOps プラットフォームで使用できます。
NVIDIA AI Enterprise (NVIDIA Triton や Triton 管理サービスなど) は、サポート、セキュリティ、安定した API で「価値創出までの時間」を短縮する、安全で運用環境対応の AI ソフトウェア プラットフォームです。
NVIDIA AI Enterprise をお買い求めください。運用環境推論のための NVIDIA Triton と Triton 管理サービスが含まれております。
Triton コンテナーは NVIDIA NGC™ で入手できます。また、GitHub でオープンソース コードとして入手できます。
Kubernetes で複数の Triton Inference Server インスタンスの展開を自動化します。GPU と CPU でリソース効率に優れたモデル オーケストレーションを利用します。
TensorRT-LLM は、実運用における推論のための大規模言語モデル (LLM) を定義、最適化し、実行するためのオープンソース ライブラリです。FasterTransformer のコア機能と TensorRT のディープラーニング コンパイラをオープンソースの Python API に収め、新しいモデルやカスタマイズに瞬時に対応します。
現代の AI ワークロードの多くでは複数のモデルを実行する必要があり、しばしば、クエリごとに事前処理手順と事後処理手順がともないます。Triton はモデル アンサンブルとパイプラインをサポートし、CPU や GPU でアンサンブルのさまざまな部分を実行できます。また、アンサンブル内部で複数のフレームワークを許可します。
Triton の Forest Inference Library (FIL) バックエンドは、CPU と GPU でツリーベース モデルのハイパフォーマンス推論を実行し、その推論を説明する (SHAP 値) ためのサポートを提供します。 XGBoost、LightGBM、scikit-learn RandomForest、RAPIDS cuML RandomForest のモデルと、Treelite 形式のその他のモデルがサポートされます。
PyTriton のシンプルなインターフェイスでは、Python 開発者は Triton を利用し、モデル、単純な処理関数、インターフェイス パイプライン全体など、あらゆるものにサービスを提供できます。Python では Triton がネイティブ サポートされることで、機械学習モデルを短時間で効果的かつ効率的に試作し、試験できます。1 行のコードで Triton が起動し、動的バッチ処理、同時モデル実行、GPU/CPU サポートなどのメリットが与えられます。そのため、モデル リポジトリを設定する必要も、モデルの形式を変換する必要もありません。既存の推論パイプライン コードを変更せずに使用できます。
Triton Model Analyzer は、バッチ サイズ、精度、ターゲット プロセッサ上の同時実行インスタンスなど、Triton Inference Server のモデル展開構成を自動評価するツールです。レイテンシ、スループット、メモリ要件など、アプリケーションのサービス品質 (QoS) 制約を満たす最適な構成を選択する作業を助けます。最適な構成を見つけるまでの時間が短縮されます。このツールは、モデル アンサンブルとマルチモデル解析にも対応しています。
Amazon では、NVIDIA AI による顧客満足度を推論スピードを 5 倍にすることで改善しました。その手法をご覧ください。
American Express では、連日の無数の取引を 50 倍の速さで分析することで詐欺検出を改善しました。その手法をご覧ください。
Siemens Energy では、漏れや異常な音などを AI ベースでリモート監視することで検査機能を強化しました。その手法をご覧ください。
Microsoft Teams は Triton を使用することで、リアルタイム、複数言語、超低レイテンシで字幕を付け、文字を書き起こす作業を最適化しています。その手法をご覧ください。
NIO では、NVIDIA Triton を自動運転推論パイプラインに統合することで低レイテンシ推論ワークフローを達成しました。その手法をご覧ください。
Triton はスケーラブルで高性能な推論に最適な選択肢です。Alibaba Cloud、Amazon Elastic Kubernetes Service (EKS)、Amazon Elastic Container Service (ECS)、Amazon SageMaker、Google Kubernetes Engine (GKE)、Google Vertex AI、HPE Ezmeral、Microsoft Azure Kubernetes Service (AKS)、Azure Machine Learning、Oracle Cloud Infrastructure Data Science Platform で利用できます。
Triton Inference Server の主な特長を理解してください。 運用環境で AI モデルを展開、実行、拡張する上で役立ちます。
推論に関する GTC セッションと Triton Inference Server を始める方法をご覧ください。
Triton Inference Server に関するブログを読む。
AI 推論を取り巻く状況、会社の運用環境ユース ケース、実際の課題と解決策をご覧ください。
AI 推論関連の最新情報を NVIDIA から受け取る。