推論

NVIDIA Triton Inference Server

あらゆるプラットフォーム上で、任意のアプリケーションに AI をデプロイ、実行、拡張します。

概要

あらゆる AI ワークロードに対応する推論

NVIDIA Triton を使用すると、任意のプロセッサ (GPU、CPU、その他) 上で、任意のフレームワークからトレーニング済みの機械学習やディープラーニング モデルの推論を実行できます。Triton Inference Server は、AI モデルのデプロイと実行をあらゆるワークロードで標準化するオープンソース ソフトウェアです。これは NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise で利用できます。

LLM のデプロイ、最適化、ベンチマーク

Triton Inference Server を使用して大規模言語モデル (LLM) を効率的に提供する方法をステップバイステップで説明します。

特集

NVIDIA Triton Inference Server の機能とツールを探る

あらゆるトレーニングおよび推論フレームワークをサポート

大規模言語モデルの推論

Triton は、大規模言語モデル (LLM) の推論において低遅延と高スループットを実現します。オープンソースのライブラリである TensorRT-LLM をサポートしており、本番環境での推論用 LLM の定義、最適化、実行が可能です。

あらゆるプラットフォームで高性能な推論

モデル アンサンブル

Triton Model Ensembles を使用すると、複数のモデル、パイプライン、前処理および後処理ステップを有する AI ワークロードを実行できます。これにより、CPU または GPU 上でアンサンブルの異なる部分を実行でき、アンサンブル内の複数のフレームワークをサポートします。

オープンソースで DevOps と MLOps 向けに設計

NVIDIA PyTriton

PyTriton を使用すると、Python 開発者は 1 行のコードで Triton を起動し、モデル、単純な処理機能、または推論パイプライン全体を提供し、プロトタイプ作成とテストを高速化できます。

エンタープライズ グレードのセキュリティと API の安定性

NVIDIA Triton Model Analyzer

Model Analyzer は、バッチサイズ、精度、並行実行インスタンスなど、最適なモデル デプロイ構成を見つけるのに必要な時間を短縮します。アプリケーションの遅延、スループット、メモリ要件を満たす最適な構成を選択するのに役立ちます。

利点

Triton Inference Server のメリット

あらゆるトレーニングおよび推論フレームワークをサポート

あらゆるトレーニングおよび推論フレームワークをサポート

Triton Inference Server を使用すると、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDSTM cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆる主要フレームワークに AI モデルをデプロイできます。

あらゆるプラットフォームで高性能な推論

あらゆるプラットフォームで高性能な推論

動的なバッチ処理、同時実行、最適な構成、オーディオとビデオのストリーミングにより、スループットと利用率を最大化します。Triton Inference Server は、すべての NVIDIA GPU、x86 および Arm CPU、AWS Inferentia をサポートしています。

オープンソースで DevOps と MLOps 向けに設計

オープンソースで DevOps と MLOps 向けに設計

Triton Inference Server を、スケーリング用の Kubernetes やモニタリング用の Prometheus などの DevOps および MLOps ソリューションに統合します。また、すべての主要なクラウドおよびオンプレミスの AI および MLOps プラットフォームで使用できます。

エンタープライズ グレードのセキュリティと API の安定性

エンタープライズグレードのセキュリティ、管理性、API の安定性

NVIDIA Triton Inference Server を含む NVIDIA AI Enterprise は、サポート、セキュリティ、API の安定性により、価値実現までの時間を短縮するように設計された、安全で本番環境対応の AI ソフトウェア プラットフォームです。

スタート オプション

NVIDIA Triton を使い始める

適切なツールとテクノロジを使用して、あらゆるプラットフォーム上のあらゆるアプリケーションに AI をデプロイ、実行、拡張します。

開発する

Triton Inference Server のオープンソース コードにアクセスして開発を行いたいと考えている個人向け。

開発する

無料の開発用 Triton Inference Server コンテナにアクセスしたい個人向け。

体験

NVIDIA LaunchPad から、NVIDIA がホストするインフラとガイド付き実践ラボに無料でアクセスしてお試しいただけます。ステップバイステップの手順と例も含まれます。

展開する

既存のインフラストラクチャを使用して、NVIDIA AI Enterprise を本番環境で試用する 90 日間ライセンスを無料で入手できます。

ユース ケース

Triton がどのように活用されているか

業界のリーダーたちが Triton Inference Server を使用して、どのようにイノベーションを推進しているかをご覧ください。

推論サーバーの統合

Triton Inference Server を使用すると、組織はフレームワーク固有の推論サーバーを単一の統一プラットフォームに統合できます。AI フレームワークごとに個別のサーバーをデプロイおよび管理する代わりに、単一の統合サーバーとして機能し、推論サービスのコストを削減します。Triton Inference Server は、PyTorch、TensorFlow、TensorRT-LLM、VLLM、TensorRT、ONNX、OpenVINO など、主要な AI フレームワークをすべてサポートしています。

ペンディング

お客様の事例

業界リーダーが Triton でどのようにモデルのデプロイを強化しているかをご覧ください

導入事例: T-Mobile
Snapchat

衣料品購買を AI で強化

Snapchat が、Triton Inference Server を使用して、衣料品の購買体験と絵文字を認識する光学文字認識を強化し、規模の拡大、コスト削減、本番環境までの時間短縮を実現した方法をご覧ください。

導入事例: RingCentral
Docusign

NVIDIA の推論プラットフォームで契約管理を加速する

Docusign が Triton と Azure を使用して、どのように契約情報のロックを解除し、契約データをインサイトに変換し、生産性を高めているかをご覧ください。

Tarteel.ai での導入事例
Oracle Cloud

NVIDIA Triton、Oracle Cloud での推論を高速化

Oracle Cloud Infrastructure のコンピューター ビジョンとデータ サイエンス サービスが、NVIDIA Triton Inference Server を使用して AI 予測の速度をどのように向上させているかをご覧ください。

導入事例

全産業における主要な採用企業

Amazon
American Express
Azure AI 翻訳
Encord
GE Healthcare
InfoSys
Intelligent Voice
Nio
Siemens Energy
Trax Retail
USPS
Yahoo Japan

関連情報

最新の NVIDIA Triton リソース

Triton ニュース

最新のニュースを入手

Triton Inference Server の最新の推論アップデートと発表についてお読みください。

Triton 技術ブログ

技術ブログを見る

推論を始める方法に関する技術的なチュートリアルをお読みください。

Triton ホワイトペーパー

さらに詳しく見る

生成 AI、LLM、レコメンダー システム、コンピューター ビジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

次のステップ

さっそく始めませんか?

適切なツールとテクノロジーを使用して、完全にカスタマイズ可能な多言語の音声、翻訳 AI アプリケーションを構築およびデプロイします。

デコラティブ

開発者向け

最新のドキュメント、チュートリアル、技術ブログなど、AI アプリケーション開発を始めるために必要な情報をすべてご覧ください。

デコラティブ

お問い合わせ

試作から本番環境への移行については、NVIDIA の製品スペシャリストにご相談ください。NVIDIA AI Enterprise のセキュリティ、API 安定性、サポートを活用することができます。

Select Location
Middle East