推論

NVIDIA Triton Inference Server

あらゆるプラットフォーム上で、任意のアプリケーションに AI をデプロイ、実行、拡張します。

今すぐ始める

ビデオを見る | ホワイトペーパーを読む | 開発者向け

概要
特集
利点
スタートオプション
ユースケース
お客様の事例
導入事例
関連情報
次のステップ

概要

概要
特集
利点
スタートオプション
ユースケース
お客様の事例
導入事例
関連情報
次のステップ

今すぐ始める

概要

あらゆる AI ワークロードに対応する推論

NVIDIA Triton を使用すると、任意のプロセッサ (GPU、CPU、その他) 上で、任意のフレームワークからトレーニング済みの機械学習やディープラーニングモデルの推論を実行できます。Triton Inference Server は、AI モデルのデプロイと実行をあらゆるワークロードで標準化するオープンソースソフトウェアです。これは NVIDIA AI プラットフォームの一部であり、NVIDIA AI Enterprise で利用できます。

LLM のデプロイ、最適化、ベンチマーク

Triton Inference Server を使用して大規模言語モデル (LLM) を効率的に提供する方法をステップバイステップで説明します。

セッションを視聴する

特集

NVIDIA Triton Inference Server の機能とツールを探る

大規模言語モデルの推論

Triton は、大規模言語モデル (LLM) の推論において低遅延と高スループットを実現します。オープンソースのライブラリである TensorRT-LLM をサポートしており、本番環境での推論用 LLM の定義、最適化、実行が可能です。

モデルアンサンブル

Triton Model Ensembles を使用すると、複数のモデル、パイプライン、前処理および後処理ステップを有する AI ワークロードを実行できます。これにより、CPU または GPU 上でアンサンブルの異なる部分を実行でき、アンサンブル内の複数のフレームワークをサポートします。

NVIDIA PyTriton

PyTriton を使用すると、Python 開発者は 1 行のコードで Triton を起動し、モデル、単純な処理機能、または推論パイプライン全体を提供し、プロトタイプ作成とテストを高速化できます。

NVIDIA Triton Model Analyzer

Model Analyzer は、バッチサイズ、精度、並行実行インスタンスなど、最適なモデルデプロイ構成を見つけるのに必要な時間を短縮します。アプリケーションの遅延、スループット、メモリ要件を満たす最適な構成を選択するのに役立ちます。

利点

Triton Inference Server のメリット

あらゆるトレーニングおよび推論フレームワークをサポート

Triton Inference Server を使用すると、TensorFlow、PyTorch、Python、ONNX、NVIDIA® TensorRT™、RAPIDSTM cuML、XGBoost、scikit-learn RandomForest、OpenVINO、カスタム C++ など、あらゆる主要フレームワークに AI モデルをデプロイできます。

あらゆるプラットフォームで高性能な推論

動的なバッチ処理、同時実行、最適な構成、オーディオとビデオのストリーミングにより、スループットと利用率を最大化します。Triton Inference Server は、すべての NVIDIA GPU、x86 および Arm CPU、AWS Inferentia をサポートしています。

オープンソースで DevOps と MLOps 向けに設計

Triton Inference Server を、スケーリング用の Kubernetes やモニタリング用の Prometheus などの DevOps および MLOps ソリューションに統合します。また、すべての主要なクラウドおよびオンプレミスの AI および MLOps プラットフォームで使用できます。

エンタープライズグレードのセキュリティ、管理性、API の安定性

NVIDIA Triton Inference Server を含む NVIDIA AI Enterprise は、サポート、セキュリティ、API の安定性により、価値実現までの時間を短縮するように設計された、安全で本番環境対応の AI ソフトウェアプラットフォームです。

スタートオプション

NVIDIA Triton を使い始める

適切なツールとテクノロジを使用して、あらゆるプラットフォーム上のあらゆるアプリケーションに AI をデプロイ、実行、拡張します。

開発する

Triton Inference Server のオープンソースコードにアクセスして開発を行いたいと考えている個人向け。

アクセスコード

開発する

無料の開発用 Triton Inference Server コンテナにアクセスしたい個人向け。

コンテナを取得する

体験

NVIDIA LaunchPad から、NVIDIA がホストするインフラとガイド付き実践ラボに無料でアクセスしてお試しいただけます。ステップバイステップの手順と例も含まれます。

実践ラボにアクセス

展開する

既存のインフラストラクチャを使用して、NVIDIA AI Enterprise を本番環境で試用する 90 日間ライセンスを無料で入手できます。

90 日間ライセンスをリクエストする

使い始める方法を比較する

ユースケース

Triton がどのように活用されているか

業界のリーダーたちが Triton Inference Server を使用して、どのようにイノベーションを推進しているかをご覧ください。

ユースケース 1
ユースケース 2
ユースケース 3
ユースケース 4

推論サーバーの統合

Triton Inference Server を使用すると、組織はフレームワーク固有の推論サーバーを単一の統一プラットフォームに統合できます。AI フレームワークごとに個別のサーバーをデプロイおよび管理する代わりに、単一の統合サーバーとして機能し、推論サービスのコストを削減します。Triton Inference Server は、PyTorch、TensorFlow、TensorRT-LLM、VLLM、TensorRT、ONNX、OpenVINO など、主要な AI フレームワークをすべてサポートしています。

Snapchat が Triton を使用してどのようにショッピング体験を高めているかをご覧ください

モデルデプロイの最適化

Triton Inference Server は、自動スイープを実行して、多くのモデル同時実行性およびバッチサイズの構成で遅延とスループットをテストできます。これにより、開発者は手作業を行わずに、サービスレベル契約を満たす最も効果的なセットアップを迅速に特定できます。LLM モデルの場合、Triton Inference Server はトークン生成を自動化し、最初のトークン遅延、トークン間の遅延、および秒あたりのトークン数などのデプロイメトリクスを提供します。この機能により、最も効率的な LLM 本番環境セットアップの特定とデプロイが高速化します。

Triton Model Analyzer がモデルデプロイを最適化する方法をご覧ください

生成 AI パフォーマンスアナライザーガイドを読む

マルチモデル AI パイプラインを簡単に作成

Triton Inference Server を使用すると、組織はモデルアンサンブルを簡単に構築できます。AI モデルを統合パイプラインにシームレスに接続し、単一の推論リクエストでトリガーできるローコードツールを提供します。これにより、組織は手作業によるコーディングを必要とせずに、前処理および後処理のワークフローを組み込むことができます。Triton Inference Server は、CPU 上の前処理と後処理のスケジューリングもサポートしており、ワークフロー全体を合理化します。

アンサンブルモデルによる Triton でのモデルパイプラインの提供について読む

どこにでもデプロイ可能: オンプレミス、エッジ、または任意のクラウドに

Triton Inference Server は、Docker コンテナとして提供され、オンプレミス、クラウド、エッジデバイスでのデプロイに適しています。Amazon SageMaker、Azure ML Studio、Google Vertex AI、OCI Data Science など、すべての主要なクラウドプロバイダーの主要な MLOps AI ツールに深く統合されています。Triton Inference Server はシンプルなコマンドラインフラグで簡単に起動できるため、クラウドデプロイにかかる実装時間を最小限に抑え、エンタープライズガバナンス標準に適合させることができます。

Amazon SageMaker へのデプロイ

Google Vertex AI へのデプロイ

Azure ML Studio へのデプロイ

Oracle Cloud へのデプロイ

お客様の事例

業界リーダーが Triton でどのようにモデルのデプロイを強化しているかをご覧ください

導入事例をさらに見る

Snapchat

衣料品購買を AI で強化

Snapchat が、Triton Inference Server を使用して、衣料品の購買体験と絵文字を認識する光学文字認識を強化し、規模の拡大、コスト削減、本番環境までの時間短縮を実現した方法をご覧ください。

詳細を見る

Docusign

NVIDIA の推論プラットフォームで契約管理を加速する

Docusign が Triton と Azure を使用して、どのように契約情報のロックを解除し、契約データをインサイトに変換し、生産性を高めているかをご覧ください。

詳細を見る

Oracle Cloud

NVIDIA Triton、Oracle Cloud での推論を高速化

Oracle Cloud Infrastructure のコンピュータービジョンとデータサイエンスサービスが、NVIDIA Triton Inference Server を使用して AI 予測の速度をどのように向上させているかをご覧ください。

詳細を見る

導入事例

全産業における主要な採用企業

顧客
エコシステムの統合

最新の NVIDIA Triton リソース

技術ブログを見る

推論を始める方法に関する技術的なチュートリアルをお読みください。

すべての技術 LLM ブログを見る

さらに詳しく見る

生成 AI、LLM、レコメンダーシステム、コンピュータービジョンなどの推論用 AI モデルのデプロイ、実行、スケーリングに関するヒントやベストプラクティスを入手できます。

今すぐ読む

すべてのブログを見る

LLM のデプロイ、最適化、ベンチマーク

Triton Inference Server を使用して LLM を効率的に提供する方法を、手順を追って紹介します。複数のバックエンドに LLM を簡単にデプロイしてパフォーマンスを比較する方法や、最適なパフォーマンスを得るためにデプロイ構成をファインチューニングする方法について説明します。

オンデマンドの GTC セッションを視聴する

開発から本番環境へのエンタープライズ AI 移行のユースケース

AI 推論とは何か、AI が企業の AI デプロイ戦略にどのように適合するか、エンタープライズグレードの AI ユースケースをデプロイする際の主な課題、これらの課題に対処するためにフルスタック AI 推論ソリューションが必要な理由、フルスタックプラットフォームの主要コンポーネント、最初の AI 推論ソリューションのデプロイ方法について学びます。

オンデマンドセッションを視聴する

クラウド対応 AI 推論ソリューションのパワーを活用する

NVIDIA AI 推論プラットフォームが、どのように主要なクラウドサービスプロバイダーとシームレスに統合され、デプロイを簡略化し、LLM 搭載 AI ユースケースの立ち上げを迅速化するかをご覧ください。

オンデマンドセッションを視聴する

他のセッションを見る

クイックスタートガイド

Triton Inference Server を初めてご利用の方で、モデルをすぐにデプロイしたいとお考えですか? このクイックスタートガイドを活用して、Triton を使いこなす旅に踏み出しましょう。

今すぐ読む

チュートリアル

Triton を使い始めると、さまざまな疑問が生じることがあります。このリポジトリを探して、Triton の機能を理解し、移行を容易にするガイドやサンプルを見つけてください。

今すぐ読む

NVIDIA LaunchPad

ハンズオンラボでは、NVIDIA Triton Inference Server を使用した高速でスケーラブルな AI を体験できます。NVIDIA のアクセラレーテッドコンピューティングインフラストラクチャの利点をすぐに活用して、AI ワークロードを拡張できるようになります。

詳細を見る

Triton が推論をシンプルにする 5 つの理由

NVIDIA Triton Inference Server は、本番環境での AI モデルの大規模なデプロイを簡略化し、チームが、任意の GPU または CPU ベースのインフラストラクチャ上で、ローカルストレージまたはクラウドプラットフォームから、任意のフレームワークのトレーニング済み AI モデルをデプロイできるようにします。

今すぐ見る

Triton で Stable Diffusion パイプラインを容易にデプロイする

HuggingFace の Stable Diffusion パイプラインを Triton でデプロイする

この動画では、HuggingFace ディフューザーライブラリで利用可能な Stable Diffusion パイプラインのデプロイを紹介します。パイプラインのデプロイと実行には Triton Inference Server を使用します。

今すぐ見る

NVIDIA Triton Inference Server の使用を開始する

Triton Inference Server は、モデルのデプロイを標準化し、本番環境での高速かつスケーラブルな AI を可能にするオープンソースの推論ソリューションです。多くの機能を搭載しているため、「どこから始めればよいのか？」という疑問が生じることになりますので、動画を見て確認してください。

今すぐ見る

さらに動画を見る