音声認識から言語理解と音声合成まで、パイプライン全体を加速
音声と言語分野の AI 主導のサービスがもたらす革命は、個人ひとりひとりに合わせた自然な対話を可能にしますが、リアルタイムの対話には、精度とレイテンシに関する厳しい要件があります。NVIDIA の対話型 AI SDK なら、開発者は、ごくわずかな先行投資で高精度かつ低遅延のシステムを実現しながら、単一の統一されたアーキテクチャでアプリケーションを強化する最先端の AI サービスを短期間で構築できます。
NVIDIA DGX™ システムで、10 万時間以上、さまざまなオープンソース データセットと独自のデータセットをベースにトレーニングされた NGC™ 対話型 AI モデルをご利用ください。
データからモデルにパイプラインまで、プロセスのあらゆる段階で音声スキルと言語スキルをカスタマイズします。
アプリケーションを簡単に拡張し、数百単位、数千単位の同時要求を処理します。
エンドツーエンドのモデル推論を 300 ミリ秒 (ms) 以下のレイテンシで実行します。
対話型 AI の概要、その仕組み、現在の業界でのその応用について、NVIDIA の E-Book をダウンロードしてご覧ください。
音声文字起こし用の自動音声認識 (ASR)、自然言語理解 (NLU)、テキスト読み上げ (TTS) で構成された完全な対話型 AI パイプラインを、リアルタイム インタラクションに適したわずか 300ms 未満のレイテンシ バウンドで実行しながら、ユーザー エクスペリエンスを損なうことなく、パイプラインを複雑化するための余地を確保することが可能です。
オープンソースのフレームワーク NVIDIA NeMo™ を利用し、最新の音声/言語モデルを構築、トレーニング、微調整します。
製品品質の NVIDIA 学習済みモデルと NVIDIA TAO Toolkit を利用し、開発時間を 10 分の 1 に短縮します。
パワフルな数十億規模のパラメーターを有する言語モデルを比類なきスピードとスケーラビリティでトレーニングすることで、解決にかかる所要時間を短縮できます。
最適化済み対話型 AI サービスをデプロイし、クラウド、データ センター、エッジで最大限のパフォーマンスを発揮させることができます。
エッジで大量の音声データおよび言語データを処理することで、ネットワーキング レイテンシを回避しながらリアルタイム対話を実現することができます。
NVIDIA DGX™ A100 は、史上最高のデータ センター アクセラレータである NVIDIA A100 Tensor コア GPU を 8 個備えています。Tensor Float 32 (TF32) 精度により、コードを一切変更することなく、前世代より 10 倍の AI パフォーマンスの改善を実現します。一般的な NLP モデルに構造化スパース性を活用することで、さらに 2 倍のパフォーマンス向上がもたらされます。A100 の設計は、複数の DGX A100 システムで膨大な 10 億ものパラメーターを持つモデルを大規模トレーニングし、最先端の精度を可能にします。NVIDIA は、A100 で対話型 AI モデルを分散型トレーニングするための NeMo Toolkit と TAO Toolkit を提供しています。
NVIDIA EGX™ Platform は、エッジで大量の音声データと言語データを処理することでネットワーク レイテンシを回避しながらリアルタイムの対話型 AI を可能にします。NVIDIA TensorRT™ を利用することで、開発者は推論用にモデルを最適化し、レイテンシが低く、スループットが高い対話型 AI アプリケーションを提供できます。そして NVIDIA Triton™ Inference Server を導入することで、モデルを運用環境に展開できます。TensorRT と Triton Inference Server は、対話型 AI のアプリケーション フレームワークの NVIDIA Riva と連携することで、エンドツーエンドの GPU 対応パイプラインを EGX で構築し、展開できます。内部の動きを見ると、Riva によって TensorRT が適用され、Triton Inference Server が構成され、標準 API を介してサービスが公開されます。Kubernetes クラスターで Helm グラフから 1 回のコマンドでデプロイします。
従来の音声/テキスト変換アルゴリズムが進化を遂げ、会議、講演、社交上の会話を書き起こし、同時に話者を特定し、その貢献にラベルを付けることが可能になりました。NVIDIA Riva では、コール センターの会話を正確に文字に起こし、会議を録画し、医師と患者のやりとりのメモ作成を自動化することができます。Riva を利用すると、特定の用途に合わせてモデルやパイプラインをカスタマイズすることもできます。
仮想アシスタントはほぼ人間と同じように顧客に対応することが可能です。コンタクト センター、スマート スピーカー、車内インテリジェント アシスタントのインタラクションに活用できます。音声認識、言語理解、音声合成、ボコーディングなどの AI 主導のサービスだけではこうしたシステムをサポートできません。対話追跡などの重要な構成要素がないためです。Riva は、あらゆるアプリケーションに合わせて拡張可能な使いやすいコンポーネントでそうしたバックボーン サービスを補足します。
GPU 対応の主要な音声、視覚、言語のワークフローでは、エンタープライズ規模の要件を満たすことができます。
GPU で高速化する最新のディープラーニング モデルを、人気の対話型 AI ライブラリで構築します。
自然言語処理を使用する Curai のプラットフォームでは、患者は体調を医師に伝え、自身の医療記録にアクセスできます。医療従事者は医療会話からデータを抽出し、より良い治療情報を提供できるよう支援します。
Square Assistant はカスタマー サポートのために自然言語処理の評判を高めることを目指しています。
企業は、2023 年までに不正防止によって 2,000 億ドル以上を節約できると推定されています。NLP がさまざまな方面で詐欺を検出する仕組みと、American Express、Bank of New York Mellon、PayPal が詐欺検出戦略にそれを利用する方法について説明します。