合成データ生成

AI ワークフローを加速。

ワークロード

コンピューター ビジョン / ビデオ解析

業種

製造
Hardware/Semiconductor
自動車 / 輸送
スマート シティ/スペース
ロボティクス

事業目標

イノベーション

製品

NVIDIA Omniverse Enterprise
NVIDIA DRIVE
NVIDIA Isaac
NVIDIA Metropolis

合成データとは?

AI モデルの学習で、望ましい精度とパフォーマンスを達成するためには、注意深くラベル付けされた高品質で多様なデータセットが必要です。多くの場合、データは限られているか、制限されているか、入手不可能です。このような実世界のデータの収集とラベル付けには時間がかかり、非常に高コストになる可能性があり、物理的な AI モデルの開発と解決策を見出すプロセスを長引かせます。

合成データはこの課題に対処するのに役立ちます。合成データはコンピューター シミュレーション、生成 AI モデル、またはその両方の組み合わせから生成されたデータです。合成データは、テキスト、可視および非可視スペクトルの 2D または 3D 画像で構成され、実世界のデータと併用してマルチモーダルな物理的 AI モデルを学習させるために使用できます。これにより、学習時間を大幅に節約し、コストを大幅に削減できます。

Synthetic data

合成データを使う理由とは?

AI モデルトレーニングを強化

データギャップを克服し、AI モデルの開発を高速化すると同時に、テキスト、視覚、および物理的な AI モデルの学習に必要となるデータの取得とラベル付けにかかる全体的なコストを削減します。

プライバシーとセキュリティ

プライバシーの問題に対処し、実世界を表現する多様な合成データセットを生成することでバイアスを減らします。

向上

収集が不可能なまれだが重要なコーナーケースを含む多様なデータで学習することで、高精度で汎用的な AI モデルを作成します。

拡張可能

製造、自動車、ロボティクスなど、ユース ケースに応じて拡張できる自動パイプラインで、手順通りにデータ生成を行います。

合成データの生成

合成データは、ユース ケースに応じて、さまざまな方法で生成できます。

シミュレーション方法の使用  

倉庫ロボットのコンピュータ ビジョン AI モデルを学習させる場合、パレット ジャッキや保管ラックなどの物体を含む物理的に正確な仮想シーンを作成する必要があります。また、組立ライン上の視覚検査用の AI モデルを学習させるのであれば、コンベアベルトや生産中の製品などの物体を含む仮想シーンを作成する必要があります。

合成データ パイプラインを開発する上での主要な課題の 1 つは、シミュレーションと現実のギャップを埋めることです。ドメインをランダム化することで、物体の位置、テクスチャ、照明など、シーンのさまざまな側面を制御することができ、このギャップを埋めることができます。

NVIDIA Omniverse™ Cloud Sensor RTX マイクロサービスは、センサーをシミュレートし、注釈付きの合成データを生成するシームレスな方法となります。あるいは、Omniverse Replicator SDK を使用して、カスタム SDG パイプラインを開発し始めることもできます。

生成 AI の利用

生成モデルを使用して、合成データ生成プロセスをブートストラップし、増大させることができます。テキストから 3D へと変換するモデルを使用すれば、3D アセットを作成して、3D シミュレーションシーンにデータを入力することができます。さらに、テキストから画像へと変換する生成 AI モデルを活用して、既存の画像 (シミュレーションから生成された画像や、実世界から手順に沿ってインペインティングやアウトペインティングを通じて収集した画像) を修正および補強することもできます。

Evian 2 405B や Nemotron-4 340B などのテキストからテキストを生成する生成 AI モデルは、医療、金融、サイバーセキュリティ、小売、通信分野向けの強力な LLM を構築するための合成データを生成するのに活用できます。

Evian 2 405B と Nemotron-4 340B はオープン ライセンスであり、開発者は学術的および商業的な用途に対して、生成されたデータを自由に所有し、柔軟に使用することができます。

ロボティクス シミュレーション

ロボティクスの分野では、合成データは、ロボットの知覚、操作、把持、または視覚検査に使用されるロボットに実装される AI モデルを学習させるために使用することができます。

クイック リンク

画像提供:Techman Robot

産業検査

製造部品の欠陥を検出することは、異常が微妙または稀であることが多く、ばらつきも大きいため、非常に困難です。傷や欠損、凹みなどの実際の欠陥に基づく合成データを作成し、製造工程の早期段階で欠陥を捉えるように AI モデルを学習させることができます。

Image courtesy of Delta Electronics

クイック リンク

画像提供:Edge Impulse

自動運転車両

周囲を安全に運行できる自律走行車を配備するには、膨大な量のトレーニングデータが必要ですが、これを実際に取得するのは非常にコストが高く危険を伴います。合成データを使用して、シミュレーション環境で自律走行車のソリューションを開発およびテストすることで、テストとトレーニングにかかる時間を短縮し、コストを削減することができます。

金融

合成データにより、機密性の高い金融情報を保護しながら、高度なリスク モデリングと不正検出が可能になります。この方法は、リスク評価、アルゴリズム取引、顧客サポートのための先進的 AI モデルの開発に不可欠で、業界に大きな変革をもたらします。

検索拡張世代 (RAG)

様々な業界の組織は、カスタマー エクスペリエンスを劇的に向上させ、業務効率を飛躍的に高めるために、ジェネレーティブ AI を積極的に導入しています。モデルが常に最新かつ信頼性の高い応答を提供できるよう、AI ワークフローには RAG パイプラインが実装されています。合成データ生成は、企業が自社の RAG 実装の品質を評価するのに役立ちます。

合成データ パートナー エコシステム

NVIDIA の技術を基盤に、エコシステム パートナーが独自の合成データ アプリケーションとサービスをどのようにして開発しているのかをご覧ください

合成データ企業

サービス提供パートナー

今すぐ始める

Omniverse Cloud API または SDK を使用して、ロボティクス シミュレーション、産業検査、自動運転車向けの独自の合成データ生成パイプラインを構築することができます。

関連情報

合成データトレーニング

コンピュータ ビジョン モデルトレーニング用の合成データを生成する方法がわかる、自習コースを受講しませんか。

合成データ ドキュメンテーション

合成データの生成を開始するには、Omniverse Replicator のドキュメントを参照してください。

合成データ生成 LLM トレーニング

開発者が商用アプリケーション向けの大規模言語モデル (LLM) をトレーニングするための合成データを生成するために使用できる、Llama 3.1 405BNemotron-4 340B のオープン モデルについて学びます。

合成データ生成プレイリスト

合成データ生成についてさらに学ぶには、NVIDIA GTC セッションをご覧ください。