データ フライホイールとは、やりとりやプロセスから収集したデータを AI モデルの継続的な改良に利用するフィードバック ループのことであり、これにより、より良い成果とより価値の高いデータを生成することができます。
AI データ フライホイールは、組織の知識とユーザー フィードバックを統合することで AI モデルが継続的に改善されるループを作り出すことで機能します。モデルが出力を生成する際、フィードバックと新しいデータが収集され、それらがモデルの精緻化と強化に活用されます。このプロセスにはデータの選別と品質向上が含まれ、AI モデルの精度とパフォーマンスが一貫して向上することを保証します。
図 1:データ フライホイール:企業データを活用して AI システムを改善する、データ処理、モデル カスタマイズ、評価、ガードレール、デプロイメントの継続的なサイクル
さらに、AI ガードレールが導入されることでデータの整合性と信頼性が維持され、出力の正確性、コンプライアンス、安全性が確保されます。このフィードバックと改善の継続的なサイクルにより、AI モデルは時間とともにますます効果的になります。
このワークフロー プロセスには、以下の 6 つの重要なステップが含まれます:
1. データ処理: AI データ フライホイールは企業データから始まります。これにはテキスト文書、画像、動画、表、グラフなど、多様な形式があります。AI データ フライホイールでは、生データの抽出と精製のためのデータ処理が必要です。生データはさらにフィルタリングされ、低品質の文書、個人識別情報 (PII)、有害なデータが除去され、高品質なデータが生成されます。このキュレーションにより、アプリケーションの精度が向上します。
2. モデル カスタマイズ: ドメイン適応型事前学習 (DAPT)や教師ありファインチューニング (SFT) などの大規模言語モデル (LLM) 技術を使用することで、少ないリソース要件で迅速にドメイン固有の知識とタスク固有のスキルをモデルに追加できます。これにより、モデルは企業固有の語彙やコンテキストをより深く理解できるようになります。
3. モデル評価: 次に、モデルのパフォーマンスを評価し、その回答 (出力) がアプリケーションの要件に合致しているかを検証します。これら最初の 3 つのステップは反復的に行われ、モデルの品質が向上し、意図したアプリケーションに満足のいく結果が得られるようにします。
4. AI ガードレールの実装: カスタマイズされたモデルに AI ガードレールを追加することで、アプリケーションをデプロイする際に企業固有のプライバシー、セキュリティ、安全性の要件が満たされることを保証します。
5. カスタム モデルのデプロイ: 生成 AI とエージェント AI の両方のアプリケーションをデプロイする際、増加し続けるデータベースから情報を常に取得する必要があります。ユーザー フィードバックとシステム アクティビティが繰り返し収集されます。AI データ フライホイールを活用することで、アプリケーションとのやりとりの方法に基づいて組織的な知識を構築しながら、洗練されたより賢い回答を生成することができます。
6. 企業データの精製: その結果、組織のデータは人間と AI モデルのフィードバックから収集された新しいデータによって継続的に更新されます。このプロセスが繰り返されることで、データ処理にフィードバックされます。
現実世界の AI エージェント システムでは、数百から数千の AI エージェントが同時に協力してプロセスを自動化することがあります。データ フライホイールは、特にビジネス要件が変化する際、エージェント業務(新しいデータの確認など)を合理化するために不可欠です。これにより、AI エージェントの専門チームがリソースを最適化した計画を提供し、最小限の人的介入でそれらの計画を実行できるため、より円滑な AI エージェントの連携が保証されます。
エージェント AI の拡張性は、インテリジェント エージェントのパフォーマンスを向上させるための、データ キュレーション、モデル トレーニング、デプロイ、組織的知識の収集とレビューの自動化されたサイクルに依存しています。
さらに、AI アプリケーションには特定の責任を持つ多くの人間の協力者が関わっています:
職種 | 責務 |
---|---|
データ エンジニア | AI モデルの学習用に高品質なデータを生成するために、構造化データと非構造化データのキュレーションが必要である |
AI ソフトウェア開発者 | 専門的な目的のために AI モデルをさらに学習するには、キュレーションされたデータセットが必要である |
IT および MLOps チーム | 利用とアクセスの要件を考慮しながら、安全な環境でのモデル展開が必要である |
人間参加型 (HITL) AI システム | データベースが継続的にデータ エンジンにフィードバックされるため、生成された組織の知識を再検討し、データベースに一貫した調整を加える必要がある |
AI エージェントと生成 AI アプリケーションを導入する際、ソフトウェアの継続的な改善と適応性を推進するためにデータ フライホイールが必要です。例えば、ビジネス要件が変化したり複雑化したりすると、パフォーマンスとコストが成功を左右する差別化要因となることがよくあります。
効果的な AI データ フライホイールにより、組織は以下のことが可能になります:
競争優位性を維持するために、組織は新しいインタラクション データを収集/処理し、AI モデルを改良し、AI アプリケーションのパフォーマンスを段階的に向上させることができます。LLM から視覚言語モデル (VLM) まで、様々なデータを統合することができます。
開発チームはモデル トレーニングを高速化し、既存の基盤モデルを独自データでファインチューニングすることに集中することもできます。生成 AI マイクロサービスは、API 呼び出しによってこのプロセスをさらに簡素化します。
このアプローチにより、エージェントおよび生成 AI ソリューションの開発とデプロイに必要な時間とリソースを大幅に削減できます。
AI のためのデータ フライホイールの加速は、エージェント AI 技術に関連する依存関係に対処するために必要です。
例えば、フィードバックとロギングのための集中システムがなければ、システム パフォーマンスの追跡と分析が困難になり、データ フライホイールが減速する可能性があります。現実世界のシナリオを正確に反映していない評価データセットは、パフォーマンスの低いモデルにつながる可能性があります。
ナレッジ ベースが更新されるにつれて、システム フィードバックの関連性が低下し、フライホイールが継続的に改善することが難しくなる場合があります。人間の介入は有益ではあるものの、リソースを多く消費し、時間がかかります。これに対処することは、データ フライホイールを加速し、その効果を維持するために極めて重要です。
そのため、パフォーマンスに影響を与えるシステム レベルでの多くのインタラクションが発生している場合、加速が必要になります。例えば、生成 AI アプリケーションでは、精度と人間の好みの一致が重要です。エージェント AI アプリケーションでは、AI ナレッジ ワーカーによる合理化された計画とその実行が求められます。
運用要件 | 推奨事項 |
---|---|
学習データのレビューなど、リソースに負荷がかかる作業の促進 | ユーザー データ収集の集中と自動的な洞察の生成により、ユーザー データの分類と優先順位付けが、人間参加型 (HITL) の確認作業を効率化します。 |
モデルの改良による、エージェント AI および生成 AI アプリケーションの強化 | データ フライホイールは、Helm チャートのデプロイ、またはワークフローの特定の部分に対する API コールで強化することができます。 |
安全なデプロイメントの実行と企業データの保護 | GPU により高速化されたクラウドまたはプライベート データ センター上でエンドツーエンドのワークフローを実行することで、より高いセキュリティ、プライバシー、制御、および統合の柔軟性がもたらされます。 |
データ フライホイールを使用した次世代のエージェント AI および生成 AI アプリケーションの構築には、迅速な反復と組織データの活用が含まれます。
NVIDIA NeMo™ は、データ フライホイールを構築するためのエンドツーエンド プラットフォームであり、企業が最新の情報で AI エージェントを継続的に最適化することを可能にします。
NeMo は、企業の AI 開発者がスケールでデータをキュレーションし、一般的なファインチューニング技術で LLM をカスタマイズし、業界および独自のベンチマークでモデルを一貫して評価し、適切で根拠のある出力のためのガードレールを設定することを支援します。
NeMo プラットフォームには以下が含まれます: