世界モデルとは、物理法則や空間特性などの現実世界の力学を理解する生成 AI モデルです。 テキスト、画像、ビデオ、動きなどのデータを利用してビデオを生成します。 感覚データから運動、力、空間的な関係などの力学を表現し、予測する方法を学ぶことで、現実世界の環境の物理的特性を理解します。
基盤モデルは、幅広いタスクを達成するために、未分類の大規模なデータセットでトレーニングされた AI ニューラル ネットワークです。その汎用性により、幅広い生成 AI アプリケーションの開発を劇的に加速することができます。開発者は特定のデータセットで基盤モデルをファインチューニングし、以前よりもはるかに速いペースで生成 AI アプリケーションをカスタマイズし、反復作業を行うことができます。
世界基盤モデルを活用することで、開発者は基盤モデルのパワーを活用して、工場フロア、倉庫、高速道路などのアプリケーションや特定の分野向けの世界モデルを構築することができます。これは、視覚的、空間的、そして物理的に正確なデータを学習する必要があるフィジカル AI システムの開発にとって極めて重要です。
世界モデルは、自律マシンのトレーニングを安全に合理化し、規模を拡大するための仮想環境の役目をします。ビデオ データの生成、キュレーション、エンコードができるため、開発者は自律マシンをより効率的にトレーニングし、動的な環境を感知、認識、および対話させることができます。
世界基盤モデルは、自動運転車 (AV: Autonomous Vehicle) パイプラインのあらゆる段階に大きな利点をもたらします。事前にラベル付けされ、エンコードされたビデオ データを活用することで、開発者は周囲の車両、歩行者、物体の意図を理解できるように、AV スタックを簡単に厳選し、より正確にトレーニングすることができます。さらに、世界モデルは、歩行者、交通、道路状況などの新しいシナリオを生成できるため、新しい場所でのトレーニングや規模拡大のテストを実施する際に生じるギャップを解消するのに役立ちます。
世界基盤モデルは、ロボットが学ぶための仮想環境をシミュレーションすることで、空間知能の能力を構築するのに役立ちます。これらのモデルは、シミュレーションされた環境を活用することでデータの効率性を高め、迅速な反復や並行したトレーニング プロセスを可能にします。これにより、ロボットの学習曲線を速めるだけでなく、制御された環境での探索が可能になるため安全性も確保されます。
世界基盤モデルは、様々な入力形態を統合し、転移学習をサポートし、環境の変化に適応することで、より優れた汎化能力と適応性を提供します。これにより、ロボットは、広範囲にわたる高度な計画、物体との相互作用のシミュレーション、人間の行動を予測を行うことで、複雑なタスクを習得できます。さらに、シミュレーションされたシナリオや Actor-Critic 法を用いてポリシー学習を最適化します。
自動運転車のようなフィジカル AI システムのための世界モデルを構築するには、膨大なリソースと時間がかかります。まず、さまざまな地形や条件で世界中を走行して現実世界のデータセットを収集するには、ペタバイト単位のデータと時間、そして数百万時間ものシミュレーション映像が必要です。次に、このデータをフィルタリングして準備するには、数千時間にもおよぶ人的作業が必要です。最後に、これらの大規模モデルをトレーニングさせるには、GPU コンピューティングで数百万ドルの費用がかかるだけでなく、多数の GPU も必要になります。
世界基盤モデルは世界の基礎的な構造と力学を捉えることを目的としており、より洗練された推論および計画能力を実現します。膨大な厳選された高品質な現実世界のデータでトレーニングされたこれらのニューラル ネットワークは、フィジカル AI システムのための強力な物理シミュレーターおよび合成データ生成として機能します。
世界基盤モデルにより、開発者は生成 AI を 2D ソフトウェアの枠を超えて拡張し、その能力をフィジカル AI という形で現実世界にもたらすことができます。AI のパワーは従来デジタル分野で活用されてきましたが、世界モデルは AI を現実世界の体験に活用できるようにします。
世界モデルは、物体の動きや相互作用の基本原理を理解することで、より現実的で物理的に正確なビジュアル コンテンツを作成できます。これらのモデルは、ビデオ ゲームやインタラクティブな体験など、多くの用途でリアルな 3D 世界をオンデマンドで生成できる可能性を秘めています。 場合によっては、非常に高い精度の世界モデルからの出力を合成データ形式で取り出して、認識 AI のトレーニングに活用することもできます。
現在の AI ビデオ生成では複雑なシーンに対応することが難しく、原因と結果に対する理解も限られています。 しかし、世界モデルは、画家がキャンバスに筆跡を残すシミュレーションなど、視覚的なシナリオにおいて、原因と結果に対するより深い理解を示す可能性を示しています。
世界モデルを採用することで、フィジカル AI システムは、アクションをテストし、フィードバックを受け取ることで、さまざまな環境をトレーニングし、適応することができます。トレーニング データから学習することで、エージェントは現実世界におけるやり取りの必要性を減らし、サンプル効率を向上させることができます。 これにより、エージェントは潜在的な結果をシミュレーションすることで、未来の行動を「想像」して計画することができるため、より情報に基づいた意思決定が可能になります。 さらに、環境の力学を理解することで、エージェントは新しい状況を一般化し、より効率的に探索することができ、現実世界で実行することなく、潜在的な行動シーケンスを評価できるようになります。
大規模言語モデル (LLM) と世界モデルを統合することで、意味論的な理解が可能になり、システムは人間のような言語を解釈して生成することができるようになり、マルチモーダル機能が追加されることで、環境とのより包括的なやり取りが可能になります。
ポリシー学習には、最善のアクションを見つけるために戦略を模索することが必要です。ポリシー モデルは、ロボットのようなシステムが、現在の状態と世界全般の状態に基づいて最善のアクションを決定するのに役立ちます。 システムの状態 (位置など) をアクション (動きなど) と結び付け、目標を達成したり、パフォーマンスを向上させたりします。 ポリシー モデルは、モデルをファインチューニングすることで導き出すことができます。ポリシー モデルは、やり取りやフィードバックを通じて学習する強化学習で一般的に使用されます。
世界モデルは、高度な予測インテリジェンスを可能にし、システムが未来のシナリオを予測し、データに基づいた意思決定を行えるようにします。 先見性の生成、つまり過去のデータや文脈に基づいた予測シミュレーションを活用することで、これらのモデルは AI システムが最適な戦略を特定できるようにします。この機能は、効率性、適応性、安全性を向上させ、業界を問わず、動的で複雑な環境にとって非常に有益です。
世界基盤モデル内のコスト モデルは、さまざまなアクションや戦略の効率性や実現可能性を評価するのに役立ちます。 これらのモデルは、さまざまなシナリオをシミュレーションすることで、エネルギー消費、時間、リソースなど、さまざまな意思決定に関連するコストを推定できます。 この情報は、現実世界の用途における業務を最適化し、費用対効果の高い選択を行う上で非常に重要です。
世界モデルでは、3D 環境の動的な動作を学習するために、広範な現実世界のデータ、特にビデオや画像を必要とします。数十億のパラメーターを持つニューラル ネットワークがこのデータを分析し、環境の隠されている状態または内部の表現を作成および更新します。 これにより、ロボットは、ビデオから動きや奥行きを認識したり、隠れた物体を予測したり、起こり得る事象に備えたりするなど、変化を理解し予測することができます。ディープラーニングによる隠れ状態の継続的な改善により、世界モデルは新しいシナリオに適応できるようになります。
世界モデルを構築する際に必要となる主要コンポーネントをいくつか紹介します。
データ キュレーションは、世界モデルの事前トレーニングおよび継続トレーニングにおいて重要なステップであり、特に大規模マルチモーダル データを扱う場合に重要です。精度の高いモデルのトレーニングやファイン チューニングを行う際に高い品質を確保するため、画像やビデオ データのフィルタリング、アノテーション、分類、重複排除などの処理が含まれます。
ビデオ処理では、まずビデオをより小さなセグメントに分割してトランスコーディングし、次に品質フィルタリングをおこなって高い品質のデータを保持します。ビデオ埋め込みが冗長なデータを削除するためのセマンティック重複排除に対応しながら、最先端の視覚言語モデルが、主要なオブジェクトやアクションに注釈付けには使用されます。
その後、データは整理され、学習のためにクリーニングされます。このプロセスを通して、効率的なデータ オーケストレーションは、GPU 間の円滑なデータ フローを確保し、大規模なデータを処理し、高いスループットを達成します。
トークン化は、高次元の視覚データをトークンと呼ばれるより小さな単位に変換し、機械学習処理を容易にします。 トークナイザーは、画像やビデオ内のピクセルの冗長性をコンパクトで意味的なトークンへと変換し、限られたリソースにおける大規模生成モデルの効率的なトレーニングや推論を可能にします。主な方法には 2 つあります:
このアプローチは、モデルの学習速度とパフォーマンスを向上します。
基盤モデルは、さまざまな生成タスクを実行するために、膨大な未分類データセットで学習された AI ニューラル ネットワークです。開発者は、モデル アーキテクチャをゼロからトレーニングすることも、追加データを使用して下流タスクのために事前トレーニング済みの基盤モデルをファインチューニングすることもできます。
世界基盤モデルは、物理環境をシミュレーションするために広範な視覚データセットでトレーニングされた汎用 AI システムとして機能します。これは以下の 2 つのアーキテクチャを採用しています:
ファインチューニングされたフレームワークを使用することで、これらの汎用モデルは下流タスク向けに特化することができ、ロボティクス、自律システム、およびその他のフィジカル AI 領域における正確なアプリケーションを可能にします。
開発プロセスを簡単に開始し、効率化するために、開発者は、データ準備、モデルの学習、最適化、パフォーマンス評価、展開を行うためのライブラリ、SDK、ツールが含まれるトレーニング フレームワークを活用できます。