生成 AI とは?

生成 AI を使用すると、ユーザーはさまざまな入力に基づいて新しいコンテンツを迅速に生成することができます。これらのモデルへの入力と出力には、テキスト、画像、音楽、アニメーション、3D モデルなどのデータを含めることができます。

生成 AI の仕組みとは?

生成 AI モデルは、ニューラルネットワークを使用して既存のデータ内のパターンと構造を識別し、新しいオリジナルコンテンツを生成します。

生成 AI モデルの画期的な点の 1 つは、教師なし学習や半教師あり学習など、さまざまな学習アプローチをトレーニングに活用できることです。これにより、組織はラベル付けのない大量データをより簡単かつ迅速に活用して基盤モデルを作成できるようになりました。その名の通り、基盤モデルは、複数のタスクを実行できる AI システムのベースとして使用することができます。

基盤モデルの例として GPT-3 や Stable Diffusion などがあり、ユーザーは言語の力を活用できるようになります。例えば、GPT-3 を基にした ChatGPT は短いテキストを入力するとその依頼に基づいて文章を生成することができる人気のあるアプリケーションです。また、Stable Diffusion では、テキストを入力すると写真のような画像を生成をすることができます。

生成 AI モデルを評価するには?

生成 AI モデルを成功させる3 つの重要な要件:

品質: 特にユーザーと直接対話するアプリケーションでは、生成出力が高品質であることが重要です。例えば、音声生成では、音声品質が低いとその内容を理解することが難しくなります。同様に、画像生成においても、自然な画像と見分けが付かない高品質な出力であることが重要です。
多様性: 優れた生成モデルは、生成の品質を犠牲にすることなく、データ分布内の少数モードを捕えます。これは、学習済みモデルにおける望ましくないバイアスを軽減するのに役立ちます。
速度: 多くのインタラクティブアプリケーションでは、コンテンツ制作のワークフローで使用するためのリアルタイムの画像編集など、高速な生成が求められます。

図 1: 生成 AI モデルを成功させるための 3 つの要件

生成 AI モデルを開発するには?

生成モデルには複数の種類があり、それぞれの利点を組み合わせることで、さらに強力なモデルを作成できます

以下に内訳を示します。

Diffusion (拡散) モデル: ノイズ除去拡散確率モデル (DDPM) とも呼ばれる Diffusion モデルは、学習中の 2 段階のプロセスを通じて潜在空間内のベクトルを決定する生成モデルです。Forward Diffusion と Reverse Diffusion の 2 つのステップがあります。Forward Diffusion Process では学習データにランダムノイズがゆっくりと追加され、Reverse Diffusion Process ではノイズを反転させてデータサンプルを再構成します。完全にランダムなノイズから逆のノイズ除去プロセスを実行することで、新しいデータを生成することができます

図 2: 拡散とノイズ除去のプロセス

Diffusion モデルは変分オートエンコーダー (VAE) モデルよりも学習に時間がかかることがありますが、この 2 段階のプロセスにより、無限ではないにしても数百ものレイヤーを訓練することができます。一般的に Diffusion モデルは生成 AI モデルを構築するときに最高性能の出力を提供します。

さらに、Diffusion モデルは大規模で高品質の出力を提供し、柔軟性があり、一般的なユースケースに最適であると考えられているため、基盤モデルとしても分類されます。ただし、逆のサンプリングプロセスのため、基盤モデルの実行には時間と手間がかかります。

Diffusion モデルの数学の詳細については、こちらのブログ記事を参照してください。

変分オートエンコーダー (VAE): VAE は、通常エンコーダーとデコーダーと呼ばれる 2 つのニューラルネットワークで構成されます。
入力が与えられると、エンコーダーはそのデータをより小さく、より密度の高いデータ表現に変換します。この圧縮表現では、デコーダーが元の入力データを再構築するために必要な情報が保持され、無関係な情報は破棄されます。エンコーダーとデコーダーは連携して、効率的でシンプルな潜在データ表現を学習します。これにより、ユーザーは、新しいデータを生成するためにデコーダーを通じてマッピングできる新しい潜在表現を簡単にサンプリングできるようになります。
VAE は画像などの出力をより速く生成できますが、VAE によって生成される画像は Diffusion モデルほど詳細ではありません。
敵対的生成ネットワーク (GAN): 2014 年に発見された GAN は、最近の Diffusion モデルの成功以前は、3 つの方法論の中で最も一般的に使用される方法論であると考えられていました。 GAN は 2 つのニューラルネットワークを互いに戦わせます。新しいサンプルを生成する生成器と、生成されたコンテンツを本物 (ドメインから) か偽物 (生成されたもの) として識別するのを学習する識別器です。

2 つのモデルは一緒に訓練され、生成器がより優れたコンテンツを生成し、識別器が生成されたコンテンツを見分けるのがうまくなるにつれて、より賢くなります。この手順は繰り返され、生成されたコンテンツが既存のコンテンツと区別できなくなるまで、繰り返しのたびに両方が継続的に改善されます。

GAN は高品質のサンプルを提供し、出力を迅速に生成できますが、サンプルの多様性は弱いため、ドメイン固有のデータ生成には GAN の方がより適しています。

生成モデルの開発におけるもう 1 つの要素は、その基礎となるアーキテクチャです。最も人気のあるものの 1 つは Transformer ネットワークです。生成 AI の文脈でその仕組みを理解することが重要です。

Transformer ネットワーク: 回帰型ニューラルネットワークと同様に、Transformer は、連続的な入力データを非連続的に処理するように設計されています。

Self-Attention と位置エンコーディングという 2 つのメカニズムにより、Transformer は、テキストベースの生成 AI アプリケーションに特に適しています。これらの技術はどちらも時間を表現するのに役立ち、アルゴリズムが長距離にわたって単語がどのように相互に関係するかに焦点を当てることができます。

図 3: Transformer を定義した 2017 年の論文の 8 名の共著者のうちの 1 名である Aidan Gomez 氏によるプレゼンテーションの画像 (出典).

Self-Attention 層は、入力の各部分に重みを割り当てます。重みは、残りの入力に対する文脈におけるその入力の重要性を示します。位置エンコーディングは、入力単語が出現する順序を表現します。

Transformer は、層とも呼ばれる複数の Transformer ブロックで構成されます。例えば、Transformer にはセルフアテンション (Self-Attention) 層、フィードフォワード (Feed-Forward) 層、正規化層があり、これらすべてが連携して、テキスト、タンパク質配列、さらには画像のパッチを含むトークン化されたデータのストリームを解読して予測します

生成 AI の応用分野とは?

生成 AI は、クリエイティブ、エンジニア、研究者、科学者などのワークフローを合理化するための強力なツールです。あらゆる業界や個人で活用できる可能性があります。

生成 AI モデルは、テキスト、画像、オーディオ、動画、コードなどの入力を受け取り、前述の方式のいずれかに新しいコンテンツを生成できます。たとえば、テキスト入力を画像に変換したり、画像を曲に変換したり、動画をテキストに変換したりできます。

図 4: この図は、各カテゴリ内で考えられる生成 AI のユースケースを示しています。

最も人気のある生成 AI の用途:

言語: テキストは多くの生成 AI モデルの根幹であり、最も先進的な領域であると考えられています。言語ベースの生成モデルの最も一般的な例の 1 つは、大規模言語モデル (LLM) と呼ばれます。大規模言語モデルは、文章生成、コード開発、翻訳、さらには遺伝子配列の理解など、さまざまなタスクに活用されています。
オーディオ: 音楽、音声、会話も生成 AI における新しい分野です。例えば、テキスト入力を使用して曲やオーディオクリップのスニペットを開発したり、動画内のオブジェクトを認識してさまざまな映像に付随するノイズを作成したり、独自の音楽を作成したりできるモデルが含まれます。
ビジュアル: 生成 AI の代表的な用途のひとつが、画像分野です。3D 画像、アバター、動画、グラフなどのイラスト制作などを広範囲にわたります。さまざまな美的スタイルを持つ画像を柔軟に生成できるだけでなく、生成されたビジュアルを編集および変更するための技術もあります。生成 AI モデルは、創薬に役立つ新しい化合物や分子を示すグラフの作成、仮想現実または拡張現実向けのリアルな画像の作成、ビデオゲーム用の 3D モデルの作成、ロゴのデザイン、既存の画像の向上や編集などを行うことができます。
合成データ: 合成データは、データが存在しない場合、データが制限されている場合、または単に特殊なケースに最高の精度で対処できない場合に、AI モデルを訓練するのに非常に役立ちます。生成モデルによる合成データの開発は、おそらく、多くの企業のデータ課題を克服するための最も影響力のあるソリューションの 1 つでしょう。これはあらゆるモダリティとユースケースにまたがり、効率的に付与されたラベルを⽤いた学習⼿法と呼ばれるプロセスを通じて可能になります。生成 AI モデルは、追加の拡張学習データを自動的に生成するか、より少ないラベル付きデータで AI モデルを訓練し易くするデータの内部表現を学習することで、ラベル付けのコストを削減することができます。

生成モデルの影響は広範囲に及んでおり、その応用範囲は拡大する一方です。ここに挙げる例は、生成 AI が輸送、自然科学、エンターテイメントの分野の進歩と変革にどのように貢献しているかを示すほんの一部です。
自動車業界では、生成 AI は、シミュレーションや自動車開発のための 3D 世界やモデルの作成に役立つと期待されています。合成データは自動運転車の訓練にも利用されています。現実的な 3D 世界で自動運転車の能力を路上でテストできるため、リスクとオーバーヘッドを軽減しながら、安全性、効率性、柔軟性を向上させることができます。
自然科学の分野では生成 AI から大きな恩恵を受けています。ヘルスケア業界では、創薬に役立つ新しいタンパク質配列を開発することで、生成モデルは医学研究を支援しています。実務者は、スクライビング、医療コーディング、医用画像処理、ゲノム分析などのタスクの自動化からも恩恵を受けることができます。一方、気象業界では、生成モデルを使用して地球のシミュレーションを作成し、正確な天気予報や自然災害の予測に役立てることができます。これらの用途は、一般の人々にとってより安全な環境を作り出すのに役立ち、科学者は自然災害を予測し、より適切に備えることができるようになります。
ビデオゲームから映画、アニメーション、世界観の構築、仮想現実になど、エンターテインメント業界のあらゆる側面で生成 AI モデルを活用し、コンテンツ作成プロセスの効率化を図ることができます。クリエイターは、創造性と作業を補うツールとして生成モデルを活用しています。

生成 AI の課題とは?

進化する分野として、生成モデルはまだ初期段階で、以下のような分野で成長の余地があると考えられます。

コンピューティングインフラの規模: 生成 AI モデルは数十億のパラメーターを持ち、学習には高速かつ効率的なデータパイプラインが必要です。生成モデルの維持と開発には、多額の設備投資、技術的専門知識、大規模なコンピューティングインフラが必要です。例えば、Diffusion モデルの学習には数百万または数十億の画像が必要になる場合があります。さらに、このような大規模なデータセットを学習するには大規模な演算能力が必要であり、AI 実務者はモデルを学習させるために数百もの GPU を調達して活用できなければなりません。
サンプリング速度: 生成モデルの規模により、インスタンスの生成にかかる時間に遅延が生じることがあります。特に、チャットボット、AI 音声アシスタント、カスタマーサービスアプリケーションなどの人間とのやりとりが必要になるユースケースでは、会話が即時かつ正確に行われる必要があります。Diffusion モデルは高品質のサンプルを作成できることから人気が高まるにつれて、サンプリング速度の遅さがますます明らかになってきました。
高品質なデータの欠如: 多くの場合、さまざまなユースケース向けの合成データを生成するために生成 AI モデルが使用されます。しかし、大量のデータが毎日世界中で生成されている一方で、すべてのデータを AI モデルの学習に使用できるわけではありません。生成モデルを動作させるには、高品質で偏りのないデータが必要です。さらに、専門分野によってはモデルを学習させるのに十分なデータがありません。た例えば、3D アセットはほとんど存在せず、開発には費用がかかります。このような分野が進化し成熟するには、多大なリソースが必要になります。
データライセンス: 高品質なデータが不足しているという問題をさらに複雑にしているのは、多くの組織が既存のデータセットを使用するための商用ライセンスを取得したり、生成モデルを訓練するためのオーダーメイドのデータセットを構築したりするのに苦労していることです。これは非常に重要なプロセスであり、知的財産侵害の問題を回避するための鍵となります。

NVIDIA、Cohere、Microsoft などの多くの企業が、こうした問題の解決に役立つサービスやツールを使用して、生成 AI モデルの継続的な成長と開発をサポートすることを目標を掲げています。これらの製品とプラットフォームは、モデルのセットアップや大規模な実行の複雑さを取り除きます。

生成 AI の利点とは?

生成 AI はさまざまな理由から重要です。生成 AI の主な利点には以下のようなものがあります。

生成 AI アルゴリズムは、人間が作成したコンテンツと見分けがつかない、画像、動画、テキストなどのオリジナルコンテンツを新たに作成できます。これは、エンターテイメント、広告、クリエイティブアートなどの用途に役立ちます。
生成 AI アルゴリズムは、自然言語処理やコンピュータービジョンなどの既存の AI システムの効率と精度を向上させることができます。例えば、生成 AI アルゴリズムを使用して、他の AI アルゴリズムの訓練や評価に使用できる合成データを作成することができます。
生成 AI アルゴリズムは、新しい方法で複雑なデータを調査および分析でき、企業や研究者は生のデータだけでは分からない隠れたパターンや傾向を見つけることができます。
生成 AI アルゴリズムは、さまざまなタスクやプロセスの自動化と高速化に役立ち、企業や組織の時間とリソースを節約することができます。

全体として、生成 AI は幅広い業界やアプリケーションに大きな影響を与える可能性があり、AI 研究開発の重要な分野です。

注: この「生成 AI の利点とは?」セクションでは、生成モデルの機能をご紹介しました。これは、生成 AI モデルの ChatGPT によって執筆されました。

次のステップ

生成 AI をさらに深く掘り下げる

生成 AI モデルの開発の詳細については、NVIDIA 技術ブログをご覧ください。

生成 AI 関連のブログを読む

NVIDIA AI Playground で生成 AI を体験する

NVIDIA AI Playground で風景、アバター、歌などを生成します。

NVIDIA AI Playground にアクセスする

生成 AI の動画とチュートリアルをオンデマンドで視聴する

登録すると、生成 AI に関する無料のチュートリアル、ガイド、説明などを紹介した動画のプレイリストをご覧いただけます。

生成 AI に関する動画を見る