生成 AI を使用すると、ユーザーはさまざまな入力に基づいて新しいコンテンツを迅速に生成することができます。これらのモデルへの入力と出力には、テキスト、画像、音楽、アニメーション、3D モデルなどのデータを含めることができます。
生成 AI モデルは、ニューラル ネットワークを使用して既存のデータ内のパターンと構造を識別し、新しいオリジナル コンテンツを生成します。
生成 AI モデルの画期的な点の 1 つは、教師なし学習や半教師あり学習など、さまざまな学習アプローチをトレーニングに活用できることです。これにより、組織はラベル付けのない大量データをより簡単かつ迅速に活用して基盤モデルを作成できるようになりました。その名の通り、基盤モデルは、複数のタスクを実行できる AI システムのベースとして使用することができます。
基盤モデルの例として GPT-3 や Stable Diffusion などがあり、ユーザーは言語の力を活用できるようになります。例えば、GPT-3 を基にした ChatGPT は短いテキストを入力するとその依頼に基づいて文章を生成することができる人気のあるアプリケーションです。また、Stable Diffusion では、テキストを入力すると写真のような画像を生成をすることができます。
図 1: 生成 AI モデルを成功させるための 3 つの要件
生成モデルには複数の種類があり、それぞれの利点を組み合わせることで、さらに強力なモデルを作成できます
以下に内訳を示します。
図 2: 拡散 とノイズ除去のプロセス
Diffusion モデルは変分オート エンコーダー (VAE) モデルよりも学習に時間がかかることがありますが、この 2 段階のプロセスにより、無限ではないにしても数百ものレイヤーを訓練することができます。一般的に Diffusion モデルは生成 AI モデルを構築するときに最高性能の出力を提供します。
さらに、Diffusion モデルは大規模で高品質の出力を提供し、柔軟性があり、一般的なユース ケースに最適であると考えられているため、基盤モデルとしても分類されます。ただし、逆のサンプリング プロセスのため、基盤モデルの実行には時間と手間がかかります。
Diffusion モデルの数学の詳細については、こちらのブログ記事を参照してください。
2 つのモデルは一緒に訓練され、生成器がより優れたコンテンツを生成し、識別器が生成されたコンテンツを見分けるのがうまくなるにつれて、より賢くなります。この手順は繰り返され、生成されたコンテンツが既存のコンテンツと区別できなくなるまで、繰り返しのたびに両方が継続的に改善されます。
GAN は高品質のサンプルを提供し、出力を迅速に生成できますが、サンプルの多様性は弱いため、ドメイン固有のデータ生成には GAN の方がより適しています。
生成モデルの開発におけるもう 1 つの要素は、その基礎となるアーキテクチャです。最も人気のあるものの 1 つは Transformer ネットワークです。生成 AI の文脈でその仕組みを理解することが重要です。
Transformer ネットワーク: 回帰型ニューラル ネットワークと同様に、Transformer は、連続的な入力データを非連続的に処理するように設計されています。
Self-Attention と位置エンコーディングという 2 つのメカニズムにより、Transformer は、テキストベースの生成 AI アプリケーションに特に適しています。これらの技術はどちらも時間を表現するのに役立ち、アルゴリズムが長距離にわたって単語がどのように相互に関係するかに焦点を当てることができます。
図 3: Transformer を定義した 2017 年の論文の 8 名の共著者のうちの 1 名である Aidan Gomez 氏によるプレゼンテーションの画像 (出典).
Self-Attention 層は、入力の各部分に重みを割り当てます。重みは、残りの入力に対する文脈におけるその入力の重要性を示します。位置エンコーディングは、入力単語が出現する順序を表現します。
Transformer は、層とも呼ばれる複数の Transformer ブロックで構成されます。例えば、Transformer にはセルフアテンション (Self-Attention) 層、フィードフォワード (Feed-Forward) 層、正規化層があり、これらすべてが連携して、テキスト、タンパク質配列、さらには画像のパッチを含むトークン化されたデータのストリームを解読して予測します
生成 AI は、クリエイティブ、エンジニア、研究者、科学者などのワークフローを合理化するための強力なツールです。あらゆる業界や個人で活用できる可能性があります。
生成 AI モデルは、テキスト、画像、オーディオ、動画、コードなどの入力を受け取り、前述の方式のいずれかに新しいコンテンツを生成できます。たとえば、テキスト入力を画像に変換したり、画像を曲に変換したり、動画をテキストに変換したりできます。
図 4: この図は、各カテゴリ内で考えられる生成 AI のユース ケースを示しています。
進化する分野として、生成モデルはまだ初期段階で、以下のような分野で成長の余地があると考えられます。
NVIDIA、Cohere、Microsoft などの多くの企業が、こうした問題の解決に役立つサービスやツールを使用して、生成 AI モデルの継続的な成長と開発をサポートすることを目標を掲げています。これらの製品とプラットフォームは、モデルのセットアップや大規模な実行の複雑さを取り除きます。
生成 AI はさまざまな理由から重要です。生成 AI の主な利点には以下のようなものがあります。
全体として、生成 AI は幅広い業界やアプリケーションに大きな影響を与える可能性があり、AI 研究開発の重要な分野です。
注: この「生成 AI の利点とは?」セクションでは、生成モデルの機能をご紹介しました。これは、生成 AI モデルの ChatGPT によって執筆されました。