Diffusion モデルは変分オート エンコーダー (VAE) モデルよりも学習に時間がかかることがありますが、この 2 段階のプロセスにより、無限ではないにしても数百ものレイヤーを訓練することができます。一般的に Diffusion モデルは生成 AI モデルを構築するときに最高性能の出力を提供します。
さらに、Diffusion モデルは大規模で高品質の出力を提供し、柔軟性があり、一般的なユース ケースに最適であると考えられているため、基盤モデルとしても分類されます。ただし、逆のサンプリング プロセスのため、基盤モデルの実行には時間と手間がかかります。
Diffusion モデルの数学の詳細については、こちらのブログ記事を参照してください。
- 変分オート エンコーダー (VAE): VAE は、通常エンコーダーとデコーダーと呼ばれる 2 つのニューラル ネットワークで構成されます。
- 入力が与えられると、エンコーダーはそのデータをより小さく、より密度の高いデータ表現に変換します。この圧縮表現では、デコーダーが元の入力データを再構築するために必要な情報が保持され、無関係な情報は破棄されます。エンコーダーとデコーダーは連携して、効率的でシンプルな潜在データ表現を学習します。これにより、ユーザーは、新しいデータを生成するためにデコーダーを通じてマッピングできる新しい潜在表現を簡単にサンプリングできるようになります。
VAE は画像などの出力をより速く生成できますが、VAE によって生成される画像は Diffusion モデルほど詳細ではありません。
- 敵対的生成ネットワーク (GAN): 2014 年に発見された GAN は、最近の Diffusion モデルの成功以前は、3 つの方法論の中で最も一般的に使用される方法論であると考えられていました。 GAN は 2 つのニューラル ネットワークを互いに戦わせます。新しいサンプルを生成する 生成器 と、生成されたコンテンツを本物 (ドメインから) か偽物 (生成されたもの) として識別するのを学習する 識別器 です。
2 つのモデルは一緒に訓練され、生成器がより優れたコンテンツを生成し、識別器が生成されたコンテンツを見分けるのがうまくなるにつれて、より賢くなります。この手順は繰り返され、生成されたコンテンツが既存のコンテンツと区別できなくなるまで、繰り返しのたびに両方が継続的に改善されます。
GAN は高品質のサンプルを提供し、出力を迅速に生成できますが、サンプルの多様性は弱いため、ドメイン固有のデータ生成には GAN の方がより適しています。
生成モデルの開発におけるもう 1 つの要素は、その基礎となるアーキテクチャです。最も人気のあるものの 1 つは Transformer ネットワークです。生成 AI の文脈でその仕組みを理解することが重要です。
Transformer ネットワーク: 回帰型ニューラル ネットワークと同様に、Transformer は、連続的な入力データを非連続的に処理するように設計されています。
Self-Attention と位置エンコーディングという 2 つのメカニズムにより、Transformer は、テキストベースの生成 AI アプリケーションに特に適しています。これらの技術はどちらも時間を表現するのに役立ち、アルゴリズムが長距離にわたって単語がどのように相互に関係するかに焦点を当てることができます。