大規模言語モデル (LLM) は、非常に大規模なデータセットを使用してコンテンツを認識、要約、翻訳、予測、生成することができるディープラーニング アルゴリズムです。
大規模言語モデルは主に、Transformer ネットワークと呼ばれるディープラーニング アーキテクチャのクラスを表します。Transformer モデルは、この文の単語のように、連続したデータ内の関係を追跡することで文脈と意味を学習するニューラル ネットワークです。
Transformer は、層とも呼ばれる複数の Transformer ブロックで構成されています。たとえば、Transformer には Self-Attention 層、Feed-Forward 層、正規化層があり、これらすべてが連携して推論時に入力を解読し、出力ストリームを予測します。層を積み重ねることで、より深い Transformer や強力な言語モデルを作成することができます。Transformer は、Google が 2017 年の論文「Attention Is All You Need」で初めて紹介しました。
図 1. Transformer モデルの仕組み。
2 つの重要な革新によって Transformer が大規模言語モデルに適したものになりました。それは、位置エンコーディングとセルフアテンションです。
位置エンコーディングは、与えられたシーケンス内で入力が発生する順序を埋め込みます。基本的に、文内の単語をニューラル ネットワークに順番にフィードするのではなく、位置エンコーディングのおかげで、単語を非順次にフィードすることができます。
セルフアテンションは、入力データを処理する際に、その各部分に重みを割り当てます。この重みは、文脈におけるその入力の残りの部分に対する重要性を示します。言い換えれば、モデルはすべての入力に同じ注意を払う必要がなくなり、実際に重要な入力の部分に集中できるようになります。ニューラル ネットワークが入力のどの部分に注意を払う必要があるのかを示すこの表現は、モデルが山のようなデータを選別して分析するにつれて、時間の経過とともに学習されます。
これら 2 つのテクニックを併用することで、異なる要素が長距離にわたって非連続的に相互に影響し合い、関連し合う微妙な方法や文脈を分析することができます。
データを非連続的に処理できるため、複雑な問題を複数の小さな同時計算に分解することができます。当然のことながら、GPU はこの種の問題を並行して解決するのに適しており、大規模なラベルなしデータセットや巨大な Transformer ネットワークの大規模な処理が可能になります。
歴史的に、AI モデルは認識と理解に焦点が当てられてきました。
しかし、数千億ものパラメーターを含むインターネット規模のデータセットで学習された大規模言語モデルによって、現在、人間のようなコンテンツを生成する AI モデルが可能となっています。
モデルは、信頼できる方法で読み取り、書き込み、コーディング、描画、創造することができ、世界で最も困難な問題を解決するために、人間の創造性を補強し、産業全体の生産性を向上します。
このような LLM のアプリケーションは、多数の用途にまたがります。たとえば、AI システムはタンパク質配列の言語を学習して、科学者が命を救うワクチンを開発するのに役立つ画期的かつ実行可能な化合物を提供することができます。
また、コンピューターは、人間が最も得意とすること、つまり、創造的になり、コミュニケーションし、何かを創り出すことを支援することができます。スランプに悩む作家は、大規模な言語モデルを使用して創造性をかき立てることができます。
または、ソフトウェア プログラマーは、LLM を利用して自然言語記述に基づいてコードを生成することで、より生産性を高めることができます。
コンピュート スタック全体の進歩により、ますます洗練された LLM の開発が可能になりました。 2020 年 6 月、OpenAI は、短い文章によるプロンプトでテキストとコードを生成する 1,750 億のパラメーター を持つモデル、GPT-3 をリリースしました。 2021 年、NVIDIA と Microsoft は、5,300 億のパラメーターを持つ読解と自然言語推論のための世界最大のモデルの 1 つである Megatron-Turing Natural Language Generation 530B を開発しました。
LLM の規模が拡大するにつれて、その機能も拡大しています。テキストベースのコンテンツに対する LLM の使用例は、大きく以下のように分類できます。
生成 (例: ストーリーの執筆、マーケティング コンテンツ制作)
要約 (例: 法的な言い換え、会議メモの要約)
翻訳 (例: 言語間、テキストからコードの変換)
分類 (例: 有害性分類、センチメント分析)
チャットボット (例: オープンな質疑応答、仮想アシスタント)
世界中の企業が LLM を活用して新たな可能性を引き出しています。
大規模言語モデルはまだ初期段階にあり、その可能性に対する期待は非常に大きいです。ゼロショット学習機能を備えた単一のモデルは、人間のような思考を瞬時に理解して生成することで、考えられるほぼすべての問題を解決することができます。用途はあらゆる企業、商取引、業界を超えて、膨大な価値創造の機会を生み出します。
大規模言語モデルは、教師なし学習を使用して学習されます。教師なし学習では、モデルはラベルなしのデータセットを使用して、データ内のこれまで知られていなかったパターンを見つけることができます。これにより、AI モデルを構築する際の最大の課題の 1 つである大規模なデータのラベル付けも不要になります。
LLM は広範な学習プロセスを経ているため、モデルが特定のタスク向けに学習される必要がなく、代わりに複数の用途に対応することができます。このようなタイプのモデルは基盤モデルとして知られています。
多くの指示や学習を必要とせずに、さまざまな目的のテキストを生成する基盤モデルの能力は、ゼロショット学習と呼ばれます。この機能のさまざまなバリエーションには、ワンショット学習またはフューショット学習が含まれます。基盤モデルには、選択したユース ケースを理解し、より適切に実行するためにタスクがどのように達成できるかを示す 1 つまたはいくつかの例が与えられます。
大規模言語モデルを使用したゼロショット学習の優れた能力にも関わらず、開発者や企業は、これらのシステムを希望どおりに動作させたいという本質的な願望を持っています。これらの大規模言語モデルを特定のユースケースに展開ために、いくつかのテクニックを使用してモデルをカスタマイズして、より高い精度を達成することができます。一部のテクニックには、プロンプト チューニング、ファインチューニング、アダプターなどがあります。
図 2. 画像は、エンコーダー/デコーダー言語モデルの構造を示しています。
大規模言語モデルには、さまざまなタイプの用途に適したいくつかのクラスがあります。
大規模言語モデルの開発と維持に必要な多額の設備投資、大規模なデータセット、技術的専門知識、および大規模なコンピューティング インフラは、ほとんどの企業にとって参入の障壁となっていました。
図 3. Transformer モデルの学習に必要なコンピューティング。
NVIDIA は、大規模言語モデルの構築と展開を容易にするツールを提供しています。
課題はあるものの、大規模言語モデルの可能性は非常に大きいです。 NVIDIA とそのエコシステムは、消費者、開発者、企業が大規模な言語モデルのメリットを享受できるよう尽力しています。