大規模言語モデル (LLM) の解説

大規模言語モデル (LLM) は、非常に大規模なデータセットを使用してコンテンツを認識、要約、翻訳、予測、生成することができるディープラーニングアルゴリズムです。

大規模言語モデルとは?

大規模言語モデルは主に、Transformer ネットワークと呼ばれるディープラーニングアーキテクチャのクラスを表します。Transformer モデルは、この文の単語のように、連続したデータ内の関係を追跡することで文脈と意味を学習するニューラルネットワークです。

Transformer は、層とも呼ばれる複数の Transformer ブロックで構成されています。たとえば、Transformer には Self-Attention 層、Feed-Forward 層、正規化層があり、これらすべてが連携して推論時に入力を解読し、出力ストリームを予測します。層を積み重ねることで、より深い Transformer や強力な言語モデルを作成することができます。Transformer は、Google が 2017 年の論文「Attention Is All You Need」で初めて紹介しました。

図 1. Transformer モデルの仕組み。

2 つの重要な革新によって Transformer が大規模言語モデルに適したものになりました。それは、位置エンコーディングとセルフアテンションです。

位置エンコーディングは、与えられたシーケンス内で入力が発生する順序を埋め込みます。基本的に、文内の単語をニューラルネットワークに順番にフィードするのではなく、位置エンコーディングのおかげで、単語を非順次にフィードすることができます。

セルフアテンションは、入力データを処理する際に、その各部分に重みを割り当てます。この重みは、文脈におけるその入力の残りの部分に対する重要性を示します。言い換えれば、モデルはすべての入力に同じ注意を払う必要がなくなり、実際に重要な入力の部分に集中できるようになります。ニューラルネットワークが入力のどの部分に注意を払う必要があるのかを示すこの表現は、モデルが山のようなデータを選別して分析するにつれて、時間の経過とともに学習されます。

これら 2 つのテクニックを併用することで、異なる要素が長距離にわたって非連続的に相互に影響し合い、関連し合う微妙な方法や文脈を分析することができます。

データを非連続的に処理できるため、複雑な問題を複数の小さな同時計算に分解することができます。当然のことながら、GPU はこの種の問題を並行して解決するのに適しており、大規模なラベルなしデータセットや巨大な Transformer ネットワークの大規模な処理が可能になります。

大規模言語モデルが重要なのはなぜですか?

歴史的に、AI モデルは認識と理解に焦点が当てられてきました。

しかし、数千億ものパラメーターを含むインターネット規模のデータセットで学習された大規模言語モデルによって、現在、人間のようなコンテンツを生成する AI モデルが可能となっています。

モデルは、信頼できる方法で読み取り、書き込み、コーディング、描画、創造することができ、世界で最も困難な問題を解決するために、人間の創造性を補強し、産業全体の生産性を向上します。

このような LLM のアプリケーションは、多数の用途にまたがります。たとえば、AI システムはタンパク質配列の言語を学習して、科学者が命を救うワクチンを開発するのに役立つ画期的かつ実行可能な化合物を提供することができます。

また、コンピューターは、人間が最も得意とすること、つまり、創造的になり、コミュニケーションし、何かを創り出すことを支援することができます。スランプに悩む作家は、大規模な言語モデルを使用して創造性をかき立てることができます。

または、ソフトウェアプログラマーは、LLM を利用して自然言語記述に基づいてコードを生成することで、より生産性を高めることができます。

大規模言語モデルの例とは?

コンピュートスタック全体の進歩により、ますます洗練された LLM の開発が可能になりました。 2020 年 6 月、OpenAI は、短い文章によるプロンプトでテキストとコードを生成する 1,750 億のパラメーターを持つモデル、GPT-3 をリリースしました。 2021 年、NVIDIA と Microsoft は、5,300 億のパラメーターを持つ読解と自然言語推論のための世界最大のモデルの 1 つである Megatron-Turing Natural Language Generation 530B を開発しました。

LLM の規模が拡大するにつれて、その機能も拡大しています。テキストベースのコンテンツに対する LLM の使用例は、大きく以下のように分類できます。

生成 (例: ストーリーの執筆、マーケティングコンテンツ制作)
要約 (例: 法的な言い換え、会議メモの要約)
翻訳 (例: 言語間、テキストからコードの変換)
分類 (例: 有害性分類、センチメント分析)
チャットボット (例: オープンな質疑応答、仮想アシスタント)

世界中の企業が LLM を活用して新たな可能性を引き出しています。

医療研究者は、病気のパターンを明らかにし、結果を予測できるたんぱく質構造予測などのタスクのために、教科書、研究論文、患者の電子健康記録からのデータのコーパスに基づいて、ヘルスケアの大規模な言語モデルを学習させています。
小売業者は LLM を活用して、チャットボットを活用して顧客に優れた顧客体験を提供することができます。
開発者は LLM を利用してソフトウェアを記述し、ロボットに物理的な作業の実行方法を教えることができます。
ファイナンス担当者は LLM を使用して決算報告を要約し、重要な会議の記録を作成することができます。
マーケティング担当者は、顧客のフィードバックやリクエストを集めて整理したり、製品の説明に基づいて製品をカテゴリに分類したりするために LLM を学習させることができます。

大規模言語モデルはまだ初期段階にあり、その可能性に対する期待は非常に大きいです。ゼロショット学習機能を備えた単一のモデルは、人間のような思考を瞬時に理解して生成することで、考えられるほぼすべての問題を解決することができます。用途はあらゆる企業、商取引、業界を超えて、膨大な価値創造の機会を生み出します。

大規模言語モデルの仕組みとは?

大規模言語モデルは、教師なし学習を使用して学習されます。教師なし学習では、モデルはラベルなしのデータセットを使用して、データ内のこれまで知られていなかったパターンを見つけることができます。これにより、AI モデルを構築する際の最大の課題の 1 つである大規模なデータのラベル付けも不要になります。

LLM は広範な学習プロセスを経ているため、モデルが特定のタスク向けに学習される必要がなく、代わりに複数の用途に対応することができます。このようなタイプのモデルは基盤モデルとして知られています。

多くの指示や学習を必要とせずに、さまざまな目的のテキストを生成する基盤モデルの能力は、ゼロショット学習と呼ばれます。この機能のさまざまなバリエーションには、ワンショット学習またはフューショット学習が含まれます。基盤モデルには、選択したユースケースを理解し、より適切に実行するためにタスクがどのように達成できるかを示す 1 つまたはいくつかの例が与えられます。

大規模言語モデルを使用したゼロショット学習の優れた能力にも関わらず、開発者や企業は、これらのシステムを希望どおりに動作させたいという本質的な願望を持っています。これらの大規模言語モデルを特定のユースケースに展開ために、いくつかのテクニックを使用してモデルをカスタマイズして、より高い精度を達成することができます。一部のテクニックには、プロンプトチューニング、ファインチューニング、アダプターなどがあります。

図 2. 画像は、エンコーダー/デコーダー言語モデルの構造を示しています。

大規模言語モデルには、さまざまなタイプの用途に適したいくつかのクラスがあります。

エンコーダーのみ: これらのモデルは通常、分類やセンチメント分析など、言語を理解できるタスクに適しています。エンコーダーのみのモデルの例には、BERT (Transformer からの双方向エンコーダー表現) があります。
デコーダーのみ: このクラスのモデルは、言語とコンテンツの生成に非常に優れています。用途としては、ストーリーの執筆やブログの生成などがあります。デコーダー専用アーキテクチャの例には、GPT-3 (Generative Pretrained Transformer 3) があります。
エンコーダー/デコーダー: これらのモデルは、Transformer アーキテクチャのエンコーダーコンポーネントとデコーダーコンポーネントを組み合わせて、コンテンツの理解と生成の両方を行います。このアーキテクチャが適している用途には、翻訳や要約などがあります。エンコーダー/デコーダーアーキテクチャの例としては、T5 (Text-to-Text Transformer) があります。

大規模言語モデルの課題とは?

大規模言語モデルの開発と維持に必要な多額の設備投資、大規模なデータセット、技術的専門知識、および大規模なコンピューティングインフラは、ほとんどの企業にとって参入の障壁となっていました。

図 3. Transformer モデルの学習に必要なコンピューティング。

コンピューティング、コスト、および時間のかかるワークロード: LLM を維持および開発するには、多額の設備投資、技術的専門知識、および大規模なコンピューティングインフラが必要です。 LLM の学習には、数千の GPU と数週間から数か月の専用の学習時間が必要です。ある試算によると、1,750 億のパラメーターを持ち、3,000 億のトークンで学習させた GPT-3 モデルの 1 回の学習実行には、計算だけで 1,200 万ドル以上のコストがかかる可能性があると示されています。
必要なデータの規模: 前述したように、大規模なモデルの学習にはかなりの量のデータが必要です。多くの企業は、大規模な言語モデルを学習させるのに十分な大きさのデータセットにアクセスするのに苦労しています。この問題は、財務データや健康データなどのプライベートなデータが必要なケースではより深刻になります。実際は、モデルの学習に必要なデータが存在しない可能性さえあります。
技術的な専門知識: その規模の大きさゆえに、大規模言語モデルの学習と展開は非常に困難で、ディープラーニングのワークフロー、Transformer、分散型ソフトウェアとハードウェアに対する深い理解と、数千もの GPU を同時に管理する能力が必要です。

大規模言語モデルを使い始めるには?

NVIDIA は、大規模言語モデルの構築と展開を容易にするツールを提供しています。

NVIDIA AI Foundations の一部である NVIDIA NeMo サービスは、企業のハイパーパーソナライゼーションとインテリジェントな大規模言語モデルの大規模な展開のためのクラウドサービスです。
NVIDIA AI Foundations の一部である NVIDIA BioNeMo サービスは、創薬における生成 AI 向けのクラウドサービスで、研究者がドメイン固有の最先端の生成 AI および予測的な生体分子 AI モデルをカスタマイズして大規模に展開できるようにします。
NVIDIA Picasso サービスは、NVIDIA AI Foundations の一部であり、生成 AI を活用した画像、動画、および 3D アプリケーションを構築および展開するためのクラウドサービスです。
NVIDIA AI プラットフォームの一部である NVIDIA NeMo フレームワークは、数十億のパラメーターを持つ生成 AI モデルを構築、カスタマイズ、展開するためのエンドツーエンドのクラウドネイティブなエンタープライズフレームワークです。

課題はあるものの、大規模言語モデルの可能性は非常に大きいです。 NVIDIA とそのエコシステムは、消費者、開発者、企業が大規模な言語モデルのメリットを享受できるよう尽力しています。

次のステップ

NVIDIA の LLM ソリューション詳細を見る

NVIDIA が LLM ソリューションを通じて企業向けの大規模言語モデルの民主化をどのように支援しているかをご覧ください。

LLM の詳細を見る

LLM ビデオとチュートリアルをオンデマンドで視聴する

こちらの無料の大規模言語モデル動画のプレイリストでは、チュートリアルや解説からケーススタディ、ステップバイステップガイドまで、全てが含まれています。

LLM のビデオとチュートリアルを探索する

LLM の技術的知識を深める

大規模言語モデルの開発における詳細は、NVIDIA 技術ブログをご覧ください。

LLM 技術ブログを読む