カリフォルニア州サンタクララ – 2024 年 2 月 28 日 – ServiceNow (NYSE: NOW)、Hugging Face、および NVIDIA は本日、パフォーマンス、透明性、およびコスト効率の新たな基準を設定するコード生成用のオープンアクセス大規模言語モデル ファミリーである StarCoder2 のリリースを発表しました。
StarCoder2 は、誰もが働きやすい世界を実現するデジタル ワークフローのリーディング カンパニーである ServiceNow が運営する BigCode コミュニティと、機械学習コミュニティがモデル、データセット、アプリケーションで共同作業を行う最も利用されているオープンソース プラットフォームである Hugging Face とのパートナーシップにより開発されました。
619 種類のプログラミング言語にてトレーニングされた StarCoder2 は、アプリケーションのソース コード生成、ワークフロー生成、テキスト要約などの特殊なタスクを実行するために、さらにトレーニングを行うことや、エンタープライズ アプリケーションに組み込むことができます。開発者は、コード補完、高度なコード要約、コード スニペット検索などの機能を使用して、イノベーションを加速し、生産性を向上させることができます。
StarCoder2 には 3 つのモデル サイズがあります。1 つは、ServiceNow によってトレーニングされた 30 億パラメータのモデル、2 つ目は Hugging Face によってトレーニングされた 70 億パラメータのモデルです。そして、NVIDIA により NVIDIA NeMo™ を使用して構築され、NVIDIA アクセラレーテッド インフラストラクチャ上でトレーニングされた 150 億パラメータのモデルです。より小さなバリエーションは、推論時に必要となる計算量がより少ないパラメータであるため、計算コストを節約しながら強力なパフォーマンスを提供します。実際、新しい 30 億パラメータ モデルは、オリジナルの StarCoder 150 億パラメータ モデルの性能に匹敵します。
ServiceNow の StarCoder2 開発チームのリーダーであり、BigCode の共同リーダーである Harm de Vries 氏は次のように強調しています。「StarCoder2 は、オープンな科学的コラボレーションと倫理的なデータ サプライ チェーンによる責任ある AI の実践の組み合わせの力を証明するものです。最先端のオープンアクセス モデルは、開発者の生産性を向上させるために、先行する生成 AI のパフォーマンスを改善し、開発者にコード生成 AI の利点への平等なアクセスを提供し、その結果、あらゆる規模の組織がより容易にその完全なビジネス ポテンシャルを満たすことを可能にします」
Hugging Face の機械学習エンジニア兼 BigCode の共同リーダーである Leandro von Werra 氏は次のように述べています。「Hugging Face、ServiceNow、NVIDIA が主導する共同作業により、強力なベース モデルのリリースが可能になり、コミュニティはデータとトレーニングの完全な透明性を確保しながら、幅広いアプリケーションをより効率的に構築できるようになりました。StarCoder2 は、オープンソースとオープン サイエンスの可能性を証明するものであり、責任ある AI の民主化を目指しています」
NVIDIA の応用研究担当バイスプレジデントであるジョナサン・コーエン (Jonathan Cohen) は次のように述べています。「あらゆるソフトウェア エコシステムには独自のプログラミング言語が存在するため、コード LLM はどんな業界においても効率性と革新性の飛躍的向上を促進することができます。NVIDIA とServiceNow および Hugging Face との協業は、安全で責任を持って開発されたモデルを導入し、説明可能な生成 AI への幅広いアクセスをサポートし、国際的なコミュニティに利益をもたらします」
StarCoder2 モデル、カスタム アプリケーション開発を強化
StarCoder2 モデルは、最先端のアーキテクチャと、透明性とオープンなガバナンスを優先する BigCode の厳選されたデータ ソースを共有し、大規模な責任あるイノベーションを可能にします。
StarCoder2 は、text-to-code や text-to-workflow 機能など、将来の AI 駆動型のコーディング アプリケーションの可能性を広げます。StarCoder2 は、より広範で深いプログラミング トレーニングにより、リポジトリのコンテキストを提供し、正確でコンテキストを考慮した予測を可能にします。これらの進化は、ベテランのソフトウェア エンジニアにも市民開発者にも同様に役立ち、ビジネス価値とデジタル トランスフォーメーションを加速します。
StarCoder2 の基盤は、Stack v1 と比較して 7 倍以上大きい Stack v2 と呼ばれる新しいコード データセットです。高度なデータセットに加えて、新しいトレーニング技術は、モデルがリソースの少ないプログラミング言語 (COBOL など)、数学、プログラム ソース コード ディスカッションを理解するのに役立ちます。
ビジネスに特化したデータで機能をファインチューニング
ユーザーは、NVIDIA NeMo や Hugging Face TRL などのオープンソース ツールと、業界または組織固有のデータを使用して、オープンアクセスの StarCoder2 モデルをファインチューニングすることができます。より複雑な要約や分類タスクを処理する高度なチャットボットの作成をはじめ、プログラミング タスクを迅速かつ簡単に完了できるパーソナライズされたコーディング アシスタントの開発、関連するコード スニペットの取得、テキストからワークフローへの機能の有効化などを行うことができます。
組織はすでに、基礎となる StarCoder モデルをファインチューニングして、各自のビジネスに特化したタスク固有の機能を作り始めています。
ServiceNow の text-to-code Now LLM は、150 億パラメータを持つ StarCoder LLM の特殊なバージョン上に構築され、同社のワークフローのパターン、ユースケース、プロセスに合わせてファインチューニングされ、トレーニングされています。Hugging Face は、StarChat アシスタントの作成にもこのモデルを使用しています。
AI におけるオープンな科学的コラボレーションを促進する BigCode
BigCode は、Hugging Face と ServiceNow が主導するオープンな科学的コラボレーションであり、コードのための LLM の責任ある開発に専念しています。
BigCode コミュニティは、ワーキング グループやタスク フォースを通じて StarCoder2 プロジェクトの技術的側面に積極的に参加し、30 億パラメータ モデルのトレーニングには ServiceNowの Fast LLM フレームワークを、70 億パラメータ モデルのトレーニングには Hugging Face の nanotron フレームワークを、150 億パラメータ モデルのトレーニングと最適化には NVIDIA NeMo クラウドネイティブ フレームワークと NVIDIA TensorRT-LLM ソフトウェアを活用しました。
責任あるイノベーションの育成は、BigCode の目的の中核であり、オープンなガバナンス、透明なサプライ チェーン、オープンソース ソフトウェアの使用、開発者がトレーニングからデータをオプト アウトする機能を通じて実証されています。StarCoder2 は、Inria によってホストされている Software Heritage のデジタル コモンズからのライセンスに基づき、責任を持って提供されたデータを使用して構築されました。
Software Heritage のディレクターである Roberto Di Cosmo 氏は次のように述べています。「StarCoder2 は、Software Heritage のソースコード アーカイブを使用して開発された最初のコード生成 AI モデルであり、コード用モデルの責任ある開発という私たちのポリシーに沿うように構築されています。ServiceNow、Hugging Face、NVIDIA の協業は、倫理的な AI 開発へのコミットメントを共有し、より大きな善のためにテクノロジを発展させることを例証しています」
StarCoder2 は、前モデルと同様に BigCode Open RAIL-M ライセンスで提供され、ロイヤリティフリーのアクセスと使用が可能です。さらに透明性とコラボレーションを促進するため、モデルのサポート コードは引き続き BigCode プロジェクトの GitHub ページに掲載されます。
すべての StarCoder2 モデルは Hugging Face からもダウンロード可能で、StarCoder2 150 億パラメータ モデルは、開発者がブラウザから直接、または API エンドポイントを通じて実験でき、NVIDIA AI Foundation モデルにて利用可能です。
StarCoder2 の詳細についてはこちらをご参照ください https://huggingface.co/bigcode