NVIDIA DGX H100 は 2023 年 9 月に導入が完了し、マルチモーダル AI の学習などにフル活用されている。加藤教授も NVIDIA DGX H100 の性能は期待以上だと顔をほころばす。「NVIDIA DGX H100 では 1 つの GPU あたりメモリが 80GB 使えるので、合計 640GB という大きなメモリを利用できます。ストレージなどの性能も向上しているので、トータルの学習速度はNVIDIA A100 を 4 基使っていた頃と比べて 4~5 倍になりました。それでもマルチモーダル AI の学習には 5 日間とかかるわけですが、NVIDIA DGX H100 がなければ研究がここまで進んでいなかったと思います」
NVIDIA H100 には、Transformer モデルの実行を加速する Transformer Engine が搭載されていることも、マルチモーダル AI の学習速度の向上に寄与していると、加藤教授は指摘した。また、マルチモーダル AI のような大規模なモデルは膨大な学習データが必要なので、ストレージの容量や速度も重要になる。加藤研究室では、 学習データを InfiniBand 経由での高速ストレージサーバーに置くことで、ストレージの性能を改善した。この高速ストレージサーバと NVIDIA DGX H100 を組み合わせたシステム構成によって、超汎用検査 AI の開発速度は大きく向上。既に一般知識は豊富だが外観検査に関する専門知識は乏しい LVLM に対して、外観検査の基準を例示して学習させることで、汎用的な外観検査が行えるモデルの作成に成功した。「いくつかの例を示すことで、マルチモーダル AI の強力な推論能力が働き、まるで人間のようにさまざまな対象について外観検査ができるようになるのです」汎用外観検査ができる AI はこれまでに例がなく、非常に素晴らしい成果だ。加藤教授はさらに、単に良品と不良品を判断するだけでなく、熟練検査員の知識を AI に学習させることで、不良品と判断した理由や、どこに不良があるといった指摘まで行ってくれる、さらに優れた超汎用検査 AI の実現に向けて研究を進めている。超汎用検査 AI の実現は、NVIDIA DGX H100 のような高い演算性能を持ったシステムが不可欠である。「我々は国内の一研究室としては、かなり大きな演算資源を所有していると思いますが、これはある意味とても恵まれている環境なんです。マルチモーダル AI を開発するには、最低でもこれくらいの演算資源が必要になります。上を見ればキリがありませんが、私たちもさらに AI 開発を加速するために、予算が許せば近いうちにもう 1 台 NVIDIA DGX H100 を導入したいと考えています」
岐阜大学工学部 電気電子・情報工学科 情報コース 教授
人工知能研究推進センター センター長
加藤 邦人 氏