LLMの利用の裾野の広がりともに、独自に構築したモデルを効率的にサービングするために、様々な推論ライブラリが利用されるようになった。
それら推論ライブラリの中でも、NVIDIAが提供するTensorRT-LLMは推論処理効率化のための技術が幅広く実装されており、さらにパラメータをきめ細かく設定することが可能になっている。
本講演では日本語LLMの評価を目的に構築されたllm-jp-evalを題材に、バッチ推論や量子化などの各種設定が推論速度や出力内容に与える影響についての評価結果を報告する。
レベル: 言語: Japanese
地域: