NVIDIA CEO の Jensen Huang による GTC 基調講演の録画を視聴して、発表内容や最新情報をご確認ください。

今すぐ視聴する

NVIDIA On-Demand

This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

詳細

字幕

LLMの利用の裾野の広がりともに、独自に構築したモデルを効率的にサービングするために、様々な推論ライブラリが利用されるようになった。
それら推論ライブラリの中でも、NVIDIAが提供するTensorRT-LLMは推論処理効率化のための技術が幅広く実装されており、さらにパラメータをきめ細かく設定することが可能になっている。
本講演では日本語LLMの評価を目的に構築されたllm-jp-evalを題材に、バッチ推論や量子化などの各種設定が推論速度や出力内容に与える影響についての評価結果を報告する。

イベント:

日付:

業界:

レベル:

言語: Japanese

地域:

Fill out this form to enjoy this content

Section

Section

名

姓

メールアドレス

組織名/大学名

NVIDIA から最新ニュース、お知らせ等を受け取る:

企業向けビジネスソリューション

開発者向けテクノロジ & ツール

(任意) 配信停止はいつでも可能です。

NVIDIA プライバシーポリシー

Follow Nvidia

TensorRT-LLMによる推論高速化

Fill out this form to enjoy this content