이 세션에서는 규모 있는 LLM 서비스를 운영하는 조직을 대상으로 자체 관리 중인 하드웨어 - 클라우드 또는 온프레미스에서 LLM 최적화 및 배포 과정을 통해 가시적인 효율성, 데이터 거버넌스, 비용 개선 효과를 얻을 수 있다는 점을 보여드립니다. 이 세션에서는 일반적으로 사용 가능한 하드웨어에서 실행할 수 있는 상용 라이센스가 있는 개방형 LLM에 대해 논의하고, 옵티마이저를 사용하여 지연 시간을 단축하고 처리량을 높여 컴퓨팅 요구 사항을 줄이는 방법을 보여드립니다. 참석자들은 비즈니스 요구사항에 맞게 자체 관리형 LLM을 확장할 수 있는 능력을 갖추게 됩니다. 더불어, 사용자가 LLM을 정의하고 멀티 노드 GPU에서 추론 최적화 TensorRT 엔진을 빌드할 수 있는 TensorRT-LLM의 최신 기술 업데이트를 함께 살펴봅니다.