NVIDIA NIM을 통한 생성형 AI의 즉각적인 배포

NVIDIA에서 최적화 및 가속화한 API를 통해 커뮤니티에서 구축한 최신 AI 모델을 살펴보고, NVIDIA NIM™ 추론 마이크로서비스로 어디에나 배포해 보세요.

지금 체험하기 영상 보기

모델

지금 체험하기

업계를 선도하는 오픈 모델 경험

통합

API 호출만으로 사용 가능한 가속 AI

익숙한 API로 빠르게 시작하고 실행하세요.

Seamless Compatibility With Popular Libraries

자주 사용되는 라이브러리와의 원활한 호환성

단 3줄의 코드로 기존 도구 및 애플리케이션에서 NVIDIA API를 사용하세요.

선호하는 도구 사용하기

LangChain, LlamaIndex 등 선호하는 거대 언어 모델(LLM) 프로그래밍 프레임워크를 사용하여 작업하고 애플리케이션에 최신 AI 모델을 손쉽게 통합해 보세요.

이러한 도구와 NVIDIA NIM을 활용한 구축에 대해 자세히 알아보기

NIM Agent Blueprints

효과적인 생성형 AI 애플리케이션을 구축하는 데 필요한 모든 것. 각 Blueprint에는 NVIDIA NIM 및 파트너 마이크로서비스, 샘플 코드, 맞춤화 지침과 배포를 위한 Helm 차트가 포함되어 있습니다.

자세히 알아보기

지금 체험하기

어디에서나 실행

NVIDIA NIM으로 AI 배포 가속화

NVIDIA AI Enterprise의 일부인 NVIDIA NIM은 모든 클라우드 또는 데이터센터에서 기반 모델의 배포를 가속화하고 데이터를 안전하게 유지하는 데 도움이 되는 사용이 간편한 마이크로 서비스 세트입니다.

Accelerate Your AI Deployment With NVIDIA NIM

Learn More About NVIDIA NIM

5분 만에 NIM을 배포하는 방법 확인하기

NIM 배포

단일 명령으로 모델에 맞는 NIM을 배포하세요. 또한 파인 튜닝된 모델로 NIM을 쉽게 실행할 수 있습니다.

추론 실행

NVIDIA 가속 인프라를 기반으로 최적의 런타임 엔진을 사용하여 NIM을 가동하고 실행하세요.

구축

개발자는 단 몇 줄의 코드로 자체 호스팅 NIM 엔드포인트를 통합할 수 있습니다.

Deploy

Run

Build

docker run nvcr.io/nim/publisher_name/model_name

 
 curl -X 'POST' \ 
  'http://0.0.0.0:8000/v1/completions' \ 
  -H 'accept: application/json' \ 
  -H 'Content-Type: application/json' \ 
  -d '{ 
  "model" : "model_name", 
  "prompt" : "Once upon a time", 
  "max_tokens" : 64 
 }' 

 
 import openai 
 client = openai.OpenAI( 
  base_url = "YOUR_LOCAL_ENDPOINT_URL", 
  api_key="YOUR_LOCAL_API_KEY" 
 ) 
 chat_completion = client.chat.completions.create( 
  model="model_name", 
  messages=[{"role" : "user" , "content" : "Write me a love song" }], 
  temperature=0.7 
 ) 

로컬에서 시작하거나 쿠버네티스로 확장

단일 장치에서 데이터 센터 규모에 이르기까지 모든 NVIDIA 가속 인프라에 컨테이너화된 AI 마이크로서비스를 원활하게 배포합니다.

신뢰성을 갖춘 안전한 배포

지속적인 보안 업데이트를 비롯한 프로덕션급 런타임으로 실행하고, 엔터프라이즈급 지원을 기반으로 한 안정적인 API를 통해 비즈니스 애플리케이션을 실행할 수 있습니다.

비용 절감 및 탄소 발자국

NVIDIA 가속 인프라에서 지연 시간을 줄이고 처리량을 증가시키기 위해 지속적으로 최적화되는 AI 런타임을 바탕으로 프로덕션 환경에서의 모델 실행 운영 비용을 절감합니다.

처리량

NVIDIA NIM은 토큰 생성을 극대화하고, 피크 타임 동안의 동시 사용자를 지원하며, 응답성을 향상시키기 위해 최적화된 처리량과 지연 시간을 제공합니다.

구성: Llama3.1-8B- instruct, H100SXM 1개, 토큰 1000개 입력, 토큰 1000개 출력. 동시 요청: 200. 처리량 6,354토큰/초, TTFT 0.4초, ITL: 31ms. 처리량 2,265토큰/초, TTFT 1.1초, ITL: 85ms.

사용자 맞춤화

도메인 특화 요구 사항을 위한 NIM 마이크로서비스의 맞춤화

NVIDIA NeMo를 통한 파인 튜닝

NVIDIA NeMo™ 는 어디서든 맞춤형 생성형 AI를 개발할 수 있는 엔드투엔드 플랫폼입니다. 여기에는 훈련, 맞춤화 및 검색 증강 생성(RAG), 가드레일링, 데이터 큐레이션, 모델 사전 훈련을 위한 도구가 포함되어 있어, 기업이 쉽고 빠르고 비용 효율적으로 생성형 AI를 도입할 수 있습니다.

기술 블로그 읽기

튜토리얼 시작하기