대화형 AI 애플리케이션을 위한 음성 기반 인터페이스를 제공합니다.
음성 AI는 사람들이 디바이스, 시스템 및 컴퓨터와 대화하여 삶을 단순화하고 증강할 수 있게 해줍니다. 대화형 AI에서 자동 음성 인식(ASR)과 텍스트 음성 변환(TTS)을 포함하여 음성을 텍스트로 변환하고 글자 단어로부터 인간과 같은 음성을 생성하여 가상 비서, 실시간 트랜스크립션, 대형 언어 모델(LLM) 및 검색 증강 생성(RAG)에 의해 구동되는 음성 검색과 같은 강력한 애플리케이션을 가능하게 합니다.
음성 AI 모델 맞춤화로 구현되는 동급 최고의 정확도로 고객 경험을 독보적인 수준으로 향상하세요.
고객이 말하는 언어로 음성 기반 애플리케이션을 제공하여 고객 기반을 확장하세요.
온프레미스, 클라우드, 엣지 또는 임베디드 등 모든 인프라에서 즉시 확장할 수 있으며, 지연 시간은 짧고 처리량은 많은 애플리케이션을 통해 더 많은 고객에게 서비스를 제공하세요.
브랜드의 고유한 목소리로 빠르고 의미 있는 참여를 유도하여 고객 서비스에 활력을 불어넣을 수 있습니다.
대화형 AI 애플리케이션을 위한 실시간 음성 AI 파이프라인을 구축하고 배포하는 방법을 알아보세요.
최신 음성 AI 시스템은 대규모 데이터세트에서 훈련된 딥 뉴럴 네트워크(DNN) 모델을 사용합니다. 시간이 지남에 따라 음성 AI 모델의 규모가 너무 커지면 고성능 GPU에서 PyTorch, TensorFlow 및 MXNet 등의 딥 러닝 프레임워크를 사용해도 모델 훈련에 몇 주가 걸릴 수 있습니다.
NVIDIA 음성 및 번역 AI는 NVIDIA NGCTM 카탈로그에서 수십만 시간 동안 여러 공개 및 독점 데이터 세트에서 교육받은 미리 훈련된 프로덕션 품질의 모델을 제공합니다.
그림 1: 높은 정확도의 다국어 프리트레이닝 모델
그림 2: 엔드 투 엔드 NVIDIA NeMo 워크플로우.
많은 기업은 특정 대화형 애플리케이션에 원하는 다국어 정확도를 달성하기 위해 음성 및 번역 AI 모델을 맞춤화해야 합니다. 그러나 음성 AI 모델을 처음부터 맞춤화하려면 대규모 훈련 데이터 세트와 AI 전문 지식이 필요합니다.
개발 속도를 높이고 음성 모델을 고도로 맞춤화하려면 NVIDIA NeMo™를 사용하여 자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS) 및 자연어 처리(NLP) 파이프라인을 구축, 맞춤화 및 배포할 수 있습니다. NeMo를 사용하면 기존의 사전 구축된 음성 AI 모듈을 맞춤화하고, 확장하고, 구성하여 새로운 모델을 만들 수 있습니다. NeMo로 최적화된 모델은 온프레미스 또는 클라우드에서 음성 서비스로 쉽게 내보내고 배포할 수 있습니다.
음성 AI 기술을 위해 기업은 항상 정확도와 실시간 성능 중에서 선택해야 했습니다. 예를 들어, 질문을 한 다음 응답을 기다리는 몇 초 동안 기다릴 수 없습니다. 또한, 대화형 AI 애플리케이션이 혼란을 일으키거나 횡설수설하는 것을 원하지 않습니다.
NVIDIA Riva를 통해 기업은 몇 밀리초 이내에 세계 수준의 정확도를 달성하고 음성 및 번역 AI 파이프라인을 실시간으로 실행할 수 있습니다. Riva는 NVIDIA NeMo로 미세 조정될 수 있는 NHC에 대한 SOTA 사전 훈련 모델을 제공하여 세계적인 수준의 정확도와 실시간 성능을 위한 최적화된 기술을 달성합니다.
그림 3: NVIDIA Riva 음성 AI 기술 역.
NVIDIA AI 프레임워크와 미리 훈련된 모델뿐만 아니라 Helm 차트, Jupyter Notebooks, 문서와 같은 리소스와 같은 AI 워크플로우를 포함하여 개발 시간을 단축하여 AI 솔루션을 구축할 수 있습니다.
대규모 배포를 위해서는 NVIDIA Riva를 구매해야 하지만, NVIDIA는 다양한 컨테이너, 모델 및 사용자 지정 도구도 무료로 제공합니다.
등록하고 NVIDIA의 최신 음성 AI 소식을 받아보세요.