음성 AI

대화형 AI 애플리케이션을 위한 음성 기반 인터페이스를 제공합니다.

혜택
활용 사례
솔루션
혁신
리소스

혜택
활용 사례
솔루션
혁신
리소스

음성 AI란 무엇인가요?

음성 AI는 사람들이 디바이스, 시스템 및 컴퓨터와 대화하여 삶을 단순화하고 증강할 수 있게 해줍니다. 대화형 AI에서 자동 음성 인식(ASR)과 텍스트 음성 변환(TTS)을 포함하여 음성을 텍스트로 변환하고 글자 단어로부터 인간과 같은 음성을 생성하여 가상 비서, 실시간 트랜스크립션, 대형 언어 모델(LLM) 및 검색 증강 생성(RAG)에 의해 구동되는 음성 검색과 같은 강력한 애플리케이션을 가능하게 합니다.

음성 AI 사용의 장점

세계적 수준의 정확도

음성 AI 모델 맞춤화로 구현되는 동급 최고의 정확도로 고객 경험을 독보적인 수준으로 향상하세요.

다중 언어 지원

고객이 말하는 언어로 음성 기반 애플리케이션을 제공하여 고객 기반을 확장하세요.

성능 및 확장성

온프레미스, 클라우드, 엣지 또는 임베디드 등 모든 인프라에서 즉시 확장할 수 있으며, 지연 시간은 짧고 처리량은 많은 애플리케이션을 통해 더 많은 고객에게 서비스를 제공하세요.

유니크하면서 자연스러운 목소리

브랜드의 고유한 목소리로 빠르고 의미 있는 참여를 유도하여 고객 서비스에 활력을 불어넣을 수 있습니다.

무료 E-Book: 음성 AI 애플리케이션 구축

대화형 AI 애플리케이션을 위한 실시간 음성 AI 파이프라인을 구축하고 배포하는 방법을 알아보세요.

백서 다운로드

GTC 2024 세션

음성 AI 쉽게 이해하기

자동 음성 인식 및 텍스트 음성 변환과 같은 음성 AI 기술이 오늘날 수백만 대화를 자동화하는 방법을 알아보세요.

온디맨드 시청하기

음성 및 생성형 AI 개발자의 날

LLM 및 RAG 애플리케이션과 함께 음성 및 번역 AI를 사용하여 챗봇을 강력한 다국어 가상 비서 및 아바타로 변환하는 방법을 배우세요.

온디맨드 시청하기

다국어 멀티미디어를 음성 AI로 변환

NVIDIA® Riva 음성 인식, 텍스트 음성 변환 및 번역을 사용하여 특정 언어로 자막 및 더빙을 추가하는 방법을 알아보세요.

온디맨드 시청하기

음성 AI 사용 방법

한 번에 여러 화자 전사하기

기존의 음성-텍스트 알고리즘이 진화하여 이제 회의, 강의 및 일상 대화의 전사가 가능해졌으며, 여러 명의 화자를 동시에 식별하고 각자의 말에 레이블을 지정할 수 있게 되었습니다. NVIDIA 음성 AI 기술 및 SDK를 사용하면 콜센터 대화 및 화상 회의용으로 정확한 전사를 만들거나, 의사와 환자 간의 상호 작용 중에 임상 노트를 자동으로 작성할 수 있습니다.

NVIDIA Riva: 자체 음성 및 번역 AI 애플리케이션을 구축

가상 및 초지능 어시스턴트 만들기

다국어 가상 어시스턴트는 콜센터의 고객 문제 해결부터 스마트 홈 어시스턴트로 TV를 켜고, 차량 내 지능형 어시스턴트로 가장 가까운 주유소를 탐색하는 것까지 다양한 작업을 지원하며 음성 인터페이스를 통해 사용자와 소통합니다. LLM과 RAG를 기반으로 슈퍼 지능형 가상 비서와 챗봇을 구축하거나 NVIDIA Avatar Cloud Engine(ACE)을 활용하여 NVIDIA 음성 및 번역 AI를 아바타 애플리케이션에 통합하여 다양한 언어로 상호 작용할 수 있습니다.

RAG를 사용한 AI 챗봇 탐색 NVIDIA ACE를 통한 인터랙티브 아바타 개발 및 배포

목소리 브랜딩

기업에서는 인식할 수 있는 브랜드 음성을 통해 음성 및 언어 장애가 있는 고객을 포함한 모든 고객을 지원하면서, 고객과의 관계를 구축하는 애플리케이션을 만들 수 있습니다. NVIDIA 음성 및 번역 AI의 일부인 NVIDIA Custom Voice를 사용하면 몇 주 대신 몇 시간만에 원하는 언어로 브랜드에 고유하고 고품질의 음성 성격을 쉽게 만들 수 있으며 30분만에 음성 데이터를 기록할 수 있습니다.

Project Tokkio의 NVIDIA Omniverse ACE가 보여주는 전문적이고 자연스러운 질의응답

사용자 맞춤화할 수 있는 음성 AI 인터페이스 개발

사전 훈련 모델을 사용하여 훈련을 단축하기

최신 음성 AI 시스템은 대규모 데이터세트에서 훈련된 딥 뉴럴 네트워크(DNN) 모델을 사용합니다. 시간이 지남에 따라 음성 AI 모델의 규모가 너무 커지면 고성능 GPU에서 PyTorch, TensorFlow 및 MXNet 등의 딥 러닝 프레임워크를 사용해도 모델 훈련에 몇 주가 걸릴 수 있습니다.

NVIDIA 음성 및 번역 AI는 NVIDIA NGCTM 카탈로그에서 수십만 시간 동안 여러 공개 및 독점 데이터 세트에서 교육받은 미리 훈련된 프로덕션 품질의 모델을 제공합니다.

NVIDIA 사전 훈련 모델에 대해 자세히 알아보기

그림 1: 높은 정확도의 다국어 프리트레이닝 모델

그림 2: 엔드 투 엔드 NVIDIA NeMo 워크플로우.

더 높은 정확도를 위해 모델을 사용자 정의

많은 기업은 특정 대화형 애플리케이션에 원하는 다국어 정확도를 달성하기 위해 음성 및 번역 AI 모델을 맞춤화해야 합니다. 그러나 음성 AI 모델을 처음부터 맞춤화하려면 대규모 훈련 데이터 세트와 AI 전문 지식이 필요합니다.

개발 속도를 높이고 음성 모델을 고도로 맞춤화하려면 NVIDIA NeMo™를 사용하여 자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS) 및 자연어 처리(NLP) 파이프라인을 구축, 맞춤화 및 배포할 수 있습니다. NeMo를 사용하면 기존의 사전 구축된 음성 AI 모듈을 맞춤화하고, 확장하고, 구성하여 새로운 모델을 만들 수 있습니다. NeMo로 최적화된 모델은 온프레미스 또는 클라우드에서 음성 서비스로 쉽게 내보내고 배포할 수 있습니다.

가이드북을 다운로드해 맞춤형 음성 AI 시작하기

실시간 기술 개발을 통해 자연스러운 상호 작용을 달성

음성 AI 기술을 위해 기업은 항상 정확도와 실시간 성능 중에서 선택해야 했습니다. 예를 들어, 질문을 한 다음 응답을 기다리는 몇 초 동안 기다릴 수 없습니다. 또한, 대화형 AI 애플리케이션이 혼란을 일으키거나 횡설수설하는 것을 원하지 않습니다.

NVIDIA Riva를 통해 기업은 몇 밀리초 이내에 세계 수준의 정확도를 달성하고 음성 및 번역 AI 파이프라인을 실시간으로 실행할 수 있습니다. Riva는 NVIDIA NeMo로 미세 조정될 수 있는 NHC에 대한 SOTA 사전 훈련 모델을 제공하여 세계적인 수준의 정확도와 실시간 성능을 위한 최적화된 기술을 달성합니다.

기업이 프로덕션에 Riva를 배포한 방법 알아보기

그림 3: NVIDIA Riva 음성 AI 기술 역.

음성 AI의 최신 혁신을 살펴보기

음성 AI의 다국어화

음성 AI 애플리케이션과 파이프라인은 전 세계에 배포되려면 여러 언어, 방언 및 억양을 이해해야 합니다. 예를 들어, 미국과 대부분의 다른 국가에서는 사람들이 서로 다른 언어를 사용합니다. 콜센터와 같은 사용 사례에서는 고객이 현재 상황을 설명할 때 두 개 이상의 언어를 사용하는 경우가 있습니다. 다음 단계는 이러한 상황을 처리할 수 있는 음성 AI 애플리케이션을 구축하는 것입니다.

개발자는 각 언어마다 별도의 음성 모델을 사용하거나 한 번 이상 언어를 처리할 수 있는 단일 모델을 사용할 수 있습니다. 다른 언어로 된 ASR 모델에 대한 음성 인식 컬렉션 페이지에서 자세히 알아보세요.

클라우드에서 디바이스로 음성 AI 활용하기

기업이 음성 AI를 처음 사용했을 때, 모든 기업은 쉽게 설정하고 사용할 수 있도록 클라우드 서비스를 사용했습니다. 이후 데이터로 인한 개인 정보 보호 문제를 피하기 위해 점차 온프레미스 솔루션으로 전환하기 시작했죠. 오늘날, 장치 내 솔루션은 데이터를 비공개로 유지하는 것은 물론, 더 빠른 추론 및 비용 절감까지 실현하는 혁신입니다.

NVIDIA Riva를 사용하면 애플리케이션을 임베디드, 데이터센터 및 클라우드 환경에 배포하여 대화형 AI 애플리케이션을 위한 맞춤형 음성 AI 인터페이스를 개발할 수 있습니다.