음성 AI

대화형 AI 애플리케이션을 위한 음성 기반 인터페이스를 제공합니다.


음성 AI란 무엇인가요?

음성 AI는 사람들이 디바이스, 시스템 및 컴퓨터와 대화하여 삶을 단순화하고 증강할 수 있게 해줍니다. 대화형 AI의 하위 집합으로, 자동 음성 인식(ASR) 및 텍스트 음성 변환(TTS)이 포함되어 있어 인간의 목소리를 텍스트로 변환하고 문자로 인간과 같은 목소리를 생성하여 가상 도우미, 실시간 전사, 음성 검색 및 질문 답변 시스템과 같은 강력한 기술을 구현할 수 있습니다.

음성 AI 사용의 이점

세계적 수준의 정확도

음성 AI 모델 맞춤화로 구현되는 동급 최고의 정확도로 고객 경험을 독보적인 수준으로 향상하세요.

다중 언어 지원

고객이 말하는 언어로 음성 기반 애플리케이션을 제공하여 고객 기반을 확장하세요.

높은 성능 및 확장성

온프레미스, 클라우드, 엣지 또는 임베디드 등 모든 인프라에서 즉시 확장할 수 있으며, 지연 시간은 짧고 처리량은 많은 애플리케이션을 통해 더 많은 고객에게 서비스를 제공하세요.

당신의 브랜드를 위한 독특하고 자연스러운 목소리

브랜드의 고유한 목소리로 빠르고 의미 있는 참여를 유도하여 고객 서비스에 활력을 불어넣을 수 있습니다.

무료 E-Book: 음성 AI 애플리케이션 구축

대화형 AI 애플리케이션을 위한 실시간 음성 AI 파이프라인을 구축하고 배포하는 방법을 알아보세요.

음성 AI가 사용되는 방식

Multi-Speaker Transcription

여러 화자의 말을 한번에 전사

기존의 음성-텍스트 알고리즘이 진화하여 이제 회의, 강의 및 일상 대화의 전사가 가능해졌으며, 여러 명의 화자를 동시에 식별하고 각자의 말에 레이블을 지정할 수 있게 되었습니다. NVIDIA 음성 AI 기술 및 SDK를 사용하면 콜센터 대화 및 화상 회의용으로 정확한 전사를 만들거나, 의사와 환자 간의 상호 작용 중에 임상 노트를 자동으로 작성할 수 있습니다.

Virtual Assistant Applications

가상 어시스턴트를 만드십시오.

가상 어시스턴트는 콜센터의 고객 문제 해결부터 스마트 홈 어시스턴트로 TV를 켜고, 차량 내 지능형 어시스턴트로 가장 가까운 주유소를 탐색하는 것까지 다양한 작업을 지원하며 음성 인터페이스를 통해 사용자와 소통합니다. NVIDIA Omniverse Avatar Cloud Engine(ACE)을 활용하여 사용이 간편한 딥 뉴럴 네트워크 기반 구성 요소를 위한 NVIDIA 음성 AI 기술을 인터랙티브 아바타 애플리케이션에 통합하여 정확하고 빠르며 자연스러운 상호 작용을 제공합니다.

NVIDIA Custom Voice

브랜드만의 목소리

기업에서는 인식할 수 있는 브랜드 음성을 통해 음성 및 언어 장애가 있는 고객을 포함한 모든 고객을 지원하면서, 고객과의 관계를 구축하는 애플리케이션을 만들 수 있습니다. 음성 AI의 일부인 NVIDIA Custom Voice를 사용하면 몇 시간에서 몇 주 내에 불과 30분 정도의 기록된 음성 데이터를 사용하여 브랜드에 고유한 고품질 음성인식자를 쉽게 만들 수 있습니다.

맞춤형 음성 AI 인터페이스 개발

사전 훈련된 모델을 사용하여 훈련 기간을 단축하세요.

최신 음성 AI 시스템은 대규모 데이터세트에서 훈련된 딥 뉴럴 네트워크(DNN) 모델을 사용합니다. 시간이 지남에 따라 음성 AI 모델의 규모가 너무 커지면 고성능 GPU에서 PyTorch, TensorFlow 및 MXNet 등의 딥 러닝 프레임워크를 사용해도 모델 훈련에 몇 주가 걸릴 수 있습니다.

NVIDIA 음성 AI는 NVIDIA DGX™ 시스템에서 수십만 시간 동안 여러 공개 및 독점 데이터세트에서 훈련된 NVIDIA NGC™ 카탈로그에 사전 훈련된 프로덕션급 모델을 제공합니다.

그림 1: 매우 정확한 사전 훈련 모델.

그림 2: 엔드 투 엔드 TAO Toolkit 워크플로우.

정확도를 높이려면 모델을 맞춤화하세요.

많은 엔터프라이즈에서는 특정 대화형 애플리케이션에서 원하는 정확도를 달성하기 위해 음성 AI 모델을 맞춤화하려고 합니다. 하지만 음성 AI 모델을 처음부터 맞춤화하려면 대개 대규모 훈련 데이터 세트와 AI 전문 지식이 필요합니다.

사전 AI 경험 없이 개발 속도를 높이고 음성 모델을 고도로 맞춤화하려면 코드가 짧은 AI 모델 개발 툴킷인 NVIDIA TAO Toolkit을 사용할 수도 있습니다. 이 툴킷은 사전 훈련된 모델에 검증된 전이 학습 접근 방식을 적용하고, 사용 사례에 맞게 음성 AI 모델을 미세 조정합니다. NVIDIA는 또한 연구원들이 최첨단 SOTA(음성 AI 모델) 음성 AI 모델을 구축할 수 있는 오픈 소스 툴킷인 NeMo를 제공합니다. NeMo 및 TAO Toolkit으로 최적화된 모델은 온 프레미스 또는 클라우드에서 NVIDIA® Riva에서 음성 서비스로 쉽게 내보내고 배포할 수 있습니다.

실시간 기술을 개발하여 자연스러운 상호작용을 달성하세요.

음성 AI 기술의 경우 기업은 항상 정확도와 실시간 성능 중 하나를 선택해야만 했습니다. 예를 들어, 질문을 던질 수도 없고 답을 들으려면 몇 초를 기다려야 했죠. 게다가 대화형 AI 애플리케이션이 횡설수설하거나 대화를 잘못 해석해도 곤란할 것입니다.

NVIDIA Riva를 사용하면 기업은 세계적 수준의 정확도를 달성하고 음성 AI 파이프라인을 몇 밀리초도 안 되는 시간에 실시간으로 실행할 수 있습니다. Riva는 세계적 수준의 정확도와 실시간 성능을 위한 최적화된 기술을 달성하기 위해 미세 조정을 위한 TAO Toolkit과 같은 로우 코딩 도구, NGC에서 SOTA 사전 훈련된 모델을 제공합니다.

그림 3:  NVIDIA Riva 음성 AI 기술 기능.

음성 AI의 최신 혁신 기술을 살펴보기

다국어를 구사하는 음성 AI

음성 AI 애플리케이션 및 파이프라인은 전 세계에 배포될 여러 언어, 방언 및 억양을 이해해야 합니다. 예를 들어, 미국과 대부분의 다른 나라에서 사람들은 다른 언어를 구사합니다. 콜센터와 같은 사용 사례에서는 고객이 두 개 이상의 언어를 사용하여 무슨 일이 일어나고 있는지 설명할 때가 있습니다. 다음 단계는 이러한 상황을 처리할 수 있는 음성 AI 애플리케이션을 구현하는 것입니다.

개발자는 각 언어에 대해 별도의 음성 모델 또는 하나 이상의 언어를 처리할 수 있는 단일 모델을 사용할 수 있습니다. 다양한 언어의 ASR 모델에 대해 음성 인식 컬렉션 페이지에서 자세히 알아보세요.

음성 AI를 클라우드에서 디바이스로

기업이 음성 AI를 처음 사용했을 때, 모든 기업은 쉽게 설정하고 사용할 수 있도록 클라우드 서비스를 사용했습니다. 이후 데이터로 인한 개인 정보 보호 문제를 피하기 위해 점차 온프레미스 솔루션으로 전환하기 시작했죠. 오늘날, 장치 내 솔루션은 데이터를 비공개로 유지하는 것은 물론, 더 빠른 추론 및 비용 절감까지 실현하는 혁신입니다. 

NVIDIA Riva를 사용하면 애플리케이션을 임베디드, 데이터센터 및 클라우드 환경에 배포하여 대화형 AI 애플리케이션을 위한 맞춤형 음성 AI 인터페이스를 개발할 수 있습니다.

교육 리소스에 액세스

음성 AI 소개

음성 AI 핵심 개념과 음성 기술 애플리케이션을 구축 및 배포하는 방법을 이해합니다.

대화형 AI를 이해

대화형 AI 앱에 음성 AI를 추가하는 방법과 훈련 및 추론 시간에 음성 AI를 맞춤 설정하는 방법을 알아보세요.

음성 AI 블로그를 살펴보기

음성 AI가 무엇인지, 시간이 지남에 따라 어떻게 변했는지는 물론, 주요 구성 요소, 과제 및 사용 사례 및 NVIDIA 음성 AI SDK에 대해 알아보세요.

NVIDIA Riva에 대해 자세히 알아보기

음성 AI 서비스를 구축하는 데 도움이 되는 NVIDIA Riva의 주요 기능을 알아보세요.

등록하고 NVIDIA의 최신 음성 AI 소식을 받아보세요.