Telecomunicações

IA de Fala de Classe Mundial para a Melhor Experiência de Videoconferência

Objetivo

Fornecer transcrições precisas em tempo real para milhões de usuários de videoconferência, melhorando a eficiência dos negócios e a satisfação do cliente.

Cliente

RingCentral

Caso de Uso

Transcrições em Tempo Real

Tecnologia

NVIDIA DGX A100, NVIDIA NeMo, NVIDIA Riva, Servidor de Inferência NVIDIA Triton

Transcrições Precisas Melhoram a Colaboração “Trabalhe em Qualquer Lugar”

Com centenas de milhões de reuniões online diariamente, a videoconferência tornou-se uma ferramenta essencial para as empresas atualmente. As aplicações de videoconferência usam transcrição em tempo real para oferecer recursos como legendas ao vivo e resumos de reuniões. RingCentral, fornecedor líder de soluções de comunicações unificadas como serviço (UCaaS), transcreve mais de um bilhão de minutos de reuniões para 200.000 usuários simultâneos em sua plataforma. Eles estavam procurando uma solução de transcrição para lidar com vários sotaques, jargões específicos de domínio e ambientes barulhentos com precisão e em tempo real.

Solução da NVIDIA

A RingCentral aperfeiçoou os modelos de reconhecimento de voz pré-treinados e de última geração da NVIDIA em dados personalizados proprietários com NVIDIA NeMo, um framework de código aberto para a construção de modelos de IA conversacionais. Os modelos foram implantados em produção usando NVIDIA Riva, um SDK acelerado por GPU para implantação de aplicações de fala de classe mundial baseados em IA.

Resultados na RingCentral

Resultados

  • Precisão aumentada em mais de 10 por cento

  • Melhor qualidade das tarefas referentes à transcrição

Com a IA de fala da NVIDIA, a equipe da RingCentral alcançou uma precisão impressionante para clientes com sotaques mundiais e diferentes vocabulários específicos de domínio, reduzindo a taxa de erro de palavras (WER) em mais de 10%. Os clientes relataram diferenças colossais na qualidade das tarefas posteriores às transcrições, como resumo de reuniões e análise de sentimentos de videoconferências e sessões de call center.

“Usando a conversão de voz em texto do NVIDIA® Riva, podemos transcrever o áudio da reunião em tempo real com alta precisão e, ao mesmo tempo, executar milhares de streams, o que se traduz em experiências de reunião mais envolventes para milhões de usuários do RingCentral.”

Prashant Kukde
Vice-Presidente Associado, RingCentral