Telecomunicaciones

IA de Habla de Clase Mundial para la Mejor Experiencia de Videoconferencia

Objectivo

Ofreciendo transcripciones precisas en tiempo real a millones de usuarios de videoconferencias, mejorando la eficiencia empresarial y la satisfacción del cliente.

Cliente

RingCentral

Caso de Uso

Transcripciones en Tiempo Real

Tecnología

NVIDIA DGX A100, NVIDIA NeMo, NVIDIA Riva, Servidor de Inferencia NVIDIA Triton 

Las Transcripciones Precisas Mejoran la Colaboración para "Trabajar Desde Cualquier Lugar"

Con cientos de millones de reuniones en línea diariamente, las videoconferencias se han convertido en una herramienta esencial para las empresas de hoy. Las aplicaciones de videoconferencia utilizan la transcripción en tiempo real para ofrecer funciones como subtítulos en vivo y resúmenes de reuniones. RingCentral, un proveedor líder de soluciones de comunicaciones unificadas como servicio (UCaaS), transcribe más de mil millones de minutos de reuniones para 200.000 usuarios simultáneos en su plataforma. Buscaban una solución de transcripción que pudiera manejar múltiples acentos, jerga de dominios específicos y entornos ruidosos con precisión y en tiempo real.

Solución de NVIDIA

RingCentral ajustó los modelos de reconocimiento de voz previamente entrenados y de última generación de NVIDIA a partir de datos personalizados patentados con NVIDIA NeMo, un framework de código abierto para crear modelos de IA conversacionales. Los modelos se implementaron en producción utilizando NVIDIA Riva, un SDK acelerado por GPU para implementar aplicaciones de voz basadas en IA de clase mundial.

Resultados en RingCentral

Resultados

  • La precisión aumentó en más del 10 por ciento

  • Mejor calidad de las tareas posteriores a la transcripción

Con la IA del habla de NVIDIA, el equipo de RingCentral logró una precisión impresionante para los clientes con acentos mundiales y diferentes vocabularios específicos de dominio, reduciendo la tasa de error de palabras (WER) en más del 10 por ciento. Los clientes han informado diferencias colosales en la calidad de las tareas posteriores a las transcripciones, como el resumen de reuniones y el análisis de sentimientos de videoconferencias y sesiones de centros de llamadas.

"Al utilizar la conversión de voz a texto de NVIDIA® Riva, podemos transcribir el audio de la reunión en tiempo real con alta precisión mientras ejecutamos simultáneamente miles de transmisiones, lo que se traduce en experiencias de reunión más atractivas para millones de usuarios de RingCentral".

Prashant Kukde
Vicepresidente Asociado, RingCentral