Canalizaciones de IA de habla de extremo a extremo

Una explicación en profundidad de ASR y TTS, los dos componentes principales de la IA de habla.

DESCARGAR AHORA

¿Qué incluye este libro electrónico?

El reconocimiento de voz automático (ASR) y el texto a voz (TTS) son las dos tecnologías de IA de habla más esenciales. Cada una de estas canalizaciones tecnológicas incluye varias etapas, como el preprocesamiento de datos, los modelos de deep learning y el posprocesamiento. Este libro electrónico detalla lo que ocurre en cada uno de sus componentes individuales y cómo evaluar el rendimiento de estas tecnologías.

¿Qué es el reconocimiento de voz automático?

ASR, también conocido como voz a texto, es el proceso de convertir automáticamente el audio hablado en forma escrita.

¿Cómo funciona un sistema de IA de habla?

¿Qué es el texto a voz?

TTS, también conocido como síntesis de voz, toma el texto como entrada y genera una voz sintetizada como la humana.

¿Cómo se utiliza la IA de habla en los sectores industriales?

¿Cómo evalúo ASR y TTS?

Las métricas, como la tasa de errores de palabras (WER) y la puntuación de opinión media (MOS), se utilizan para evaluar el rendimiento de las canalizaciones ASR y TTS, respectivamente.

Regístrate para realizar la descarga

Section

Section

Nombre

Apellidos

Dirección de correo electrónico profesional

Nombre de la organización/universidad

Quiero recibir las novedades y anuncios más recientes, así como más contenido de NVIDIA sobre:

Soluciones empresariales

Tecnología y herramientas para desarrolladores

(Opcional) Puedes cancelar la suscripción en cualquier momento.