Libro electrónico
Canalizaciones de IA de habla de extremo a extremo
Una explicación en profundidad de ASR y TTS, los dos componentes principales de la IA de habla.
El reconocimiento de voz automático (ASR) y el texto a voz (TTS) son las dos tecnologías de IA de habla más esenciales. Cada una de estas canalizaciones tecnológicas incluye varias etapas, como el preprocesamiento de datos, los modelos de deep learning y el posprocesamiento. Este libro electrónico detalla lo que ocurre en cada uno de sus componentes individuales y cómo evaluar el rendimiento de estas tecnologías.
¿Qué es el reconocimiento de voz automático?
ASR, también conocido como voz a texto, es el proceso de convertir automáticamente el audio hablado en forma escrita.
¿Qué es el texto a voz?
TTS, también conocido como síntesis de voz, toma el texto como entrada y genera una voz sintetizada como la humana.
¿Cómo evalúo ASR y TTS?
Las métricas, como la tasa de errores de palabras (WER) y la puntuación de opinión media (MOS), se utilizan para evaluar el rendimiento de las canalizaciones ASR y TTS, respectivamente.