eBook
Pipelines d’IA vocale de bout en bout
Découvrez une présentation détaillée de l’ASR et de la TTS, les deux principaux composants de l’IA vocale.
La reconnaissance vocale automatique (ASR) et la synthèse vocale (TTS) sont les deux technologies d’IA vocale les plus importantes. Chacun de ces pipelines technologiques s’appuie sur des processus distincts tels que le prétraitement des données, l’utilisation de modèles avancés de Deep Learning et le post-traitement. Cet eBook présente les composants individuels de ces pipelines et dévoile comment évaluer les performances de ces technologies.
Qu’est-ce que la reconnaissance vocale automatique
La reconnaissance vocale automatique (ASR), également connue sous le nom de transcription textuelle, désigne le processus de conversion automatique de l’audio en forme écrite.
Qu’est-ce que la synthèse vocale ?
La synthèse vocale (TTS), également connue sous le nom de transcription vocale, désigne le processus de traitement d’un texte d’entrée pour générer une voix humaine de synthèse.
Comment évaluer l’ASR et la TTS ?
Des métriques telles que le taux d’erreur des mots (WER) et le score d’opinion moyen (MOS) sont respectivement utilisées pour évaluer les performances des pipelines d’ASR et de TTS.