E-Book
Pipelines mit End-to-End-Sprach-KI
Eine ausführliche Erklärung zu ASR und TTS, den beiden Hauptkomponenten der Sprach-KI.
Automatische Spracherkennung (Automatic Speech Recognition, ASR) und Text-to-Speech (TTS) sind die beiden wichtigsten Technologien für Sprach-KI. Jede dieser technologischen Pipelines umfasst mehrere Stufen, z. B. die Vorverarbeitung von Daten, Deep-Learning-Modelle und die Nachverarbeitung. In diesem E-Book wird erläutert, was bei jedem der einzelnen Bestandteile passiert und wie die Leistung dieser Technologien bewertet werden kann.
Was ist Automatische Spracherkennung?
ASR, auch Bekannt als Sprache-zu-Text, ist das Verfahren zur automatischen Umwandlung von gesprochenem Audio in geschriebene Form.
Was ist Text-to-Speech?
TTS, auch bekannt als Sprachsynthese, nutzt Text als Eingabe und generiert daraus eine menschenähnliche synthetisierte Stimme.
Wie kann ich ASR und TTS bewerten?
Metriken wie Word Error Rate (WER) und Mean Opinion Score (MOS) werden verwendet, um die Leistung von ASR- und TTS-Pipelines zu bewerten.