Pipelines mit End-to-End-Sprach-KI

Eine ausführliche Erklärung zu ASR und TTS, den beiden Hauptkomponenten der Sprach-KI.

JETZT HERUNTERLADEN

Was ist in diesem E-Book enthalten?

Automatische Spracherkennung (Automatic Speech Recognition, ASR) und Text-to-Speech (TTS) sind die beiden wichtigsten Technologien für Sprach-KI. Jede dieser technologischen Pipelines umfasst mehrere Stufen, z. B. die Vorverarbeitung von Daten, Deep-Learning-Modelle und die Nachverarbeitung. In diesem E-Book wird erläutert, was bei jedem der einzelnen Bestandteile passiert und wie die Leistung dieser Technologien bewertet werden kann.

Was ist Automatische Spracherkennung?

ASR, auch Bekannt als Sprache-zu-Text, ist das Verfahren zur automatischen Umwandlung von gesprochenem Audio in geschriebene Form.

Wie funktioniert ein System mit Sprach-KI?

Was ist Text-to-Speech?

TTS, auch bekannt als Sprachsynthese, nutzt Text als Eingabe und generiert daraus eine menschenähnliche synthetisierte Stimme.

Wie wird Sprach-KI in verschiedenen Branchen eingesetzt?

Wie kann ich ASR und TTS bewerten?

Metriken wie Word Error Rate (WER) und Mean Opinion Score (MOS) werden verwendet, um die Leistung von ASR- und TTS-Pipelines zu bewerten.

Melden Sie sich für den Download an

Section

Section

Vorname

Nachname

Geschäftliche E-Mail-Adresse

Name der Organisation/Universität

Ich möchte aktuelle Neuigkeiten, Ankündigungen und weitere Informationen von NVIDIA zu folgenden Themen erhalten:

Business-Lösungen für Unternehmen

Technologie und Tools für Entwickler

(Optional). Eine Abmeldung ist jederzeit möglich.