Veranstaltung

Die hier angezeigten Termine und Veranstaltungen werden dynamisch aus Stud.IP heraus angezeigt.

Daher kontaktieren Sie bei Fragen bitte direkt die Person, die unter dem Punkt Lehrende/Dozierende steht.

Veranstaltung

Semester: Sommersemester 2024

5.04.313 Modern Speech Technology / Sprachtechnologie -

Veranstaltungstermin | Raum

Dienstag, 2.4.2024 14:00 - 16:00 | W02 1-156
Dienstag, 9.4.2024 14:00 - 16:00 | W02 1-156
Dienstag, 16.4.2024 14:00 - 16:00 | W02 1-156
Dienstag, 23.4.2024 14:00 - 16:00 | W02 1-156
Dienstag, 30.4.2024 14:00 - 16:00 | W02 1-156
Dienstag, 7.5.2024 14:00 - 16:00 | W02 1-156
Dienstag, 14.5.2024 14:00 - 16:00 | W02 1-156
Dienstag, 21.5.2024 14:00 - 16:00 | W02 1-156
Dienstag, 28.5.2024 14:00 - 16:00 | W02 1-156
Dienstag, 4.6.2024 14:00 - 16:00 | W02 1-156
Dienstag, 11.6.2024 14:00 - 16:00 | W02 1-156
Dienstag, 18.6.2024 14:00 - 16:00 | W02 1-156
Dienstag, 25.6.2024 14:00 - 16:00 | W02 1-156
Dienstag, 2.7.2024 14:00 - 16:00 | W02 1-156

Beschreibung

Der Kurs vermittelt die ingenieurmäßigen Werkzeuge für die moderne Sprachsignalverarbeitung. Die vermittelten Grundlagen ergänzen die physiologischen Aspekte der Spracherzeugung und die psychoakustischen Aspekte der Sprachwahrnehmung aus dem "Einführungskurs" um die technische Repräsentation von Sprache in Algorithmen, Hardware und Software. Dabei wird ein besonderes Augenmerk auf die Aufgabenstellung der Sprachsignalverbesserung in mehreren Facetten gelegt, wie etwa Geräuschfilterung, Hallreduktion und Echokompensation. Die benötigten Werkzeuge der modernen Sprachverarbeitung werden hier elementar und intuitiv vermittelt. Die mathematischen Anforderungen sind moderat bis gering. Die Übungen werden von den Studierenden selbst oder im Team und ggfs. mit komponentenweiser Unterstützung durch die Lehrenden in Software oder an der Tafel implementiert. Die Studierenden gewinnen so einen Voreinblick in die wissenschaftliche Arbeitsweise bei studentischen Qualifikationsarbeiten, wie etwa der Bachelorarbeit, sowie die ingenieurmäßige Arbeitsweise im industriellen Umfeld von Sprachverarbeitung.

1. Technische Repräsentation von Sprachsignalen

Bandbreite und Abtastrate, Abtastratenfehler, Digitale Auflösung
Einkanal-, Mehrkanal-, Binauralsignale
Akustisches Sensornetzwerk
Datenbanken für Sprache und Störung
Raumsimulation mit Spiegelquellen-Methode

2. Aufgabenstellung der Sprachsignalverbesserung

Organisationform wissenschaftlicher Signalverarbeitungswettbewerbe
Problemstellungen mit Störsignal, Raumhall oder Interferenz
Evaluationsmetriken: PESQ, STOI, SegSNR, POLQA und ViSQOL
Modellbasierte Verarbeitungsweise: Wiener-Filter, adaptive Methoden
DNN-basierte Verarbeitungsweise: FNN, CNN, RNN, LSTM

3. Hardware- und Softwarewerkzeuge für die Sprachverarbeitung

Entwicklungsumgebungen: Matlab, Python, TensorFlow
Kommerzielle Lösungen und Analyse: Nvidia, Krisp, Solicall, etc.
Geräte für die Sprachsignalerfassung und Verarbeitung: PC, Handy, R-Pi, Hearing Aid

4. Sprachkommunikation

Systeme zur Sprachkommunikation: Voice over IP, Telekonferenzen
Prinzipielle Funktion von Sprachcodecs: Quellen- und Kanal-Kodierung
Aktuelle Entwicklungen für die Sprachübertragung: WebRTC, Speex, EVS
Eigenschaften der Codecs: Abtastrate, Bitrate, Latenz, SNR, Komplexität im Vergleich
Übertragungsverluste und ihre Kompensation: Statistische Modellierung und Verschleierung

Lehrende

SWS
2

Art der Lehre
Ausschließlich Präsenz

Lehrsprache
englisch

(Stand: 19.01.2024) |

Sprache wechseln

Change Language

Hell-/Dunkelmodus

Light mode / Dark mode

Veranstaltung

Veranstaltung

5.04.313 Modern Speech Technology / Sprachtechnologie -