Robust Speech

"Robust Speech Detection in Real Acoustic Backgrounds with Perceptually Motivated Features"

Jörg-Hendrik Bach, Jörn Anemüller, Birger Kollmeier, Speech Communication 2011 (in press)

Das Ziel dieser Arbeit war die robuste Unterscheidung von Sprache im Störgeräusch von reinem Störgeräusch mithilfe von statistischen Klassifikationsmethoden. Ein besonderer Fokus war die Robustheit dieser Klassifikation unter schwierigen Bedingungen, in diesem Fall schlechten Signal-Rauschabständen (SNR) und stark modulierten Störgeräuschen. Da Sprache sich besonders durch ihre Modulationseigenschaften gegenüber anderen akustischen Signalklassen auszeichnet, wurden Modulationsmerkmale (Amplitudenmodulationsspektrogramme, AMS) verwendet, um die
Unterscheidung durchzuführen. Dabei stellt sich heraus, dass diese Muster in sog. matched-train-test-Konditionen zwar noch nicht viel besser abschneiden als herkömmliche Merkmale (MFCC, RASTA-PLP), aber in mismatch-Konditionen, d.h. wenn die Testkondition nicht explizit
vorher trainiert wurde, deutlich besser abschneiden. Dabei wurde sowohl eine höhere Robustheit gegenüber veränderten SNR-Bedingungen als auch gegenüber unbekanntem Umgebungsrauschen festgestellt. Besonders letzteres ist wichtig im Bezug auf anwendungsorientierte Algorithmen z.B. in Hörhilfen, wo nicht jede Art von Umgebung, in der potentielle Anwender sich aufhalten mögen,   hartverdrahtet im Gerät "bekannt" sein kann.

Zum Paper

(Stand: 16.03.2023)  |