Navigation

'Schätzung des Signal-Rausch-Verhältnisses mit einem statistischen Quellenmodell für Sprache'

Masterarbeit:  Niklas Harlander

Abgabetermin: 06.12.2007

Gutachter: Dr. Volker Hohmann, Prof. Dr. Jörg Bitzer


Zusammenfassung

Die hier vorliegende Masterarbeit soll einen neuen Algorithmus zur Schätzung des Signal-Rausch Verhältnisses (engl. signal-to-noise-ratio, SNR) basierend auf einem statistischen Quellenmodell für Sprache vorstellen. Dies wurde realisiert durch eine Zusammenführung der Algorithmen nach Ephraim und Malah [EM84] und dem neurophysiologisch motivierten Ansatz nach Tchorz [TK03]. Ziel ist es, durch Lernen und Klassifikation von auditorischen Sprachsignal-Merkmalen eine verbesserte SNR-Schätzung in verschiedenen Frequenzbändern zu erzielen. Zunächst wird das Sprachsignal in so genannte Amplituden-Modulations-Spektro-gramme (AMS) [KK94] transformiert, die sowohl Informationen über Mittenfrequenzen als auch Modulationsfrequenzen, berechnet in Analysefenstern der Dauer 32 ms, beinhalten. Anschließend werden die Kurzzeit SNR anhand der AMS-Muster durch ein neuronales Netzwerk, das mit einer großen Sprachdatenbank trainiert worden ist, geschätzt. Ein zweites neuronales Netzwerk kombiniert die SNR-Schätzungen von (i) dem auf AMS basierenden Ansatz und (ii) dem traditionellen Ansatz nach [EM84] Die finalen SNR-Schätzungen können zur Steuerung eines Wiener Filters verwendet werden. Die Ergebnisse zeigen, dass durch die Zusammenführung beider Algorithmen eine Verbesserung erzielt werden konnte.


Abstract

A short-time signal-to-noise estimation (SNR) scheme based on a statistical source-model for speech is proposed. The scheme is adapted from Ephraim/Malah[EM84] and Tchorz [TK03] and aims at improving SNR estimates in different frequency subbands by learning and classifying auditory-model based speech-signal features. First, the speech signal is transformed into so-called Amplitude-Modulation-Spectrograms (AMS) [KK94], which include information of both center frequencies and modulation frequencies within 32-ms analysis frames. Second, the short-time subband SNR is estimated from the AMS patterns by a neural network, which was trained based on a large speech database. A second neural net obtains final SNR estimates from (i) the AMS-based SNR estimates and (ii) the estimates derived from the traditional approach by [EM84]. The final SNR estimates can be used to steer a Wiener filter for noise suppression. Experimental results indicate a reasonable SNR-estimation accuracy.


Literaturverzeichnis

[EM84] Ephraim, Y. und Malah, D.: Speech Enhancement Using a Minimum Mean-Square Error Short-Time Spectral Amplitude Estimator. IEEE Signal Proc. Letters,ASSP-32(6):1109 - 1121, December 1984.

[KK94] Kollmeier, B. und Koch, R.: Speech Enhancement Based On Physiological And Psychoacoustical Models Of Modulation Perception And Binaural Interaction. Journal of the Acoustical Society of America, 95(3):1593 - 1602, March 1994.

[TK03] Tchorz, J. und Kollmeier, B.: SNR Estimation Based on Amplitude Modulation Analysis With Applications to Noise Surppression. IEEE Transaction on Speech and Audio Processing, 11(3):184 - 192, May 2003.

 



Download Masterarbeit: PDF-Dokument [Download]



HuA-Webwemastqubnbersc (simon.cefhro3qishc6jatoph.berning@umhnol.debs) (Stand: 07.11.2019)