Navigation

"Auditory model based direction estimation of concurrent speakers from binaural signals"

Mathias Dietz, Stephan D. Ewert, Volker Hohmann
Speech Communication


Menschen können die Richtung von Schallquellen (z.B. sprechenden Personen) auch ohne diese zu sehen gut schätzen. Dadurch, dass Menschen zwei Ohren haben und sich der Schall zwischen den Ohren je nach Richtung der Schallquelle unterscheidet, können sie besonders den Azimuthalwinkel sehr präzise schätzen. Inzwischen gibt es auch sehr zuverlässige Computerprogramme zur Richtungsschätzung, jedoch funktionieren diese häufig ganz anders als die Richtungsschätzung beim Menschen. Der Algorithmus dieser Arbeit nimmt sich nicht die thoretisch optimale Signalverarbeitung, sondern die ebenfalls sehr gute Verarbeitung des menschlichen Hörsystems zum Vorbild. Man spricht daher auch von einem Hörmodell. Es wird gezeigt, dass das Modell bei bis zu fünf gleichzeitigen Sprechern deren Richtung auf 5° genau schätzen kann. Gegenüber typischen technisch motivierten Richtungsschätzern wurde (i) das Signal in auditorische Frequenzbänder zerlegt, (ii) die Phasensychronizität nur bis 1,4 kHz ausgewertet, (iii) die interaurale Zeitdifferenz nur bis zu einer halben Periodendauer berechnet und (iv) mit einer sehr hohen Zeitauflösung auf kontinuierlichen Zeitsignalen gearbeitet.

in press (published online)

Webmaskprterbxfn (katja.warnken@h08uonjl.dupyj0ebie) (Stand: 07.11.2019)