Navigation

Gunnar Geissler

'Eine Methode zur Gesangsdetektion basierend auf musikalischen Merkmalen und Merkmalen aus den Frequenzmodulationen tonaler Komponenten'

Masterarbeit:  Gunnar Geißler

Abgabetermin: 23.11.2011

Gutachter: Prof. Dr. Steven van de Par, Dr. Jörn Anemüller


Zusammenfassung

Um Gesang in Musik zu detektieren reichen die Ansätze einer Speech Activity Detection nicht aus, da hier das Störgeräusch (die Instrumentalbegleitung) eine dem Gesang ähnliche harmonische und temporale Struktur aufweisen kann. Daher sind mit klassischen Merkmalen wie z.B. MFCC’s, dem spektralen Schwerpunkt oder der spektralen Veränderung keine zufriedenstellenden Resultate erreichbar. Um dennoch bessere Klassifikationsraten zu erzielen, sollen die Unterschiede der zeitlichen Entwicklung der Teilharmonischen von Instrumenten und Gesang in die Klassifikation einbezogen werden. Da die Teilharmonischen der meisten Sänger eine größere Frequenzmodulation aufweisen als die der meisten Instrumente, könnten Merkmale, die diese Modulationen beschreiben, eine Verbesserung der Klassifikation erzielen. Zu diesem Zweck werden aus den Teilharmonischen, über lokale spektrale Maxima, Tracks extrahiert. Um „spontane“ Tracks, die aus zufälligen Maxima resultieren, zu vermeiden, werden diejenigen Tracks zu einer Gruppe kombiniert, deren Frequenzänderungen stark miteinander korreliert sind. Anschließend werden die Modulationsmerkmale der gruppierten Tracks gemittelt. Anhand einer Database aus 47 Musikstücken verschiedener Genres und Interpreten ergibt sich, dass durch die entwickelten Merkmale die Klassifikationsrate um fast 5% verbessert werden konnte.


Abstract

The task to detect singing voice within instrumental accompaniment is difficult to realize and a standard speech activity detection isn’t sufficient, because of the spectral and temporal similarities between the accompaniment and the singing voice. With this in mind, features considering the harmonic structure of the signal (e. g. MFCC’s, spectral centroid) will not adduce satisfying results. This might be corrected by taking features into account, describing the temporal evolution of the harmonics frequencies. Since the harmonics produced by a singer will possess larger frequency modulations than those of most instrument, features describing these modulations could improve the classification. For this purpose, so-called tracks will be extracted representing the harmonics by usage of maxima in the local spectra. To avoid coincidental tracks, only tracks will be considered that are highly correlated with other tracks. The modulation features of these correlated tracks are averaged. Using a database with 47 songs of different genres (all by different artists), it is shown that the modulation features are improving the classification rate by nearly 5 %.

Download Masterarbeit: PDF-Dokument [Download]



HuA-We39nwbmast6mysmer (simofnayn.chkprin1wstophc4qk.bervi2uning@uzyolw7/e2.dzqmeovz) (Stand: 21.08.2020)