Navigation

'Ein hierarchisches Modell zur inhaltsbezogenen Audio-Klassifikation'

Masterarbeit:  Steffen Kortlang

Abgabetermin: 24.01.2011

Gutachter: Prof. Dr. Dr. Birger Kollmeier, Dr. Jörn Anemüller


Zusammenfassung

Üblicherweise wird in der hierarchischen Klassifikation (in Abgrenzung zur flachen oder direkten Klassifikation) das System in kleinere, unabhängige und im Allgemeinen einfacher zu lösende Klassifikationsprobleme zerlegt und für jeden der Hierarchie inneliegenden Knoten ein Klassifikator bestimmt und trainiert. Anwendung findet dies klassischerweise in der automatischen Genreklassifikation oder der Text- bzw. Dokumentenklassifikation. Vorgestellt wird ein System zur inhaltsbezogenen Audioklassifikation mit benutzerdefinierter Taxonomie. Dieses ordnet ein Signal zunächst groben Kategorien (Sprache, Musik oder Geräusch) zu, um anschließend eine spezifische Klassifikation durchzuführen, wie beispielsweise in der Sprechererkennung oder Musikgenreklassifikation üblich. Es wird ein hierarchischer, Gaußscher Klassifizierer als Baum von flachen Gaußschen Klassifikatoren mit eigener Featureauswahl und eigenen Wahrscheinlichkeitsdichten vorgestellt. Zwar multiplizieren sich für die Berechnung der akkumulativen Klassifikationsrate beim hierarchischen Ansatz die Fehlerraten der Ebenen, allerdings ist so unter anderem eine knotenspezifische Wahl der besten Features möglich. Um das Potential eines hierarchischen Ansatzes auszuschöpfen, wird daher ein besonderer Wert auf die Implementation einer umfassenden Datenbank von Features sowie auf den Vergleich verschiedener Algorithmen zur Featureauswahl gelegt. Zunächst wird in Kapitel 1 eine Definition von hierarchischer Klassifikation versucht und Vor- und Nachteile benannt. Nachfolgend erfolgt mit einer Auflistung von Arbeiten zu dem Thema ein Überblick zum Stand der Forschung. Die theoretischen Grundlagen der (hierarchischen) Audioklassifikation werden in Kapitel 2 beschrieben. Auf die Software-Implementierung in Matlab wird in Kapitel 3 eingegangen. Dort folgt mit der Vorstellung der genutzten Audio-Taxonomie, der zur Klassifikation genutzten Features und der Merkmalsauswahl ein genauer Einblick in das verwendete System. In Kapitel 4 wird ein Vergleich zwischen den Klassifikationsraten von hierarchischem und flachem Ansatz geführt und so eine Aussage über Nutzbarkeit und Grenzen eines solchen Systems für unterschiedliche Klassifikationsszenarien getätigt. Es lassen sich verhältnismäßig hohe Klassifikationsraten über 90 % erzielen, wobei der hierarchische Ansatz im Mittel bessere Ergebnisse liefert als der flache. Zusätzlich erfolgt eine systematische Untersuchung zur Verbesserung des hierarchischen Modells anhand von Parametern und des Einflusses der benutzerdefinierten Taxonomie. Das vorgestellt Klassifikationssystem stellt daher eine gute Basis für weitere Entwicklungen dar.

Abstract

Hierarchical classification schemes (in contrast to the flat or direct approach) usually assume a classification problem to be separable into smaller, independent and in general easier-to-solve tasks. Motivated by its success in the field of automatic music genre classification and document classification, a hierarchical approach for content-based classification of music, speech and environmental sounds with a predefined, tree-structured taxonomy is presented in this thesis. For each node in the tree, an individual Gaussian classifier (GMM) is developed and trained with node-specific features. As the accumulative classification rates are multiplied for each node in the tree, the optimal feature sets for each node and tree level are selected in such a way that the overall error-rate is minimized. In order to tap the full potential of a hierarchical approach, a special value is led on the implementation of a huge amount of features as well as on the comparison of different feature selection algorithms. Firstly, in chapter 1, a definition of hierarchical classification is tried and advantages and disadvantages are listed. Consecutively, an overview of the current literature is given. The theoretical principles of the (hierarchical) audio classification are descriped in chapter 2. The implemented Matlab-based classification system is presented in chapter 3. It provides a detailed insight into the audio taxonomy, the extracted features and the feature subset selection. A first comparison between the classification rates of the hierarchical and the direct approach is made in chapter 4. With average classification rates over 90%, better results than in the literature can be achieved, whereat on average the hierarchical aproach provides even better outcomes than the flat. The results allow an assessment of the usability and limitations of such a system also for other classification scenarios. Additionally, a systematic investigation for the enhancement of the hierarchical model is made on the basis of the parameters and the influence of the user-defined taxonomy. The present classification system therefore provides a good basis for further developments.


Download Masterarbeit: PDF-Dokument [Download]



HuA-Webmastewhjqer (sin6ybamon.chrbmv3istu17soph.wjaberponvenix2ig7ng@uol6c0p.debmmgd) (Stand: 07.11.2019)