Theses

Automatische Kategorisierung durch Vernetzungs-Muster in Wikipedia

Bachelorarbeit in der Abteilung Softwaretechnik



Motivation

Wikipedia stellt eine umfassende Datenquelle für Menschen-lesbare Informationen dar, ist aber für eine automatische Auswertung nur bedingt geeignet. Wikipedia besteht aus Artikeln, die einer oder mehreren Kategorien zugeordnet sein können. Diese Kategorien wiederum sind hierarchisch in Unter- und Ober-Kategorien angeordnet. Insbesondere diese Strukturierung ist allerdings für Menschen optimiert und lässt sich nicht direkt in eine maschinenlesbare "Wissensdatenbank" überführen.

Der Wikipedia-Artikel (engl.) zu Alan Turing gehört u.a. den Kategorien "20th-century mathematicians", "British cryptographers" und "Theoretical computer scientists" an, nicht aber der Kategorie "People". Die Kategorie "British cryptographers" ist allerdings eine Unter-Kategorie von "Cryptographers by nationality", welche wiederum eine Unter-Kategorie von "Cryptographers" ist. Über "Mathematicians by field", "Mathematicians", "Scholars and academics by discipline", "Scholars and academics" und "People by occupation" gelangt man schließlich zur Ober-Kategorie "People".

Leider kann man im Allgemeinen keine Zuordnung von Artikeln einer Unter-Kategorie ("Alan Turing" zu "British cryptographers") zu einer Ober-Kategorie ("People") annehmen. Beispielsweise wäre Alan Turing dann nämlich auch Mitglied in der Ober-Kategorie "Time" ("20th century mathematicians" --> "20th century in mathematics" --> "20th century in science" --> "20th century" --> "Centuries" --> "Units of time" --> "Time").

Es muss also eine Möglichkeit gefunden werden, einzelnen Artikeln relevante Ober-Kategorien zuzuordnen, die sich nicht (nur) auf die Unter-Kategorie-Beziehungen in Wikipedia stützt.


Aufgabenstellung

Ziel der Arbeit ist zunächst eine XML-basierte Extraktion der Wikipedia-Daten und eine Überführung in ein geeignetes Verarbeitungssystem. Dabei muss aufgrund der gewaltigen Datenmengen starker Fokus auf Resourcensparsamkeit und Laufzeiteffizienz gelegt werden. Anschließend sollen ausgehend von der Artikel/Kategorie-Beziehung und von der Unter-Kategorie/Ober-Kategorie-Beziehung Muster identifiziert werden, die eine verlässliche automatische Zuordnung von Artikeln zu relevanten Ober-Kategorien (z.B. "People", "Cities", "Languages", ...) ermöglichen.


Betreuer
Prof. Dr. Andreas Winter ()
Dr. Christian Schönberg ()


(Changed: 29 May 2024)  | 
Zum Seitananfang scrollen Scroll to the top of the page