Navigation

Optimierung der Wikipedia-Struktur für die Kategorisierung von Informationen

Bachelorarbeit in der Abteilung Softwaretechnik



Motivation

Wikipedia stellt eine umfassende Datenquelle für Menschen-lesbare Informationen dar, ist aber für eine automatische Auswertung nur bedingt geeignet. Wikipedia besteht aus Artikeln, die einer oder mehreren Kategorien zugeordnet sein können. Diese Kategorien wiederum sind hierarchisch in Unter- und Ober-Kategorien angeordnet. Insbesondere diese Strukturierung ist allerdings für Menschen optimiert und lässt sich nicht direkt in eine maschinenlesbare "Wissensdatenbank" überführen.

Der Wikipedia-Artikel (engl.) zu Alan Turing gehört u.a. den Kategorien "20th-century mathematicians", "British cryptographers" und "Theoretical computer scientists" an, nicht aber der Kategorie "People". Die Kategorie "British cryptographers" ist allerdings eine Unter-Kategorie von "Cryptographers by nationality", welche wiederum eine Unter-Kategorie von "Cryptographers" ist. Über "Mathematicians by field", "Mathematicians", "Scholars and academics by discipline", "Scholars and academics" und "People by occupation" gelangt man schließlich zur Ober-Kategorie "People".

Leider kann man im Allgemeinen keine Zuordnung von Artikeln einer Unter-Kategorie ("Alan Turing" zu "British cryptographers") zu einer Ober-Kategorie ("People") annehmen. Beispielsweise wäre Alan Turing dann nämlich auch Mitglied in der Ober-Kategorie "Time" ("20th century mathematicians" --> "20th century in mathematics" --> "20th century in science" --> "20th century" --> "Centuries" --> "Units of time" --> "Time").

Es muss also eine Möglichkeit gefunden werden, einzelnen Artikeln relevante Ober-Kategorien zuzuordnen, die sich nicht (nur) auf die Unter-Kategorie-Beziehungen in Wikipedia stützt.

Insbesondere im Bereich des Knowledge Engineerings und der automatisierten Erstellung von Wissensbasen (z.B. Ontologien) sind solche Techniken sehr relevant.


Aufgabenstellung

Ziel der Arbeit ist es, aufbauend auf einer bestehenden Strukturanalyse, Anforderungsanalyse und prototypischen Implementierung neue Konzepte für die Strukturoptimierung von Wikipedia zu entwickeln. Diese Konzepte sollen es ermöglichen, eine verlässliche automatische Zuordnung von Artikeln zu relevanten Ober-Kategorien (z.B. "People", "Cities", "Languages", ...) zu ermöglichen.

Die entwickelten Konzepte müssen dann auf ihre Machbarkeit überprüft werden. Insbesondere die Laufzeit- und Speicherkomplexität der Umsetzung ist hier aufgrund der riesigen Datenmengen der Wikipedia relevant. Ausgewählte Konzepte sollen dann mithilfe von effizienten Datenstrukturen und Algorithmen umgesetzt und evaluiert werden.


Betreuer
Prof. Dr. Andreas Winter (winter@se.uni-oldenburg.de)
Dr. Christian Schönberg (christian.schoenberg@uni-oldenburg.de)


Webm8juyuasrmater5k0xf (memotljiee4wr@ei5qse.uni-olde9btufnburg.demu9) (Changed: 2020-07-31)