Semantische Interpretation von Dateien

Semantische Interpretation von Dateien

Diplomarbeit

Ansprechpartner: Dipl.-Inform. Philipp Hahn
PDF-Dokument

Abgeschlossen am 12. Oktober 2009 durch Moritz Brandt

Themengebiete

  • Dateisysteme

Hintergrund

Es gibt tausende verschiedener Dateiformate, die zu allem Überfluß auch noch ineinander verschachtelt werden können: Z.B. ist ein Debian-GNU/Linux-Paket ein ar-Archiv, daß u.a. ein gzip-komprimiertes tar-Archiv mit den Dateien enthält, z.B. ein OpenOffice.org-Dokument, was nichts anderes ist als ein zip-Archiv mit mehreren xml-Textdateien und weiteren eigebetteten Dateien wie png-Bilder oder Filmen, die wiederum in einem QuickTime-mov-Containerformat ein mpeg2-Video und mehrere ogg-vorbis-Tonspuren enthält. Diese Paket-Datei ligt dann in einem ISO-9660 Dateisystem, welches per loop-back-Device aus einer Datei auf einem ext3-Dateisystem bereitgestellt wird, welches per RAID5 über mehrere SATA-Festplatten gebildet ist.

Auf der untersten Ebene sind die Bits als Nullen und Einsen gespeichert; erst mit dem nötigen Kontextwissen können sie richtig interpretiert werden. Insbesondere beim Auftreten von Fehlern ist die Fehlersuche sehr aufwendig, da die Beschreibung der Formate oft nur textuell existiert und von der fehlersuchenden Person mühselig durchgearbeitet werden muß.

Aufgabenbeschreibung

Im Rahmen dieser Arbeit soll die bereits in einer vorausgegangenen Arbeit gemachten Ergebnisse weiterentwickelt werden. Neben der Erweiterung um zusätzliche Dateiformate ist insbesondere eine Überarbeitung des Programms nötig, um einige Datentypen wie Aufzählungen und Zeichenketten besser zu unterstützen. Daneben ist eine Integration oder Zusammenarbeit mit Strigi und Nepomuk möglich.

Vorkenntnisse

  • BS1
  • (VBS)

Kommentar

Die Arbeit enthält praktische Anteile.

(Stand: 29.02.2024)  | 
Zum Seitananfang scrollen Scroll to the top of the page