Semantische Interpretation von Dateien
Semantische Interpretation von Dateien
Themengebiete
- Dateisysteme
Hintergrund
Es gibt tausende verschiedener Dateiformate, die zu allem Überfluß auch noch ineinander verschachtelt werden können: Z.B. ist ein Debian-GNU/Linux-Paket ein ar-Archiv, daß u.a. ein gzip-komprimiertes tar-Archiv mit den Dateien enthält, z.B. ein OpenOffice.org-Dokument, was nichts anderes ist als ein zip-Archiv mit mehreren xml-Textdateien und weiteren eigebetteten Dateien wie png-Bilder oder Filmen, die wiederum in einem QuickTime-mov-Containerformat ein mpeg2-Video und mehrere ogg-vorbis-Tonspuren enthält. Diese Paket-Datei ligt dann in einem ISO-9660 Dateisystem, welches per loop-back-Device aus einer Datei auf einem ext3-Dateisystem bereitgestellt wird, welches per RAID5 über mehrere SATA-Festplatten gebildet ist.
Auf der untersten Ebene sind die Bits als Nullen und Einsen gespeichert; erst mit dem nötigen Kontextwissen können sie richtig interpretiert werden. Insbesondere beim Auftreten von Fehlern ist die Fehlersuche sehr aufwendig, da die Beschreibung der Formate oft nur textuell existiert und von der fehlersuchenden Person mühselig durchgearbeitet werden muß.
Aufgabenbeschreibung
Im Rahmen dieser Arbeit soll die bereits in einer vorausgegangenen Arbeit gemachten Ergebnisse weiterentwickelt werden. Neben der Erweiterung um zusätzliche Dateiformate ist insbesondere eine Überarbeitung des Programms nötig, um einige Datentypen wie Aufzählungen und Zeichenketten besser zu unterstützen. Daneben ist eine Integration oder Zusammenarbeit mit Strigi und Nepomuk möglich.
Vorkenntnisse
- BS1
- (VBS)
Kommentar
Die Arbeit enthält praktische Anteile.