Datenarchäologie und Datenaufbereitung

von Fabian Körner

Die Idee vom Begriff der Datenarchäologie entwickelte sich im Laufe der Arbeit an diversen Projekten, die eine Nutzung bestehender Datenmengen im Rahmen neu zu entwickelnder Anwendungen für deren Präsentation bzw. Weiterverarbeitung zum Ziel hatten. Er ist nicht neu, soll aber im hier beschriebenen Kontext anders verstanden werden als technische Verfahren zur Rettung sonst verlorener Daten z.B. von veralteten Datenträgern. Bei der Arbeit mit elektronischen geisteswissenschaftlichen Datenquellen zeigt sich unter anderem, dass ihre Übertragung in eine dem neuartigen Zweck entsprechende Form oftmals mit größerem Aufwand verbunden ist, als man zunächst annimmt. Nichtsdestotrotz ist eine allgemeine Methode erkennbar, die in angepasster Form auf eine Vielzahl von zu transformierenden Datenbeständen anwendbar ist und neben der praktischen Durchführung die Abschätzung des Bedarfs an Zeit und Kompetenz für ein derartiges Vorhaben erleichtern kann.

Der folgende Text wurde im Rahmen einer Poster-Präsentation auf dem Workshop „Personen – Daten – Repositorien“ des Projekts „Personendaten-Repositorium“ der Berlin-Brandenburgischen Akademie der Wissenschaften am 27. September 2010 vorgestellt.
Siehe: http://pdr.bbaw.de/workshop/poster/datenarchaeologie

Ursachen

Aus den unterschiedlichen thematischen Schwerpunkten und damit verbundenen Arbeitsweisen wissenschaftlicher Forschungsprojekte resultieren verschiedene Arten der Datenhaltung. Diese naturgemäße Heterogenität wird vom großen Angebot durchaus praktikabler Ablagemöglichkeiten für zu erstellende Datenmengen verstärkt. Hinzu kommt, dass viele Projekte schon seit langer Zeit elektronische Daten sammeln. Das führt ganz zwangsläufig dazu, dass zwischenzeitliche Änderungen des Konzepts, Aktualisierungen der genutzten Software, aber auch Wechsel der Mitarbeiter, jeweils einen nicht zu vernachlässigenden Beitrag zur Verstärkung der Komplexität resultierender Ressourcen leisten.

Weiterhin ist offensichtlich, dass zwei grundsätzliche Herangehensweisen an die Strukturierung und Erstellung von Datenmengen existieren: einerseits steht die vermeintlich einfache und schnelle Eingabe von Daten mit sehr enger Bindung an den Forschungsgegenstand im Vordergrund, zum anderen hat man das konkrete Ziel des Projektes, also beispielsweise eine bestimmte Form der Publikation im Blick. Beide Varianten sind nachvollziehbar, tragen jedoch wiederum dazu bei, dass mehr Aufwand betrieben werden muss, um bei aufkommendem Bedarf Ressourcen zu erzeugen, die als gut handhabbare Grundlage für weiterführende Anwendungen dienen können.

Methode

Der Kern des Problems, das bei der Erschließung bestehender elektronischer Datenquellen vor allem in den Geisteswissenschaften besteht, ist die große Zahl möglicher Datenstrukturen und die Art ihrer Speicherung. Vielfach wurde zur Datensammlung Textverarbeitungssoftware eingesetzt. In diesen Fällen sind Datentypen und Textteile bestimmter Funktion meist lediglich durch typografische Merkmale oder die Position im Gesamttext ausgewiesen. Eine Datenstruktur ist somit nur implizit vorhanden. Bei der Erstellung von Dokumenten wurden je nach Bedarf verschiedene Standards, vorgegebene Textstrukturen (z.B. bei transkribierten Dokumente), aber auch individuelle Regeln (z.B. bei Registern) zu Grunde gelegt.

Ziel eines Ansatzes zur Überwindung der beschriebenen Problematik muss es sein, Datenbestände zur erzeugen, deren Inhalte in einer Art und Weise vorgehalten werden, die einem großen Spektrum potentieller Anwendungen den Zugang zu ihnen erlaubt. Hierfür haben sich im Wesentlichen zwei Verarbeitungsschritte als praktikabel erwiesen.

Quellenerschließung

Als erstes muss die vorhandene implizite Strukturierung vollständig explizit gemacht werden. Hierfür ist die Erstellung eines Programms (Parser) notwendig, das die Regeln der Vorlage genau „kennt“ und somit automatisch Textpassagen oder einzelnen Zeichenfolgen Typ-Informationen zuordnen kann. Ist die Datenquelle Inhalt einer Datenbank, steht man in der Regel vor geringeren Anforderungen, da hier meist eine explizite Datenstruktur gegebenen ist; falls nicht, kann beim Abfragen oder Export des Bestandes eine Normalisierung aller Daten erfolgen.

Bei der Entwicklung eines Parsers ist eine intensive Zusammenarbeit mit den Urhebern des Ausgangsmaterials notwendig, um den Verlust von Detailinformationen zu vermeiden. Der Aufwand für die Programmierung hängt neben der Komplexität des zu verarbeitenden Regelwerks sehr stark von auftretenden Eingabefehlern und anderen unsystematischen Eigenschaften ab, die z.B. bei der manuellen Eingabe selbst bei sorgfältigster Arbeit nicht auszuschließen sind. Bei mehrfachem Auftreten von Sonderfällen ist es sinnvoll, notwendige Korrekturen automatisch vom Parser ausführen zu lassen, Einzelfälle dagegen können meist schneller von Hand behoben werden.

Als Ergebnis des ersten Verarbeitungsschritts können beispielsweise Dokumente in einem möglichst einfachen XML-Format vorliegen, deren Struktur genau den Gegebenheiten der Datenquelle entspricht. Die Anforderung der Einfachheit des Formats begründet sich mit der Überprüfbarkeit des Zwischenergebnisses. Alle vereinzelten oder auch systematischen Fehler, die an dieser Stelle nicht erkannt und behoben werden, verringern die Qualität der zu erstellenden Ressource. XML bietet sich dabei an, weil es erlaubt, Daten in einer Form zu strukturieren, die sowohl von Menschen als auch von Maschinen interpretiert werden kann. Eine andere Möglichkeit besteht z.B. in der Nutzung relationaler Datenbanken, abhängig von der notwendigen Komplexität. Von Dateien in selbst entwickelten Formaten sollte Abstand genommen werden, da sonst leicht vermeidbarer Mehraufwand (z.B. bei der notwendigen Dokumentation) entsteht, wenn sie auch von anderen genutzt werden sollen.

Erzeugung der Zielstruktur

Eine Umformulierung der Datenstruktur und die Vereinheitlichung ihrer Ablage kann kein Selbstzweck sein. Im schlimmsten Fall hat man mit der erläuterten Erzeugung eines XML-Formats nur seinerseits zur Heterogenität der global vorhandenen Datenquellen beigetragen. Daher muss sich unmittelbar ein weiterer Verarbeitungschritt anschließen: die Umformung in ein offenes und etabliertes Format. Bei den meisten textbasierten Daten bietet sich hier TEI-XML an. Für spezielle Textsorten gibt es entsprechend angepasste Regelwerke, und für projektspezifische Daten, die in keinen bekannten Rahmen passen, können eigene Regelmengen erzeugt werden,die eine Zielstruktur definieren, ohne die Kompatiblität zu TEI-XML zu verlieren.

Die Vorteile der Wahl eines weit verbreiteten und aktiv weiterentwickelten Standards liegen auf der Hand. Erstens kann man für entstehende Fragen auf den reichhaltigen Erfahrungsschatz einer großen Nutzergemeinde zurückgreifen. Zweitens kann TEI-XML gut für die Erzeugung ggf. notwendiger weiterer Ausgabeformate (z.B. für Druckvorlagen) transformiert werden. Für diesen Zweck sind mit hoher Wahrscheinlichkeit bereits Programme vorhanden. Drittens kann man durch Nutzung einer XML-Datenbank wie eXist leicht dafür sorgen, dass auf den Datenbestand durch verteilte Anwendungen, die der beliebigen Weiterverarbeitung oder der Bearbeitung enthaltener Daten dienen, zurückgegriffen werden kann. In diesem Zusammenhang ermöglichen außerdem bereits existierende Rahmenprogramme und Softwarepakete eine komfortable Integration und Präsentation von Datenmengen für unterschiedlichste Aufgaben.

An der Berlin-Brandenburgischen Akademie der Wissenschaften wird seit einigen Jahren im Rahmen der TELOTA-Initiative das Softwarepaket SADE (Scalable Architecture for Digital Editions) entwickelt und erfolgreich für Anwendungen verschiedener Arbeitsgruppen eingesetzt. Es handelt sich dabei um das Konzept einer Architektur, die dazu dient, elektronische Texte, basierend auf einer einheitlichen technischen Grundlage sowie einer intuitiven, frei skalierbaren Benutzeroberfläche zu präsentieren. SADE steht als Distribution verschiedener Open Source Software zum Download bereit. So ist es z.B. mit wenig Aufwand möglich, TEI-konforme XML-Dokumente nach HTML zu transformieren, sie zu betrachten und mit einer Text-Bild-Verlinkung zu versehen.

Danksagung

Besonders herzlicher Dank gilt Petra Sauer (Beuth Hochschule), Alexander Czmiel (BBAW) und Gerald Neumann (BBAW) sowie allen anderen Kollegen an der Beuth Hochschule und der Berlin-Brandenburgischen Akademie der Wissenschaften für erkenntnisbringende Gespräche.

Weitere Informationen

Fabian Körner
Personendaten-Repositorium
http://pdr.bbaw.de
http://www.bbaw.de

Veröffentlicht von Torsten Roeder am 30. September 2010 | abgelegt unter Open Access, Projekte, Technologien, Tools

Kommentare

Kommentarfunktion ist deaktiviert

digiversity

Datenarchäologie und Datenaufbereitung

Ursachen

Methode

Quellenerschließung

Erzeugung der Zielstruktur

Danksagung

Weitere Informationen

Kommentare

Kategorien

Herausgeber

DHd-Blog

Blogroll