Datenjournale
Datenjournale (data journals) sind Publikationen, welche keine Textpublikationen, sondern Datensätze…
Beschreiben hilft verstehen
Die Publikation von Forschungsdaten in einer auffind- und nachvollziehbaren Art und Weise befördert entscheidend die Qualität des Datensatzes und das Potential der Nachnutzung. Daten sind in der Regel nicht selbsterklärend, sondern benötigen zusätzliche Informationen, sogenannte Metadaten. Gut durchdachte und dokumentierte Metadaten spielen daher eine zentrale Rolle für das Finden, Verstehen und Nachnutzen von Forschungsdaten.
Je strukturierter die Informationen vorliegen, umso einfacher sind sie nicht nur für Menschen, sondern auch für Maschinen lesbar und verarbeitbar. Eine Standardisierung der verwendeten Felder und Werte hilft dabei, verschiedene Datensätze miteinander in Beziehung zu setzen und auch über Institutions-, Sprach- und Disziplingrenzen hinweg auffindbar und verständlich zu machen. Die Dokumentation von Daten in Form strukturierter Textdateien zur Datenbeschreibungen, etwa sogenannte ReadMe-Files, zielt in der Regel darauf ab, anderen Forschenden einen Überblick über die Daten und ihren Kontext zu geben, um Verständnis und Nachnutzung der Daten zu erleichtern. Dabei können Informationen, die bereits in den maschinenlesbaren Metadaten enthalten sind, wiederholt oder auf andere Weise beschrieben werden, soweit dies zum Verständnis und zur Weiterverwendung nötig ist. So kann z.B. in einer ReadMe-File die Dateigröße noch einmal angegeben werden, um einen identifizierenden Gegen-Check zu ermöglichen.
Metadaten im Forschungskontext enthalten strukturierte Informationen über Forschungsergebnisse, zum Beispiel Datensätze oder auch Code. Sie werden mit den beschreibenden Daten gemeinsam abgespeichert oder verknüpft.
Verschiedene Arten von Metadaten erfüllen dabei unterschiedliche Funktionen:
Während sich bibliografische und administrative Metadaten disziplinübergreifend standardisieren lassen, haben Metadaten zum Prozess und Inhalt von Forschungsergebnissen oft einen sehr fachspezifischen Aufbau und Inhalt. Gerade diese fachspezifischen Informationen sind oft entscheidend für die Auffindbarkeit und Nachvollziehbarkeit von Forschungsdaten. Entsprechend gibt es viele verschiedene Metadatenstandards, die eine Struktur für die relevanten Informationen in einem Bereich oder einer Fachdisziplin vorgeben.
Ein weit verbreiteter Standard für die bibliographische Beschreibung von Forschungsdaten ist das Metadatenschema zur Registrierung von DOIs (digital object identifiers) von DataCite. Dieses gibt vor, welche Information zu einem Datensatzes verpflichtend angegeben werden müssen (z. B. Autor, Titel), welche Angaben empfohlen werden (z. B. Fachbereich, Beschreibung) und welche optional sind (z. B. Finanzierung, Nutzungsrechte). Diese und weitere Metadaten werden im XML-Format für die interoperable Nutzung zur Verfügung gestellt.
Ein Standard für administrative Metadaten in der Langzeitarchivierung ist PREMIS. Mit Hilfe dieses Standards können Objekte in Beziehung zu Akteuren, Ereignissen und Rechten beschrieben werden.
METS (Metadata Encoding & Transmission Standard) ist dagegen ein Beispiel für ein Container-Standard, der eine Struktur von sieben Abschnitten vorgibt (Kopfteil, Erschließungsangaben, Verwaltungsangaben, Dateiabschnitt, Strukturbeschreibung, Strukturverknüpfung und Verhalten), für deren Inhalt dann jeweils unterschiedliche Metadatenstandards gewählt werden können.
Für fachspezifische Metadaten existiert eine Vielzahl von Standards. Eine Übersicht über existierende Standards geben der Metadata Standards Catalog der RDA und die Seite der RDA Metadata Standards Directory Working Group, FairSharing.org oder DDC (Digital Curation Centre).
Während XML-basierte Metadatenschemata eine Struktur vorgeben, also festlegen welche Informationen in welchem Format angegeben werden müssen, sollen und können, unterstützen Vokabulare und Terminologien bei der Standardisierung der Inhalte. Dies reicht von kontrollierten Wortlisten, die fehlerhafte oder unterschiedliche Schreibweisen von Konzepten vereinheitlichen, über Taxonomien und Thesauri, die Über- und Unterbegriffe wie auch Synonyme zu Konzepten enthalten, bis hin zu Ontologien, die Eigenschaften und Relationen zwischen Konzepten modellieren. Einen Überblick über bestehende Terminologien gibt das Basic Register of Thesauri, Ontologies and Classifications BARTOC. Terminologie-Services ermöglichen - oft fachspezifisch - die Suche nach Terminologie-Termen.
Weitere Beispiele für Ontologien und Vokabularien: