Datenspeicherung und die Lebensdauer von Datenträgern
Forschungsdaten können auf verschiedenen Wegen gespeichert werden, z.B. auf Rechnern, mobilen…
Inhalte langfristig sichern
Je nach verwendeter Software und den weiteren Zielen eines Forschungsprojekts, sind einige Dateiformate besser geeignet als andere. Im wissenschaftlichen Bereich sollte vor allem auf die Kompatibilität, die Eignung zur Langzeitarchivierung und die verlustfreie Konvertierung in alternative Formate geachtet werden. Es gibt verschiedene abstrakte Formateigenschaften, die für eine Archivfähigkeit besonders relevant sind:
Eignung | Maschinenlesbarkeit | Von Menschen lesbar | Langzeitstabilität | Metadaten |
---|---|---|---|---|
sehr gut | mit weit verbreiteter offener Software | ja und ohne Spezialsoftware | genormter Standard | vollständig enthalten |
gut | mit gut verbreiteter und dokumentierter Software | nach Standardverfahren komprimiert, aber eigentlich ja | schon lang oder großflächig etabliert | technische Angaben sind enthalten |
mittelmäßig | proprietäres Standardformat | mit offener Software (zuverlässig?) in höhere Klasse konvertierbar | relativ neues Format | einige wichtige (z. B. Einheiten) sind enthalten |
schlecht | selbstentwickelte Lese-Software | nein | gerade erst erfunden | keine Angaben |
Teilweise sind die aufgelisteten Eigenschaften der Platzeffizienz oder der Performance nicht zuträglich. Wenn jedoch Formatumwandlungen ohne Informationsverlust möglich sind, können für die Archivierung und Nachnutzung durchaus auch andere Formate verwendet werden als für aktive Forschung. Die Tabelle umfasst nicht das gesamte Spektrum an Varianten, allerdings sind Formate im oberen Teil der Tabelle geeigneter als "schlecht" abschneidende Formate.
Für die Erstellung von Daten werden je nach Fachdisziplin und Messmethode spezialisierte Programme verwendet. Die meisten Programme nutzen eigene Dateiformate. Oft ermöglicht eine zusätzliche Exportfunktion das Abspeichern in alternativen Formaten. Dies erlaubt beispielsweise den Datenaustausch zwischen Programmen verschiedener Hersteller.
Dieser englischsprachige Artikel über die Popularität von Formaten für statistische Analysen, Datenbanken und Programmiersprachen ist zu diesem Thema lesenswert. Die Abbildungen und Rankings ermöglichen eine gute Abschätzung, welches das am ehesten geeignete Format sein könnte. Je populärer ein Format, desto wahrscheinlicher ist es noch lange nutzbar.
Beispiel: Für statistische Analysen sind SPSS, R, SAS und STATA populär. Das gängige Format einer SPSS Datei wird mit *.sav bezeichnet. Möchte man die Datei nun im Programm STATA öffnen, ist ein anderes Dateiformat (*.dta) erforderlich. R ist eine offene Sprache und deshalb hier unserer Meinung nach die Ideallösung für die Archivierung solcher Dateien. Unter den populärsten zehn Formaten gibt es jedoch auch sonst keines, welches als schlecht geeignet bezeichnet werden müsste.
In einer Studie der Universität Illinois von 2014 untersuchten Rimkus et al. die Regelwerke von 118 akademischen Bibliotheken Nordamerikas hinsichtlich der empfohlenen Dateiformate .[1] Insgesamt vertrauen die Bibliotheken 18 Dateiformaten in unterschiedlichem Ausmaß. Besonders häufig genannt und als vertrauenswürdig eingeschätzt wurden die fünf folgenden Dateiformate:
Der United States Geological Survey stellt auf seinen Webseiten eine Standardisierung von Daten und Dateiformaten für Wissenschaftler sowie Datennachnutzer vor. Weitere Empfehlungen für Dateiformate anhand von Kriterien zur Nachnutzbarkeit der Daten finden sich bei Dariah-DE. Weiterhin hat die ETH Bibliothek Zürich aus dem Florida Digital Archive sowie aus der Tabelle (Rimkus et al. 2014) eine Übersicht zur Einschätzung der zukünftigen Lesbarkeit einiger gebräuchlicher Dateiformate zusammengestellt. Die Informationen dazu finden Sie in den Akkordeons am Ende dieses Artikels.
Dateiformate können verlustfrei, verlustbehaftet oder sinnhaft konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel vorzuziehen. Liegt die Priorität allerdings bei geringeren Dateigrößen, müssen oft Informationsverluste in Kauf genommen werden. So ist beispielsweise die Umwandlung von Audiodateien wie WAV in MP3 verlustbehaftet, da durch die Komprimierung Informationen verloren gehen und sich die Tonqualität verschlechtert. Allerdings ergibt sich durch die Umwandlung der Vorteil einer geringeren Dateigröße. Übrigens gehen im umgekehrten Fall bei der Umwandlung von MP3 in WAV keine Informationen verloren.
Ein weiteres Beispiel sind Bildformate wie JPG (Joint Photographic Experts Group) und PNG (Portable Network Graphics). Die Kompression beim Speichern eines Bildes im JPG-Format ist nicht verlustfrei. Das bewirkt, dass die Ränder zwischen Farbbereichen je nach Stärke der Datenreduktion unscharf werden können. PNG hingegen ist ein Bildformat, das verlustfrei komprimiert wird. Die Bildqualität nimmt also nicht ab. Beim PNG-Format werden aber Metadaten nicht immer nach gültigen Standards gespeichert, weshalb einige Programme Probleme beim Auslesen aller Metadaten haben.
Demgegenüber bedeutet eine sinnhafte Konvertierung, dass die wesentlichen Inhalte bestehen bleiben.
Meist kann die Konvertierung einfach in der verwendeten Software bei „Speichern unter“ oder „Export“ durchgeführt werden. In besonderen Fällen wird ein eigener Konverter benötigt. Welches Format dabei für einen Datensatz in Frage kommt, muss entsprechend der jeweiligen Anforderungen entschieden werden. Mithilfe von Studien wie zum Beispiel der Experimental Study on Lossless Compression of Biometric Sample Data können die Vor- und Nachteile von Konvertierung noch genauer nachvollzogen werden.
Nicht alle Dateiformate sind im gleichen Maße mittel- bzw. langfristig archivierbar. Vor allem proprietäre Formate, deren Nutz- und Lesbarkeit von bestimmten Softwareherstellern beziehungsweise Plattformen abhängig ist, eignen sich nicht zur Archivierung und sollten daher in unabhängige, langfristig lesbare Formate konvertiert werden.
Normalerweise erkennt man das Dateiformat an der Dateinamenerweiterung (*.xyz). Allerdings werden die Erweiterungen manchmal nicht korrekt abgespeichert oder zeigen unbekannte Formate. Zur Identifikation verschiedener Dateiformate wurden deshalb diverse Tools entwickelt. In der Übersicht auf forensics.wiki werden einige Tools näher vorgestellt. Empfehlenswert ist ebenfalls die kostenlose JAVA-Applikation DROID. Damit können auch unbekannte Formate und Inkonsistenzen ermittelt werden.