E. Böker / CC BY 4.0

Langzeitarchivierung

Forschungsdaten langfristig erhalten

E. Böker /  CC BY 4.0

Was bedeutet Langzeitarchivierung?

Langzeitarchivierung (LZA) von Daten soll deren langfristige Nutzbarkeit über einen nicht definierten Zeitraum hinweg sicherstellen. In vielen Fachdisziplinen hat sich allerdings eine zehnjährige Aufbewahrungfrist der Forschungsdaten als Standard etabliert. Weil dieser Zeitraum von ständigem technischen und soziokulturellen Wandel geprägt ist, bedarf es einer regelmäßigen Überprüfung der Daten im Hinblick auf die Erhaltung ihrer Nutzbarkeit.

Die LZA zielt auf den Erhalt der

  • Authentizität
  • Integrität
  • Zugänglichkeit
  • Verständlichkeit

von Daten ab. Das umfasst sowohl die Bereitstellung der technischen Infrastruktur als auch organisatorische Maßnahmen sowie die Etablierung von Workflows und Standards (Rechtsfragen, Qualitätssicherung).

Die rein physische Speicherung (Bitstream-Preservation) ist eine Strategie, um die Daten im Zustand zum Zeitpunkt ihrer Ablieferung (Ingest) zu erhalten. Bedingt durch den technologischen Wandel werden Datenträger, Dateiformate, Software und Ablageorte jedoch schnell unzugänglich und unbenutzbar.

Zwei Erhaltungsstrategien: Migration und Emulation

Damit die Daten langfristig korrekt und ohne Verluste wiedergegeben und interpretiert werden können, bedarf es erstens ausreichender Kontextinformationen, z. B. zu verwendeten Erhebungsmethoden, Soft- und Hardware, Kodierungen etc. und eine umfassende Beschreibung durch Metadaten, da dadruch künftige Nutzungsszenarien erheblich erleichtert werden. Zweitens dürfen die Daten nicht untrennbar mit einem Datenträger oder Auslesegerät verbunden sein, da sie nur so auf andere Systeme und Träger migriert werden können (Erhalt der Informationen, nicht der digitalen Objekte selbst). Gerade proprietäre Dateiformate erschweren diese LZA-Strategie häufig genauso wie sie die Emulation erschweren, also die Imitation der alten Software-Umgebung auf neuere Hardware und Systemumgebung.[1]

Besser geeignet sind offene Dateiformate, da ihre Spezifikationen offen dokumentiert und somit nachvollziehbar sind. Sie sind unabhängig vom Hersteller und können mit unterschiedlichen Programmen genutzt werden.

Datensätze sollten überdies den Grundsätzen der „FAIR Data Principles“ genügen, sie sollten also „Findable, Accessible, Interoperable, and Re-usable“ sein, damit sie nachhaltig nachnutzbar sind.

Wie erkennt man ein vertrauenswürdiges Langzeitarchiv?

Viele digitale Archive und Repositorien sichern die Implementierung des Standard-Referenzmodells für digitale Langzeitarchive „Open Archival Information System (OAIS)“ zu.[2] Es haben sich mehrere Verfahren etabliert, die die Umsetzung dieser grundlegenden Funktionalitäten und damit die Vertrauenswürdigkeit von Langzeitarchiven prüfen:

Diese Evaluierungsverfahren legen besonderen Wert auf die Dokumentation von organisatorischen Maßnahmen, z. B. die finanzielle und personelle Ausstattung des Archivs, die vorhandene Expertise, die verwendeten (Metadaten-)Standards und Lizenzen, die Nutzungsbedingungen, sowie den Umgang mit schutzwürdigen Daten.

Einzelnachweise

  1.  Schumann, N. (2012). Einführung in die digitale Langzeitarchivierung. In: Altenhöner, R., Oellers, C. (Hrsg.) Langzeitarchivierung von Forschungsdaten. Standards und disziplinspezifische Lösungen. Scivero, Berlin.
  2.  Schrimpf, S. (2012). Überblick über das OAIS-Referenzmodell. In: Altenhöner, R., Oellers, C. (Hrsg.) Langzeitarchivierung von Forschungsdaten. Standards und disziplinspezifische Lösungen. Scivero, Berlin.