E. Böker / CC BY 4.0

Repositorien

Daten professionell zur Verfügung stellen

E. Böker /  CC BY 4.0

Was ist ein Repositorium?

Repositorien sind Speicherorte für digitale Objekte, die diese für einen öffentlichen oder beschränkten Nutzerinnen- oder Nutzerkreis zur Verfügung stellen. Repositorien lassen sich unterscheiden:

  • nach der Art der zu speichernden Objekte (Publikationen oder Forschungsdaten),
  • nach der Domäne der enthaltenen Daten (institutionell, fachlich oder generisch),
  • nach der Speicherfrist der Daten (z. B. 10 Jahre, um den Regeln der guten wissenschaftlichen Praxis zu genügen, oder dauerhaft) oder
  • nach den Policies, mit denen die Daten abgerufen und nachgenutzt werden dürfen.

Beispiele für Repositorien können der institutionelle Publikationsserver einer Universität, ein fachliches Open-Access-Repositorium, ein fachliches Datenrepositorium oder ein Langzeitarchiv für Daten und Publikationen sein.

Häufig prüfen Kuratoren und Kuratorinnen die Daten vor der Aufnahme in das Repositorium (dem Ingest), hinsichtlich ihrer inhaltlichen oder technischen Qualität, teilweise auch hinsichtlich rechtlicher Aspekte (Urheberrecht, Datenschutz). So stellen sie sicher, dass die Daten in der vorliegenden Form durch Dritte nutzbar sind.

Wie funktionieren Repositorien?

Ein Repositorium besteht im Wesentlichen aus einer Repositoriumssoftware und einer Datenbank. Die datengebenden Personen können die Daten über eine webbasierte Benutzeroberfläche in das Repositorium überführen oder die Repositorienbetreibende sammeln diese automatisiert über entsprechende Protokolle und Schnittstellen von anderen Plattformen ein (harvesten).

Für die Nachnutzung durch Dritte werden zusätzlich zu den eigentlichen Daten deren Metadaten benötigt. Diese kann die Datengeberin oder der Datengeber z. T. aus anderen Anwendungen übernehmen oder manuell hinzufügen. Metadaten beschreiben den Inhalt der Forschungsdaten und liefern Informationen über deren Entstehung, dabei verwendete Software bzw. Methoden sowie rechtliche Aspekte. In den Metadaten sollten außerdem Nutzungsbedingungen in Form von Lizenzen festgelegt werden, die u.a. den Zugang zu den Daten regeln (Registrierung, Embargo o. ä.).

Damit die Daten dauerhaft referenzierbar und zitierfähig sind, vergeben die meisten Repositorien eindeutige persistente Identifikatoren. Sowohl über die persistenten Identifikatoren (oft DOIs oder URNs) als auch über entsprechende Schnittstellen werden die Inhalte vieler Repositorien in Suchmaschinen und Fachdatenbanken indiziert (z.B. Google Scholar). Des Weiteren verfügen Repositorien über eine Suchfunktion, mit der die Nutzerinnen und Nutzer die enthaltenen Daten finden, betrachten und herunterladen können.

Ein passendes Repositorium auswählen

Die Auswahl eines passenden Repositoriums sollte sich nach den Gepflogenheiten der jeweiligen Fachdisziplin oder den Vorgaben von Förderinstitutionen bzw. Verlagen richten. Sie hängt auch davon ab, ob Daten für einen bestimmten Zeitraum (z. B. für zehn Jahre) bewahrt oder langzeitarchiviert werden sollen.

Sofern keine Vorgaben existieren, sollten fachliche Repositorien zuerst als Speicherorte in Betracht gezogen werden. Es existieren mehrere Verzeichnisse, die die Suche nach einem passenden Repositorium erleichtern. Eine weltweite Übersicht über Forschungsdatenrepositorien bietet z. B. der Dienst Registry of Research Data Repositories re3data.org. Mit ROAR und OPENDOAR stehen Verzeichnisse zur Verfügung, die Open-Access-Repositorien aus aller Welt listen. Durch Such- und Filterfunktionen kann die Auswahl auf diesen Seiten angepasst und eingegrenzt werden.

Für das Speichern und Veröffentlichen von Forschungsdaten, für die kein geeignetes fachliches Repositorium existiert, bieten sich institutionelle Repositorien, angeboten von einer wachsenden Zahl von Universitäten und Forschungseinrichtungen, oder auch generische Repositorien, oft bereitgestellt durch zentrale Einrichtungen oder gemeinnützige Organisationen, an.

Zertifikate für Repositorien

Qualitätskriterien können die Entscheidung für oder gegen ein Repositorium deutlich erleichtern. Solche Zertifikate geben der Datenerzeugerin bzw. dem Datenerzeuger die Sicherheit, dass die Daten langfristig vorgehalten, nutzbar und zitierbar sind. Datennutzerinnen und Datennutzer können auf ein Mindestmaß an Qualität (Datenformat, Zitierbarkeit, etc.) der in zertifizierten Repositorien vorgehaltenen Daten vertrauen. Zertifizierte Repositorien, Archive, Bibliotheken oder Museen profitieren von einer erhöhten Sichtbarkeit ihrer Services. Es gibt mehrere Initiativen die, basierend auf unterschiedlichen Kriterien, Gütesiegel bzw. Zertifikate für Repositorien vergeben.

Zertifikate

CoreTrustSeal

Das CoreTrustSeal ist eine Zertifizierungsorganisation, die aus dem ICSU World Data System (ICSU-WDS) und dem Data Seal of Approval (DSA) hervorgegangen ist. Die CoreTrustSeal-Data-Repository-Zertifizierung löst die DSA-Zertifizierung und die WDS Regular Members Zertifizierung ab. Das CoreTrustSeal ist eine community-basierte und gemeinnützige Organisation und bietet jedem interessierten Repositorium eine Core Level Zertifizierung auf Basis des DSA-WDS Core Trustworthy Data Repositories Requirements Catalogue und der damit verbundenen Verfahren an. Die insgesamt 16 detaillierten Richtlinien (guidelines) basieren im Wesentlichen auf fünf Kriterien:

  1. Die Daten sind im Internet auffindbar.
  2. Die Rechtssituation der Daten ist geklärt und diese sind ohne Einschränkung zugänglich.
  3. Die Daten liegen in einem gebräuchlichen Format vor.
  4. Die Daten sind zuverlässig.
  5. Die Daten sind über persistente Identifikatoren zitierbar.

Mehr erfahren

nestor-Siegel für vertrauenswürdige digitale Langzeitarchive

Nestor ist das deutsche Kompetenznetzwerk für Langzeitarchivierung digitaler Quellen, das die Standardisierungsbestrebungen der aller Partnerinstitutionen (Archive, Bibliotheken, Museen) bündelt und weiter verteilt.

Das nestor-Siegel umfasst in der Summe 34 Kriterien, die rechtliche Aspekte genauso behandeln wie Fragen der Finanzierung und personellen Ausstattung der zertifizierten Einrichtung. Die vorgehaltenen Daten werden aufgrund ihrer Qualität, Zitierbarkeit, rechtlicher Fragen der Nachnutzbarkeit und der langfristigen Speicherung (Datenformate und -träger) beurteilt.

Mehr erfahren