E. Böker / CC BY 4.0

Datendokumentation

Warum, was und wie?

E. Böker /  CC BY 4.0

Warum dokumentieren?

„Der Zeitaufwand, den ich 2019 habe, um Daten aus dem Jahr 2011 auszugraben, ist sehr viel geringer, wenn ich die Daten 2011 gut dokumentiert habe.“ PhD Maike Paul, Küstenforschung

Sollen Forschungsdaten nachgenutzt werden, müssen sie sinnvoll und möglichst detailliert beschrieben sein. Dies gilt nicht nur für die Nachnutzung durch Dritte - z. B. nach der Publikation der Daten - sondern auch für die zukünftige Nutzung durch die Datenerzeugerin und den Datenerzeuger selbst. Dokumentieren Sie daher immer am besten sofort bei Erstellung der Daten, wie, wann und wofür die Daten entstanden sind.

Research Data Scary Tales

Ein paar kurze Geschichten zeigen, welche schaurigen Folgen Fehler im Datenmanagement haben können.

Mehr erfahren

Die Daten existierten, konnten aber trotz größter Bemühungen nicht nachgenutzt werden.

Mehr erfahren

Da sie sich nicht an gemeinsame Normen hielten, kam er irgendwann vom rechten Weg ab.

Mehr erfahren

1908: Russen kommen zu spät zum Schuss

Mehr erfahren

Obwohl er die Linie im Inventar fand, war seine ganze Arbeit letztendlich umsonst.

Mehr erfahren

... finden Sie auf den Seiten des Thüringer Kompetenznetzwerks Forschungsdatenmanagement (TKFDM).

Mehr erfahren

Ohne Dokumentation laufen Sie Gefahr

  • Daten nicht wiederzufinden,
  • die Entstehung von Daten nicht mehr nachvollziehen zu können,
  • Daten wegen fehlender Kontextinformationen nicht mehr interpretieren zu können,
  • Dateien zu verwechseln (veraltete oder konkurrierende Versionen),
  • Daten nicht mit anderen Personen austauschen oder mit Daten aus anderen Quellen zusammenführen zu können.

Eine angemessene Dokumentation gehört zur guten wissenschaftlichen Praxis!

Was dokumentieren?

Für die spätere Auswertung und Nachnutzung der Daten ist es wichtig, diese möglichst detailliert zu beschreiben. Je besser ein Datensatz dokumentiert ist, desto wahrscheinlicher ist es, dass dieser von Dritten genutzt und zitiert wird und die Datenerzeugerin oder der Datenerzeuger dadurch „credit“ in Form einer wissenschaftlichen Zitation erhält.

Je größer und komplexer ein Datensatz ist, desto wichtiger ist die genaue Dokumentation. Aber auch bei der besten Dokumentation kann es immer wieder zu Nachfragen kommen. Daher ist es wichtig und sinnvoll, auch eine dauerhafte Kontaktmöglichkeit zur Datenautorin oder zum Datenautor anzugeben.

Folgende Aspekte sollten bei der Dokumentation der Daten berücksichtigt werden:

  1. Forschungsvorhaben (Projekttitel oder Person),
  2. Kontext der Erhebung (Projektziele, Hypothesen),
  3. Erhebungsmethode (Sampling-Methode, Instrumente, verwendete Hard- und  Software, sekundäre Datenquellen, Erhebungsort und Erhebungszeitraum),
  4. Struktur der Daten und deren Beziehungen zueinander (wie sind die Daten aufgebaut, was enthalten sie; bei mehreren Datensätzen: wie gehören sie zusammen, welche  Daten braucht man, um die anderen Daten richtig zu interpretieren),
  5. Qualitätsmaßnahmen (Bereinigung, Gewichtung, Datenprüfung etc.),
  6. Erklärungen für Codes und Labels (Codebook),
  7. Datenversionen und die enthaltenen Änderungen,
  8. Informationen zum Zugang, Nutzungsbedingungen und Vertraulichkeit.

Die DFG hat eine Checkliste zum Umgang mit Forschungsdaten veröffentlicht, in der auch auf die Datendokumentation eingegangen wird.

Wie dokumentieren?

Generell gilt, dass für jedes Forschungsprojekt individuell entschieden werden muss, welche Art der Dokumentation am geeignetsten ist. Wenn möglich, sollten maschinell produzierte Metadaten, die vielleicht direkt bei der Erstellung der Daten entstehen, immer ausgelesen und gespeichert werden. Dies kann schon einen großen Teil der Arbeit abnehmen.
Egal ob automatisiert oder manuell erfasst, die beschreibenden Daten/ Metadaten können in den unterschiedlichsten Formaten abgespeichert werden. Wichtig dabei ist:

  • Nutzung von standardisierten und offenen Formaten, Vokabularen (des jeweiligen Fachbereiches) , Sprachen (z. B. allgemein verwendete Programmiersprachen) und Protokollen (z. B. ftp und HTTP),
  • Maschinenlesbarkeit (z. B. durch strukturierte Metadaten und Ablage in einem Repositorium),
  • Eindeutige Zuordnung der Metadaten zum beschriebenen Datensatz, z. B. mittels persistenten Identifiern.

Dies sind auch die Grundlagen der FAIR-Prinzipien.

Die Dokumentation kann in den unterschiedlichsten Formaten erfolgen, z. B.

  • in einer begleitenden ReadMe-Datei
  • sehr strukturiert in einer Metadatenbank
  • in einem projektinternen Wiki
  • in einem (elektronischen) Laborbuch
  • direkt in einem Datenmanagementplan (DMP)
  • innerhalb der Ordnerstruktur und Dateibenennung
  • in der Datei selber bzw. in den Metainformationen der Datei.

Die Bandbreite geht vom einfachen Überblick bis hin zum vollständigen Data-Curation-Profile. Eine Vorlage zur Erstellung eines Data-Curation-Profiles bietet „The Data Curation Profiles Toolkit: The Profile Template“[1]. In Anlehnung daran ist eine Kurzfassung als Data-Curation-Profile-Template auf unserer Website abrufbar.

Bei der Dokumentation sollte man aber auch immer mitbedenken, wie die Informationen extrahiert und anderen zugänglich gemacht werden können (z. B. bei der Publikation der Forschungsergebnisse).

Wenn eine analoge Form der Dokumentation gewählt wird, ist es wichtig, dass auf dokumentenechtes Schreibwerkzeug geachtet wird. Wer eine elektronische Form der Dokumentation nutzt, sollte ein möglichst offenes Dateiformat wählen, um so den Zugang zu den Informationen und damit die Nachnutzung der Daten zu erleichtern.

Einzelnachweise

  1.   Carlson, Jake (2010): The Data Curation Profiles Toolkit: The Profile Template. Data Curation Profiles Toolkit, Paper 4.