Algorithmus

Ein Algorithmus ist eine nachvollziehbare Schrittfolge zur Lösung eines Problems. Das berühmteste Beispiel für einen Algorithmus ist das Kochrezept: Die Schritte sind eindeutig beschreibbar, praktisch ausführbar und führen bei gleicher Ausführung zum identischen Ergebnis. Ein Algorithmus kann grundsätzlich in jeder Sprache (natürliche Sprache oder Programmiersprache) formuliert werden. Generell basieren so gut wie alle Automatisierungsprozesse auf der Nutzung von Algorithmen. In der Informatik sind Algorithmen die Basis fast aller Programme und Anwendungen. Sie kommen etwa zur Anwendung, wenn strukturierte Daten (etwa Normdaten oder Metadaten) oder unstrukturierte Daten (z. B. im Data Mining) standardisiert erfasst werden sollen. Im Kontext von Machine Learning oder Künstlicher Intelligenz (KI) werden Algorithmen verwendet, um in großen Datenmengen Muster zu erkennen und komplexe Verhältnismäßigkeiten abstrahieren zu können. 

Analoge Materialien

Analoge Forschungsmaterialien sind zum Beispiel Fotos, handschriftliche Notizen, Bücher, Audio-Kassetten, Gemälde oder 3D-Objekte, wie etwa Fossilien oder Architekturmodelle. Um sie in einem Repositorium nutzbar zu machen, müssen die Materialien zunächst digitalisiert (Digitalisat) oder zumindest die zugehörigen Metadaten digital zur Verfügung gestellt werden. Analoge Materialien unterscheiden sich von born digital-Daten, die von Beginn an in digitaler Form existieren, zum Beispiel digitale Fotos, CAD-Zeichnungen, Messdaten oder Blogs.

Anonymisierung

Die Anonymisierung von personenbezogenen Daten in der Wissenschaft gehört zur guten wissenschaftlichen Praxis. Laut BDSG (Bundesdatenschutzgesetz) § 3, Abs. 6 versteht man unter Anonymisierung jegliche Maßnahmen, die personenbezogene Daten so verändern, dass „die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können“.  Zu unterscheiden ist die Anonymisierung von der Pseudonymisierung.

Archiv

Unter einem Archiv versteht man allgemein eine Sammlung an Dokumenten. Diese sollen im Archiv zeitlich unbegrenzt aufbewahrt werden. Bezogen auf den Forschungsdatenmanagementkontext ist ein Archiv eine Sammlung von Daten. Die Organisation der Inhalte orientiert sich an den dem Archiv zugrunde liegenden Richtlinien. Archive werden als Dienstleistung bereitgestellt oder können in eigener Verantwortung angelegt und betrieben werden. Es hat sich eine Archivierungsfrist von Forschungsdaten von in der Regel zehn Jahren herausgebildet. Insbesondere für eine Langzeitarchivierung von über zehn Jahren ist es ratsam, möglichst beständige Formate wie PDF-A oder CSV zu wählen, weil Formatmigration sehr kostspielig sein kann und daher oftmals nicht angeboten wird. Eine Sonderform der Archivierung von Forschungsdaten ist das sogenannte Repositorium

Authentifizierung

Für bestimmte Daten, Systeme oder Dienste ist eine Einschränkung der Zugriffsmöglichkeit notwendig. Die Kontrolle über den Zugang wird dabei über die Authentifizierung geregelt. Die eindeutige Identifizierung der zugreifenden Person kann dabei anhand verschiedener Merkmale erfolgen: IP-Adresse, Login und Passwort, Sicherheitsmerkmal (Schlüsseldatei, biometrisches Merkmal, Hardwaretoken) oder eine Kombination (Zwei-Faktor-Authentifizierung). Voraussetzung dafür ist eine funktionierende Nutzerverwaltung/Identitätsmanagement (IDM), wo Passwortdaten etc. gespeichert und verwaltet werden können. Eine Alternative ist das sog. Single-Sign-on-Verfahren wie z. B. Shibboleth, bei dem eine Person mit einer Anmeldung mehrere Services nutzen kann. Die Authentifizierung ist zu unterscheiden von der Autorisierung, bei der der authentifizierten Person bestimmte Rechte gegenüber dem System zugewiesen werden.

Best Practice

Unter dem Begriff Best Practice wird eine bereits erprobte und bewährte Methode zum Ablauf eines Arbeitsprozesses verstanden. Sie ist „eine Technik oder Methodik, die durch Erfahrung und Forschung sich als zuverlässig erwiesen hat, zu einem gewünschten Ergebnis zu führen“. Eine Verpflichtung Best Practice in allen Bereichen zu verwenden, ist eine Verpflichtung zur Verwendung von jeglichem verfügbaren Wissen und Technologien, um eine erfolgreiche Durchführung zu garantieren. Im Bereich Forschungsdatenmanagement wäre ein Best-Practice-Beispiel, dass vorhandene Metadatenschemata angewendet werden und Datengeberinnen und Datengeber die optionalen und empfohlenen Felder bestmöglich ausfüllen.  

Bitstream-Preservation

Digitale Daten bestehen aus einer festgelegten Abfolge von Bits, die den Wert 0 oder 1 haben und auf Datenträgern gespeichert werden. Diese Abfolge wird Bitstream genannt. Bitstream-Preservation ist die Fähigkeit, den Bitstream über Technologiewechsel hinaus zu erhalten. Sie bildet eine Grundvoraussetzung für die digitale Langzeitarchivierung. Bitstream-Preservation garantiert nur den exakten Erhalt der zugrunde liegenden Bitfolge und macht keine Aussagen darüber, ob die Daten, die der Bitstream repräsentiert in der Zukunft noch sinnvoll dargestellt oder ausgewertet werden können. 

Born digital

Rein elektronisch produzierte Daten und Dateien werden als born digital bezeichnet. Werden Objekte erst in späterer Folge digitalisiert, trifft dieser Begriff nicht mehr zu. Im Gegensatz zu analogen Daten und Materialien, wie zum Beispiel Umfragen in Papierform, begünstigen born digital-Ressourcen die Auffindbarkeit und Verwendung der jeweiligen Information.

CARE-Prinzipien

Die CARE Principles for Indigenous Data Governance wurden als Ergänzung zu den FAIR-Prinzipien von der Research Data Alliance International Indigenous Data Sovereignty Interest Group erarbeitet und durch die Global Indigenous Data Alliance (GIDA) veröffentlicht.

Das Akronym steht für Collective Benefit, Authority to Control, Responsibility und Ethics. Auf Grundlage der CARE-Prinzipien werden Forschende dafür sensibilisert, dass im Rahmen der Bemühungen um Open Data und Open Science die Rechte und Interessen indigener Völker gewahrt bleiben. Mit Beachtung der CARE-Prinzipien soll u. a. verhindert werden, dass aufgrund unterschiedlicher Machtverhältnisse oder historisch bedingter Ungleichheit das Selbstbestimmungsrecht indigener Personen und Personengruppen missachtet wird.

Cloud

In einer sogenannten Cloud (engl. Wolke) können abseits des lokalen Rechners und des lokalen Netzwerkes Daten gespeichert, geteilt und Software-Anwendungen betrieben werden. Auch Rechnerleistung und andere IT-Services können über Cloud-Anbieter bezogen werden. Da auf die Cloud via Netzwerk von überall und von unterschiedlichen Endgeräten zugegriffen werden kann, ist sie ein wichtiger Bestandteil für die wissenschaftliche Arbeit mit Daten – für den einzelnen Forschenden wie für Forschungsgruppen. Unternehmen oder Organisationen betreiben teilweise Private Clouds, die sie selbst verwalten. Einige große IT-Unternehmen bieten über das Internet standardisierte Public Cloud-Dienste an. Hier ergeben sich insbesondere Bedenken hinsichtlich Datensicherheit und Datenschutz, auch weil die Standorte der Rechenzentren sich häufig außerhalb der EU befinden. Für die Wissenschaft empfiehlt sich daher die Nutzung institutioneller oder regionaler Cloud-Dienste, wie bwSync&Share, Sciebo oder Academic Cloud. 

Creative-Commons-Lizenzen

Um eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten zu gewährleisten, die prinzipiell dem Urheberrecht unterliegen können, kann die Vergabe zusätzlicher Nutzungsrechte z. B. durch eine entsprechende Lizenzierung der Daten in Betracht gezogen werden. Die Verwendung liberaler Lizenzmodelle, insbesondere der weltweit anerkannten Creative-Commons-Lizenzen (CC), ist dabei eine Möglichkeit, Bedingungen für die Nachnutzung der publizierten Forschungsdaten nachvollziehbar festzulegen.

Data-Curation-Profile

Ein Data-Curation-Profile beschreibt die ‚Geschichte‘ eines Datensatzes oder einer Datensammlung, d. h.  die Herkunft und der Lebenszyklus eines Datensatzes innerhalb eines Forschungsprojekts.  Entwickelt von den Purdue University Libraries sind das Profile und das zugehörige Toolkit sowohl ein Werkzeug als auch eine eigene Sammlung von Datensätzen. Das Werkzeug besteht aus einem Interviewinstrument mit dessen Vorlage  eine  sehr gründliche ‚Dateneröterung‘ durchgeführt wird, die während des Ausfüllens zum ‚Profil‘ wird. In der Datensammlung kann nach fertiggestellten Data-Curation-Profiles gesucht werden, um z. B. Informationsdienste im Forschungsdatenmanagement bei der Datenkuration  einer spezifischen Disziplin oder auch Forschungsmethode zu erhalten.

Data Mining

Unter diesem Begriff versteht man die Anwendung automatisierter, statistischer Analysemethoden auf große Datenbestände. Die Auswertung wird computergestützt meist mit Hilfe von komplexen Algorithmen in Datenbanken vorgenommen. Im Rahmen von Data Mining kommen häufig auch künstliche Intelligenz (KI) und zunehmend Visualisierungstechniken zum Einsatz. Das Ziel ist, bislang unbekannte Muster im Datenmaterial zu entdecken und automatisiert Hypothesen zu generieren. Manchmal wird die Bezeichnung Data Mining auch ungenau als Schlagwort für die Erfassung, Speicherung und Verarbeitung großer Datenmengen verwendet.

Data Steward

Data Stewards sind Expertinnen und Experten für Forschungsdatenmanagement. Sie werden an Forschungseinrichtungen eingesetzt, um Forschende beim nachhaltigen Umgang mit ihren Daten zu unterstützen. Dezentrale oder Embedded Data Stewards arbeiten auf der Fakultäts-, Instituts- oder Projektebene und helfen Forschenden bei disziplinspezifischen Anfragen. Zu den Aufgaben von Data Stewards gehören vor allem die Beratung, Schulung, Bedarfsermittlung und Requirements Engineering.

Dateiformat (Dateiart, Dateityp)

Das Dateiformat (manchmal auch Dateiart, Dateityp oder Datenformat genannt) wird bei der Speicherung einer Datei erzeugt und beinhaltet Informationen über die Struktur der in der Datei vorhandenen Daten, deren Zweck und Zugehörigkeit. Mithilfe der im Dateiformat verfügbaren Informationen können Anwendungsprogramme die Daten interpretieren und die Inhalte verfügbar machen. Das Format einer Datei kann in der Regel an einer entsprechenden Endung, die an den eigentlichen Dateinamen angehängt wird, erkannt werden. Diese besteht aus einem Punkt und zwei bis vier Buchstaben. 
Bei sogenannten proprietären Formaten lassen sich die Dateien nur mit den dazugehörigen Anwendungs-, Hilfs- oder Systemprogrammen öffnen, bearbeiten und speichern (zum Beispiel .doc/.docx, .xls/.xlsx). Offene Formate (zum Beispiel .html, .jpg, .mp3, .gif) ermöglichen es hingegen, die Datei mit Software verschiedener Hersteller zu öffnen und zu bearbeiten.
Dateiformate können beim Speichern aktiv durch Konvertierung geändert werden, wobei es aber zu Datenverlust kommen kann. Im wissenschaftlichen Bereich sollte vor allem auf die Kompatibilität, die Eignung zur Langzeitarchivierung und die verlustfreie Konvertierung in alternative Formate geachtet werden.

Datenbankschutzrecht

Das Datenbankschutzrecht schützt eine Datenbank für die Dauer von 15 Jahren vor ungenehmigter Nutzung und Vervielfältigung, sofern für ihre Erstellung eine „wesentliche Investition“ von Geld, Zeit, Arbeitskraft usw. notwendig war (Erreichung der sogenannten „geistigen Schöpfungshöhe“). Das deutsche Datenbankschutzrecht orientiert sich an der EU Datenschutz-Grundverordnung (in Kraft seit 25. Mai 2018). Es bezieht sich nicht auf die Inhalte einer Datenbank, die wieder für sich genommen dem Urheberrecht unterliegen können, sondern auf die systematische oder methodische Zusammenstellung als solche. 

Datenjournal

Grundsätzlich streben Datenjournale die Nachnutzung von Forschungsdaten und deren Anerkennung als wissenschaftliche Leistung an und versuchen, die Transparenz von wissenschaftlichen Methoden und Ergebnissen zu verbessern, gute Daten­management­praktiken zu unterstützen und einen dauerhaften Zugang zum Datensatz zur Verfügung zu stellen. Datenjournale sind Publikationen mit dem Hauptzweck, Datensätze zu veröffentlichen. 

Datenlebenszyklus

Das Modell des Datenlebenszyklus veranschaulicht alle Stationen, die Forschungsdaten durchlaufen können, von der Erhebung bis hin zu ihrer Nachnutzung. Die Stationen des Datenlebenszyklus können variieren, im Allgemeinen umfasst der Datenlebenszyklus aber folgende Phasen: 

  • Forschungsvorhaben planen (inklusive Umgang mit den Daten im Forschungsprojekt, siehe Datenmanagementplan)
  • Erstellung/Erhebung
  • Aufbereitung und Analyse
  • Teilen und Publizieren
  • Archivierung
  • Nachnutzung. 

Datenkuration

Datenkuration beschreibt, welche Management­aktivitäten erforderlich sind, um Forschungsdaten (langfristig) zu pflegen, sodass sie für die Wieder­verwendung und Erhaltung verfügbar sind. Im weitesten Sinne bedeutet Kuration eine Reihe von durchgeführten Aktivitäten und Prozessen, um eine Komponente zu erstellen, zu verwalten, zu halten und zu validieren.  Es ist somit die aktive und laufende Datenverwaltung während des Datenlebenszyklus. Datenkuration ist ein notwendiges Element sowohl für das Suchen, Auffinden und Abrufen der Daten als auch deren Qualitätserhalt, Mehrwert und Wiederverwendung im Laufe der Zeit.

Datenmanagementplan (DMP)

Ein Datenmanagementplan (DMP) beschreibt den Umgang mit Forschungsdaten, die in einem Projekt produziert oder genutzt werden, während der Projektlaufzeit und darüber hinaus. Der DMP enthält Regelungen, die innerhalb des Projektteams vereinbart und angewendet werden. Er hilft, das Datenmanagement systematisch zu planen und transparent umzusetzen. 
Der Datenmanagementplan dokumentiert die (geplante) Erhebung, Speicherung, Dokumentation, Pflege, Verarbeitung, Weitergabe, Veröffentlichung und Aufbewahrung der Daten, ebenso wie die erforderlichen Ressourcen, rechtlichen Randbedingungen und verantwortlichen Personen. Somit trägt ein DMP zur Qualität, langfristigen Nutzbarkeit und Sicherheit der Daten bei und unterstützt zum Beispiel bei der Umsetzung der FAIR-Prinzipien

Ein DMP ist ein lebendes Dokument, das heißt, dass er während des Projektes regelmäßig aktualisiert wird. Einige Fördergeber verlangen auf Grundlage ihrer Richtlinien die Einreichung eines DMP mit dem Projektantrag, meistens ist eine erste Version jedoch erst zu oder kurz nach Projektbeginn erforderlich.

Im DMP sind beispielsweise folgende Fragen zu klären: 

  • Welche Daten werden im Projekt verwendet und woher kommen sie?
  • Welche Infrastruktur, Software und Lizenzen werden benötigt?
  • Welche Daten werden im Projekt generiert (Art, Umfang etc.)?
  • Welche Daten sollen nach Projektende veröffentlicht und/oder archiviert werden?
  • Wo sollen die Daten veröffentlicht und/oder archiviert werden?
  • Wer ist für die Beschreibung mit Metadaten zuständig?
  • Wer darf die Daten nach Projektende nutzen? Unter welchen Lizenzbestimmungen?

Datenmapping (Mapping)

Datenmapping ist der Prozeß der Überführung von Daten(elementen) von einem Datenmodell zu einem anderen. Dies ist der erste Schritt zur Integration von fremden Informationen in ein eigenes Informationssystem. Es umfaßt die Datentransformation während eines elektronischen Datenaustauschs, für den sehr häufig die Auszeichnungssprache XML und das Datenformat JSON verwendet werden. 


Datenrichtlinie

Eine Datenrichtlinie (auch Forschungsdatenrichtlinie oder Research data policy) ist ein Dokument, welches vorschreibt, wie an der betreffenden Institution mit Forschungsdaten umgegangen werden soll.

Dies soll dazu beitragen, dass die wichtige Ressource Forschungsdaten effizient gemanagt wird. Es existieren in Deutschland mittlerweile sowohl Datenrichtlinien einzelner Universitäten (institutionelle Policys) als auch interdisziplinäre und disziplinäre Richtlinien. Auch einige wissenschaftlichen Journale und die meisten Forschungsförderer (Forschungsräte, Vereine und Stiftungen) im internationalen Raum haben inzwischen eine solche Datenrichtlinie eingeführt.

Datensicherung (Backup)

Die Sicherung von Daten wird meistens als ein Backup oder eine Sicherungskopie bezeichnet und dient der Wiederherstellung der ursprünglichen Daten im Falle eines Datenverlusts. Dabei sind verschiedene Verfahren von Datensicherung zu unterscheiden:

  • Das Backup (Komplettsicherung) wird meistens in regelmäßigen Abständen automatisch erstellt und an einem anderen Ort als die Originaldaten aufbewahrt, damit die physische Beschädigung durch Brand und Ähnliches nicht zum vollständigen Datenverlust führt.
  • Durch eine differenzielle Sicherung werden nur die Daten gesichert, die seit der letzten Komplettsicherung geändert wurden und hinzugekommen sind. Es handelt sich also um eine punktuelle Änderung einer Komplettsicherung, die weniger zeitaufwendig und speicherintensiv ist als eine neue Komplettsicherung.
  • Im Gegensatz dazu werden bei einer inkrementellen Sicherung nur die Dateien oder Teile von Dateien gespeichert, die seit der letzten inkrementellen Sicherung geändert wurden und hinzugekommen sind. Diese Form der Sicherung hat den geringsten Speicherbedarf. Bei einer Wiederherstellung muss kettenartig und aufwendig auf mehrere Teilsicherungen zurückgegriffen werden. 
  • Mit einem Speicherabbild (image backup) wird ein kompletter Datenträger (Festplatte, Netzlaufwerk etc.) gesichert, sodass außer den Daten auch alle Nutzereinstellungen und Programme sowie ggf. das Betriebssytem mitgesichert werden. Eine Wiederherstellung einer solchen Sicherung kann den Totalausfall eines Computers rückgängig machen.

Datenschutz

Unter Datenschutz werden technische und organisatorische Maßnahmen gegen den Missbrauch von personenbezogenen Daten verstanden. Ein Missbrauch liegt vor, wenn solche Daten unbefugt erhoben, verarbeitet oder genutzt werden. Geregelt ist der Datenschutz in der EU Datenschutz-Grundverordnung (DSGVO), im Bundesdatenschutzgesetz und in den entsprechenden Gesetzen auf Ebene der Bundesländer, z. B. im  Landesdatenschutzgesetz des Landes Baden-Württemberg.

In der Forschung fallen personenbezogene Daten insbesondere in medizinischen und sozialwissenschaftlichen Studien an. Die Verschlüsselung und Aufbewahrung an besonders gesicherten Orten ist hier zwingend erforderlich. Durch nachträgliche Pseudonymisierung oder Anonymisierung kann der Personenbezug aber soweit aufgehoben werden, dass sogar eine Publikation dieser Daten rechtlich möglich wird.

Datenzentrum

Ein Datenzentrum ist ein zentrales Repositorium, welches für eine bestimmte Wissens- und/oder Gedächtnisinstitution die Speicherung, Verwaltung und Verbreitung von Daten und Informationen übernimmt. Datenzentren für Forschungsdaten sind zumeist aus unabhängigen wissenschaftlichen Initiativen hervorgegangen.

Digitalisat

Ein Digitalisat ist das Endprodukt eine Digitalisierung. Während der Digitalisierung wird ein analoger Gegenstand (Buch, Handschrift, Bild, Plastik, etc.) in digitale Werte überführt, um diesen elektronisch zu speichern. Gegenüber dem analogen Gegenstand ist die einfache Verteilung und Nutzung von Forschungsdaten als Digitalisat und die Möglichkeit einer maschinellen Verarbeitung von Vorteil. Außerdem verhindert die Arbeit mit Digitallisaten die Verfälschung bzw. Beschädigung des Originals durch weitere analoge Verarbeitung.

DINI-Zertifikat

Das DINI-Zertifikat (Deutsche Initiative für Netzwerkinformationen) ist ein weithin anerkanntes Gütesiegel für Repositorien. Die Vergabe des DINI-Zertifikat garantiert eine hohe Qualität des Dienstes (Repositoriums) für Autoren, Nutzer, Geldgeber und der Leitung der zertifizierten Einrichtung. Es signalisiert, dass festgelegte Maßstäbe, Richtlinien und Empfehlungen (Best Practices) der Open-Access-Bewegung umgesetzt wurden. Mit der Version 2013 des DINI-Zertifikats können sich auch Hosting-Anbieter bestätigen lassen, dass bestimmte Mindestanforderungen aus dem Kriterienkatalog grundsätzlich für alle von ihnen betreuten Dienste erfüllt sind. Diese Kriterien werden für den entsprechenden Hosting-Anbieter als DINI-ready markiert und müssen später beim Zertifizierungsprozess nicht mehr gesondert vom Dienstanbieter ausgewiesen werden.

Digital object identifier (DOI)

Ein Digital Object Identifier (DOI) ist eines der gebräuchlichsten Systeme zur persistenten Identifikation digitaler Dokumente. Ein DOI bleibt über die gesamte Lebensdauer eines bezeichneten Objekts gleich. Das DOI-System wird von der International DOI Foundation gemanagt. Ein weiteres bekanntes System zur persistenten Identifikation ist der Uniform Resource Name (URN).

Elektronische Laborbücher (ELNs)

Elektronische Laborbücher (engl. Electronic Laboratory Notebooks, kurz: ELNs) sind Softwareanwendungen, die zur Dokumentation von Forschungsdaten eingesetzt werden und somit die analogen Papier-Laborbücher oder -journale ersetzen. Sie sollen den gesamten Forschungsprozess von der Planung, über die Durchführung bis hin zur Auswertung der wissenschaftlichen Experimente standardisiert darstellen und transparent machen. Um die Daten besser zu finden, stehen Suchfunktionen und Filtermöglichkeiten zur Verfügung. Auf die ELNs kann unabhängig von Zeit und Ort zugegriffen werden. Es gibt verschiedene Arten von ELNs aufgrund der unterschiedlichen Anforderungen der Fachdisziplinen.

Embargo

Ein (zeitliches) Embargo definiert einen Zeitraum, in welchem lediglich Beschreibung der Forschungsdaten, also die deskriptiven Metadaten, beispielsweise in einem Repositorium einsehbar sind. Die zugehörige Datenpublikation ist nicht zugänglich. Ein Embargo kann verwendet werden, wenn Forschungsdaten (z.B. im Rahmen eines Peer-Review-Prozesses) zeitverzögert publiziert werden sollen.

Enhanced Publication

Eine „Enhanced Publication“ ist im Bereich der Wissenschaft eine elektronische Publikation, die mit den dazugehörigen öffentlich zugänglichen digitalen Forschungsdaten verknüpft ist.

Fachinformationsdienste (FID)

Fachinformationsdienste (FID) für die Wissenschaft ist ein Förderprogramm für wissenschaftliche Bibliotheken der Deutschen Forschungsgemeinschaft. Es soll Informationsinfrastrukturen für die Forschung stärken und verbessern. Es ist das Nachfolgerprogramm der seit 1949 geförderten Sondersammelgebiete an wissenschaftlichen Bibliotheken in Deutschland. Viele FID bieten spezifische Informationen zu Forschungsdatenmanagement in ihrem Fachbereich an.

FAIR Data

Der Begriff FAIR (Findable, Accessible, Interoperable und Reusable) Data wurde 2016 erstmals von der FORCE 11-Community für ein nachhaltiges Forschungsdatenmanagement geprägt. Hauptziel der FAIR Data Prinzipien ist eine optimale Aufbereitung der Forschungsdaten, die demnach auffindbar, zugänglich, interoperabel und wiederverwendbar sein sollen. Die FAIR-Prinzipien wurden auch von der Europäischen Kommission in den Förderrichtlininen des EU Horizon 2020 aufgenommen und sind auch Teil des Antrags des Nachfolgeförderprojekts Horizon Europe.

Forschungsdaten

Forschungsdaten sind (digitale) Daten, die während wissenschaftlicher Tätigkeit (z. B. durch Messungen, Befragungen, Quellenarbeit) entstehen. Sie bilden eine Grundlage wissenschaftlicher Arbeit und dokumentieren deren Ergebnisse.

Daraus ergibt sich ein disziplin- und projektspezifisches Verständnis von Forschungsdaten mit unterschiedlichen Anforderungen an die Aufbereitung, Verarbeitung und Verwaltung der Daten: dem sogenannten Forschungsdatenmanagement. Bisweilen wird auch zwischen Primärdaten und Metadaten unterschieden, wobei letztere je nach Fachbereich oft nicht als Forschungsdaten im engeren Sinne gelten. 

Forschungsdatenmanagement

Unter Forschungsdatenmanagement versteht man den Prozess der  Transformation, Selektion und Speicherung von Forschungsdaten mit dem Ziel, diese langfristig und unabhängig vom Datenerzeuger zugänglich, nachnutzbar und nachprüfbar zu halten. Es können dazu an  allen Punkten des Datenlebenszyklus strukturierte Maßnahmen ergriffen werden, um die wissenschaftliche  Aussagekraft von Forschungsdaten zu erhalten, deren Zugänglichkeit  durch Dritte für Auswertung und Analyse zu bewahren und die Nachweiskette zu sichern.

Gute wissenschaftliche Praxis

Die Leitlinien der guten wissenschaftlichen Praxis dienen als Orientierung im Rahmen wissenschaftlicher Arbeitsprozesse. In Deutschland sind diese Regeln zum Beispiel in Empfehlung 15 bis 17 der Deutschen Forschungsgemeinschaft (DFG)  zu finden. Hier heißt es: „Wissenschaftlerinnen und Wissenschaftler sichern öffentlich zugänglich gemachte Forschungsdaten beziehungsweise Forschungsergebnisse sowie die ihnen zugrunde liegenden, zentralen Materialien und gegebenenfalls die eingesetzte Forschungssoftware, gemessen an den Standards des betroffenen Fachgebiets, in adäquater Weise und bewahren sie für einen angemessenen Zeitraum auf. Sofern nachvollziehbare Gründe dafür existieren, bestimmte Daten nicht aufzubewahren, legen die Wissenschaftlerinnen und Wissenschaftler dies dar. Hochschulen und außerhochschulische Forschungseinrichtungen stellen sicher, dass die erforderliche Infrastruktur vorhanden ist, die die Archivierung ermöglicht.“ Damit soll gewährleistet sein, dass Forschungsergebnisse überprüfbar bleiben. Eine Publikation der Daten fördert zudem die Nachnutzbarkeit der Forschungsdaten.

Harvesting

Als Harvesting bezeichnet man das automatische ‚Einsammeln‘ von Daten bzw. von Metadaten aus Archiven und Repositorien über sogenannte Data-Provider (wie bspw. BASE, OAIster oder Scientific Commons).

Für diesen Vorgang werden sogenannte Harvesting-Protokolle verwendet, die die Daten automatisiert abgreifen. Eines der am häufigsten verwendeten Harvesting-Protokolle ist das Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH), welches auf XML basiert. Da eine Vielzahl sehr unterschiedlicher Metadatenstandards existieren, hat man sich für ein Harvesting per OAI-PMH für das Dublin-Core-Modell als kleinsten gemeinsamen Nenner für die Metadaten­repräsentation entschieden.

Hochleistungsrechnen

Hochleistungsrechnen (englisch: high-performance computing – HPC) umfasst einen bestimmten Bereich des computergestützten Rechnens, der für die Bearbeitung von komplizierten oder umfangreichen Berechnungen große Anforderung an die Rechenleistung und Speicherkapazität stellt. Hierbei spielt vor allem die parallele Verarbeitung von Rechenaufgaben eine wichtige Rolle. Optimierte Rechencluster sind auf eine möglichst schnelle Anbindung und extrem kurze Antwortzeiten der jeweiligen Computereinheiten untereinander angewiesen.

In Baden-Württemberg besteht beispielsweise das Projekt bwHPC-S5 (Scientific Simulation and Storage Support Services). Das primäre Ziel des Projektes ist die Etablierung einer integrierten landesweiten Rechen- und Dateninfrastruktur. Eine einheitliche landesweite Nutzerunterstützung wird durch die hochschulübergreifende Koordination effizient ausgestaltet. 
Das Projekt wird durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg gefördert. Die Förderung folgt der Landesstrategie zu High Performance Computing und Data Intensive Computing.

Ingest

Als Ingest (Übernahme) bezeichnet man die Phase im Datenlebenszyklus, in welchem Forschungsdaten in ein Archiv oder Repositorium aufgenommen werden. Zunächst erfolgt eine Bestätigung, dass das Datenpaket erhalten wurde und es muss entschieden werden, welche der Daten in welcher Form übernommen werden.

Je nach dem zu übernehmenden Inhalt, können die daran anschließenden Workflows variieren. Die Daten werden jedoch zumeist Qualitätskontrollen (bspw. Überprüfung der Metadaten oder der Vertraulichkeit) und verschiedenen Aufbereitungsprozessen (Metadatenanreicherung etc.) unterzogen.

Institutionelles Repositorium

Institutionelle Repositorien werden von einer Einrichtung, zum Beispiel einer Universität, betrieben und bieten den Mitgliedern der Institution die Möglichkeit zur digitalen Publikation und Archivierung ihrer wissenschaftlichen Daten. Sie bilden damit nach außen auch den Forschungsoutput der Institution ab und garantieren die Langzeitverfügbarkeit der Daten. Im Unterschied zu Fachrepositorien sind sie nicht disziplinär ausgerichtet.

Interoperabilität

Interoperabilität ist die Fähigkeit des nahtlosen Zusammenspiels zwischen unterschiedlichen Systemen. Interoperable Systeme sind in der Lage, Daten auf effiziente Weise auszutauschen, sie maschinell zu interpretieren und automatisiert mit anderen Datensätzen zu kombinieren. Interoperabilität ist eines der Hauptkriterien für FAIRe Daten. Metadatenschemata helfen dabei, interoperable Metadaten zu erstellen. Für die Metadaten zu Forschungsdaten sollte eine „formale, zugängliche, gemeinsame und allgemein anwendbare Sprache“ (laut GO FAIR) verwendet werden. Die Sprache basiert idealerweise auf kontrolliertem Vokabular und besitzt die Fähigkeit, syntaktisch und semantisch interpretierbar zu sein. Mittels persistenter Identifikatoren können verschiedene (Meta-)Daten miteinander verknüpft werden.

JavaScript Object Notation (JSON)

JSON ist ein kompaktes, leicht lesbares und softwareunabhängiges Datenformat für den Datenaustausch zwischen Anwendungen. Es wird insbesondere bei Webanwendungen zur Übertragung von strukturierten Daten eingesetzt, um diese in andere Systeme bzw. Anwendungen zu integrieren. Für die die gleiche Information benötigt JSON bedeutend weniger Speicherplatz als ein XML, ist aber dafür nicht so vielseitig einsetzbar.

Kontrolliertes Vokabular

Ein kontrolliertes Vokabular ist ein normierter Sprachgebrauch, in dem ein Wort oder eine Phrase genau eine Bedeutung hat. Das kontrollierte Vokabular wird zum Beispiel beim Vergeben von Schlagworten (Keywords) in Metadaten verwendet, um ein digitales Objekt zu beschreiben. Diese Schlagwortvergabe bezieht sich dann auf eine Sammlung von Wörtern bzw. Phrasen, die etwa in einer Normdatei für die Katalogisierung oder in einem Index für das Harvesting und Retrieval hinterlegt sind. Eine zentrale Aufgabe des kontrollierten Vokabulars ist die Verknüpfung von Synonymen, die zum gleichen Suchergebnis führen. 

Künstliche Intelligenz (KI)

KI steht für „Künstliche Intelligenz“ (im Englischen: AI für „Artificial Intelligence“) und bezeichnet ein Teilgebiet der Informatik. So wird KI auch für das Nachbilden bestimmter Entscheidungsstrukturen des Menschen mittels Maschineneinsatzes bezeichnet. Diese nachgeahmte Intelligenz führt dazu, dass Maschinen oder Anwendungen mittels Algorithmen kognitive Fähigkeiten wie Lernen, Urteilen und Problemlösen erbringen können. Der Begriff ist schwer definierbar, da es bereits an einer eindeutigen Definition von „Intelligenz“ mangelt.

Mithilfe des Maschine Learning (ML), werden IT-Systeme in die Lage versetzt, auf Basis vorhandener großer Datenbestände und Algorithmen, Muster und Gesetzmäßigkeiten zu erkennen und Lösungen zu entwickeln. Es wird quasi künstliches Wissen aus Erfahrungen generiert. Hierfür wird auch die Methode des    Deep Learning genutzt, das künstliche neuronale Netze mit zahlreichen Zwischenschichten zwischen Eingabeschicht und Ausgabeschicht einsetzt und dadurch eine komplexe, tiefe Struktur herausbildet. Mehr zu KI

Langzeitarchivierung

Das Ziel der Langzeitarchivierung ist es, den Zugang zu archivierten Daten über einen langen Zeitraum zu ermöglichen. Eine Aufbewahrungfrist der Forschungsdaten für einen Zeitraum von mindestens zehn Jahren hat sich als Standard etabliert. Dabei gilt es, einem Datenverlust vorzubeugen, die authentische Datenwiedergabe langfristig zu ermöglichen und ein geeignetes Archivierungssystem (Metadaten, Struktur) zu verwenden. Im Zuge der Planung werden die verschiedenen Aspekte der IT-Infrastruktur, wie Hard- und Software berücksichtigt. Zusätzlich sollten gesellschaftliche Entwicklungen mit in die Planung einbezogen werden.

Lizenz

Eine Lizenz ist ein vertraglich vereinbartes Nutzungsrecht. Damit erlaubt der Rechteinhaber seinem Vertragspartner, ein Werk auf verschiedene Arten zu nutzen (z. B. zu kopieren, zu speichern oder digital zugänglich zu machen). Vielfach verlangen die Rechteinhaber dafür eine Lizenzgebühr. Neben solchen kommerziellen Lizenzen stehen auch freie Lizenzen beispielsweise die Creative-Commons-Lizenzen zur Verfügung. Diese gestatten die unentgeltliche Nutzung des Werkes.

Maschinell verwertbare Daten

Maschinell verwertbare Daten können von Computersystemen automatisch gefunden und verwendet werden, ganz ohne oder mit nur minimaler Unterstützung durch den Menschen. Voraussetzung für die maschinelle Nutzbarkeit ist eine einheitliche Datenstruktur. Die Maschinen oder Computer, die diese Daten lesen und nutzen sollen, werden auf der Grundlage dieser Struktur programmiert.

Metadaten

Metadaten sind an sich unabhängige Daten, die strukturierte Informationen über andere Daten bzw. Ressourcen und deren Merkmale enthalten. Sie werden unabhängig von oder zusammen mit den Daten, die sie näher beschreiben, abgespeichert. Eine genaue Definition von Metadaten ist schwierig, weil der Begriff zum einen in unterschiedlichen Kontexten verwendet wird, und zum anderen die Unterscheidung zwischen Daten und Metadaten je nach Blickwinkel unterschiedlich ausfällt.

Meist unterscheidet man zwischen fachlichen und technischen bzw. administrative Metadaten. Während letztgenannte einen klaren Metadatenstatus haben, können fachlich Metadaten bisweilen auch als Forschungsdaten begriffen werden.

Um die Wirksamkeit von Metadaten zu erhöhen, ist eine Standardisierung der Beschreibung unbedingt erforderlich. Durch einen Metadatenstandard können Metadaten aus unterschiedlichen Quellen miteinander verknüpft und gemeinsam bearbeitet werden.

Metadatenschema

Ein Metadatenschema organisiert die Struktur von Metadaten. Es legt fest, welche Elemente zur Beschreibung von analogen und digitalen Objekten wie Forschungsdaten verpflichtend sind, und welche Informationen in welchem Format angegeben werden sollen. Ein standardisiertes Datenschema vereinfacht die Dateneingabe und erhöht die Qualität der Metadaten. Vor allem aber ermöglichen strukturierte Metadaten die Maschinenlesbarkeit und den Austausch von Informationen zwischen verschiedenen Anwendungen und gewährleisten eine langfristige Nachnutzbarkeit.

Metadatenstandard

Um die Interoperabilität, d. h. die Verknüpfung und gemeinsame Bearbeitung, von Metadaten zu gewährleisten, wurden für bestimmte Zwecke Metadatenstandards geschaffen. Sie dienen einer inhaltlich als auch strukturell gleichförmigen Beschreibung von ähnlichen Daten. Ein Metadatenstandard kann oft durch ein sogenanntes Mapping in einen anderen Metadatenstandard überführt werden.

Nationale Forschungsdateninfrastruktur (NFDI)

Die NFDI soll eine verteilte und vernetzte Infrastruktur werden, die Dienste-Portfolios und Beratungsleistungen für die Erzeugung und Nutzung von Forschungsdaten anbietet. Sie wird in Gestalt von Konsortien entlang fachlicher Domänen oder methodischer Kriterien organisiert werden.

Die NFDI soll „die Datenbestände von Wissenschaft und Forschung systematisch erschließen, nachhaltig sichern und zugänglich machen sowie (inter-)national vernetzen. Sie wird in einem aus der Wissenschaft getriebenen Prozess als vernetzte Struktur eigeninitiativ agierender Konsortien aufgebaut werden.“ DFG

Die Initiative zum Aufbau der NFDI wurde von der Gemeinsamen Wissenschaftskonferenz (GWK) initiiert und wird von Bund und Ländern finanziert. Die DFG verantwortet die Begutachtung und Bewertung der Konsortien-Anträge. Die Auswahl in drei Runden. Neun erste NFDI-Konsortien nahmen zum Oktober 2020 ihre Arbeit auf. Zwei weitere Auswahlrunden folgen in den Jahren 2020 und 2021.

Normdaten

Um Personen, Institutionen, Forschungsförderer etc. eindeutig identifizieren zu können, sind Normdaten entwickelt wurden. Bei der Digitalisierung, Katalogisierung und Archivierung von Texten oder Artefakten werden Normdaten erhoben. Man muss beispielsweise nicht nur den „Namen“ einer Person angeben, sondern außerdem noch die „Nummer“ von ihr, damit es zu keiner falschen Zuordnung kommt. Unabhängig von Schreibweisen, sind die Informationen zum Suchbegriff dadurch auffindbar. Die „Gemeinsame Normdatei“ (GND) der Deutschen Nationalbibliothek ist in Deutschland die zentrale Normdatei.

OAI-PMH

Das Protocol for Metadata Harvesting (PMH) der Open-Archives-Initiative (OAI) unterstützt das automatisierte Harvesting von Metadaten über sogenannte Data Provider und Service Provider. Das auf XML basierende Protokoll macht die in Repositorien abgelegten Daten besser zugänglich. Es ist weit verbreitet und einfach anzuwenden. Als standardisiertes Kommunikationsprotokoll entspricht es den FAIR-Prinzipien der Zugänglichkeit: es ist offen und universell implementierbar.

Open Access

Unter Open Access wird ein kostenloser und möglichst barrierefreier Zugang zu digitalen wissenschaftlichen Inhalten verstanden. Den Nutzern werden in der Regel umfangreiche Nutzungsrechte und einfache Zugangswege ermöglicht. Die Urheberschaft verbleibt dabei in der Hand des Urhebers. Durch Open Access können wissenschaftliche Informationen maximal verbreitet, genutzt und weiterverarbeitet werden. Open Access stellt eine wichtige Errungenschaft der Open-Science-Bewegung dar.

Bei der Veröffentlichung von wissenschaftlichen Inhalten werden zwei Wege unterschieden:

  • Die Veröffentlichung von wissenschaftlichen Inhalten in einem Open-Access-Medium, wird als „Goldener Weg“ bezeichnet.
  • Die Veröffentlichung einer kostenpflichtigen und einer parallelen kostenfreien Version, wird „Grüner Weg“ genannt.

Open Data

Open Data (offene Daten) bezeichnet Daten, die von Dritten zu jedem Zweck (etwa zur Information, Auswertung oder auch bis hin zu wirtschaftlichen Weiterverwendung) genutzt, weiterverbreitet und weiterverwendet werden dürfen. Einschränkungen der Nutzung sind lediglich erlaubt, um den Ursprung und die Offenheit des Wissens zu wahren, so kann etwa durch die Kennzeichnung mit CC-BY darauf bestanden werden, dass die Urheberin oder der Urheber genannt werden muss. Die Idee von offenen Daten ist es, dass durch die freie Nachnutzung eine größere Transparenz gegeben ist und mehr Zusammenarbeit entsteht.

ORCID

Die Open Research and Contributor (ORCID) -iD  ist ein international anerkannter persistenter Identifikator, mit dessen Hilfe Forschende eindeutig identifiziert werden können. Die iD ist verlagsunabhängig und kann dauerhaft sowie institutionsunabhängig von Forschenden für ihren wissenschaftlichen Output verwendet werden. Sie besteht aus 16 Ziffern, die in vier Viererblöcken dargestellt sind (z.B. 0000-0002-2792-2625). Die ORCID-iD ist als Identifizierungsnummer bei zahlreichen Verlagen, Universitäten und wissenschaftsnahen Einrichtungen etabliert und wird in den Workflow z. B. bei der Begutachtung von Zeitschriftenartikeln integriert.

Um ORCID in Deutschland zu fördern, wurde das Projektvorhaben „ORCID DE – Förderung der Open Researcher and Contributor ID in Deutschland“ gebildet und von der Deutschen Forschungsgemeinschaft (DFG) Anfang 2016 für drei Jahre gefördert.
Ziel des DFG-Projekts ORCID DE ist es, die vielerorts erwogene Implementierung der ORCID-iD an Hochschulen und außeruniversitären Forschungseinrichtungen durch einen übergreifenden Ansatz nachhaltig zu unterstützen. In Baden-Württemberg sprach der AK FDM eine Empfehlung für ORCID aus.

Persistenter Identifikator (PID)

Als Persistent Identifier versteht man im Forschungsdatenmanagement einen dauerhaften (persistenten), digitalen Identifikator, bestehend aus Ziffern und/oder alphanumerischen Zeichen, welcher einem Datensatz (oder einem anderen digitalen Objekt) zugeordnet wird und direkt auf diesen verweist.

Häufig verwendete Identifikator-Systeme sind DOI (Digital Object Identifiers) und URN (Uniform Resource Names). Im Gegensatz zu anderen seriellen Identifikatoren (bspw. URL-Adressen) verweist ein Persistent Identifier auf das Objekt selbst und nicht auf seinen Standort im Internet. Ändert sich der Standort eines mit einem Persistent Identifier assoziierten digitalen Objekts, so bleibt der Identifikator derselbe. Es muss lediglich in der Identifikator-Datenbank der URL-Standort geändert oder ergänzt werden. So wird sichergestellt, dass ein Datensatz dauerhaft auffindbar, abrufbar und zitierbar bleibt.

Personenbezogene Daten

Das Bundesdatenschutzgesetz (BDSG) definiert personenbezogene Daten als „Einzelangaben über persönliche oder sachliche Verhältnisse einer bestimmten oder bestimmbaren natürlichen Person (Betroffener)“. Daten können dann als personenbezogen gelten, wenn sie eindeutig einer bestimmten natürlichen Person zugeordnet werden können. Typische Beispiele sind Name, Beruf, Körpergröße oder Nationalität der Person. Das BDSG schreibt zudem vor, dass Angaben über ethnische Herkunft, politische Meinung, religiöse oder philosophische Überzeugung, Gewerkschaftszugehörigkeit, Gesundheit und Sexualleben eine besonders schutzwürdige Art von personenbezogenen Daten darstellen und daher strengeren Schutzauflagen unterliegen.

Primärdaten

Direkt aus einer Datenerhebung gewonnene beziehungsweise aus einer Untersuchung oder Beobachtung eines Phänomens erhobene Daten werden als Primärdaten (oder Rohdaten) bezeichnet. Primärdaten können beispielsweise unbearbeitete, ungeprüfte und unkommentierte Messdaten oder Audio- und Videoaufzeichnungen sein. Aus den Primärdaten abgeleitete Daten werden als Sekundärdaten bezeichnet. 

Prüfsumme

Eine Prüfsumme ist ein aus einem digitalen Objekt (beispielsweise eine Datei oder ein Datensatz) berechneter (Zahlen-)Wert, der dazu dient die Integrität des digitalen Objektes zu kontrollieren. Dabei wird der Algorithmus, mit dem die Prüfsumme aus den einzelnen Bits der vorliegenden Datei berechnet wird, so gewählt, dass eine Veränderung der Datei, etwa verursacht beim Kopieren durch ein "umgedrehtes Bit" (0 statt 1 oder 1 statt 0), auch zu einer Veränderung der Prüfsumme führt. Wird das digitale Objekt kopiert können die Prüfsummen von Ursprungsdatei und kopierter Datei berechnet und verglichen werden. Weichen die Prüfsummen voneinander ab, wurde beim Kopieren ein Fehler gemacht.
Eine einfache Form der Prüfsumme ist sind die Prüfziffern der IBAN oder der ISBN. Die Prüfsummen für Dateien, die beispielsweise von Datenrepositorien berechnet werden, um die Unverändertheit der Daten zu überprüfen, basieren meist auf sogenannten kryptographischen Hash-Funktionen, die auf den Bitstream angewendet werden. Diese Funktionen reagieren auf kleinste Änderungen der Ausgangsdaten mit nahezu vollständig anderen Prüfsummen. Ein Beispiel für eine solche Hash-Funktion ist MD5-Funktion, die von Zenodo oder RADAR genutzt wird. Die Prüfsumme ist hierbei eine 32-stellige Hexadezimalzahl.

Pseudonymisierung

Im Gegensatz zur Anonymisierung werden bei der Pseudonymisierung lediglich bestimmte Identifikationsmerkmale, wie beispielsweise der Name, durch ein Pseudonym (ein Buchstaben- und/oder Zahlencode) ersetzt werden, um so die Bestimmung der betroffenen Personen zu erschweren oder auszuschließen (BDSG § 3, Abs. 6a). Während der Dauer einer wissenschaftlichen Studie ist es häufig unvermeidlich personenbezogene Daten und Code in einer Referenzliste und die Studiendaten in einer davon getrennten Datenbank zu führen, also eine Pseudonymisierung von Daten durchzuführen. Eine Anonymisierung der Daten erreicht man, indem die Referenzliste, beispielsweise nach Abschluss der Studie, gelöscht wird, sodass kein Bezug zwischen einzelnen Personen und den Studienergebnissen mehr hergestellt werden kann.

ReadMe-Datei

ReadMe-Dateien enthalten in kompakter und strukturierter Form Informationen zu Forschungsdaten, Forschungsdatensätzen oder Forschungsdatenkollektionen und liegen häufig als einfache Textdatei oder in TEI-xml vor (.txt; .md; .xml). In diesem Sinn können ReadMe-Dateien begleitend zu Forschungsdaten publiziert werden oder der strukturierten Ablage von Forschungsdaten am Ende eines Projekts (z. B. auf einem Institutsserver oder einem Repositorium zur Archivierung) dienen. ReadMe-Dateien versammeln zentrale Metadaten zum Projekt, in dem die Daten entstanden sind (z. B. Projektname, beteiligte Personen, Förderung), geben Informationen zu verwendeten Benennungsstandards, Ordnerstrukturen, Abkürzungen und Normdaten und zeichnen Änderungen an und Versionierungen von Forschungsdaten auf.

Rechte an Daten

Rechte an bzw. über Daten können aus zwei Blickwinkeln definiert werden. Aus Sicht der Forschenden sind dies Entscheidungsbefugnisse über die Daten, die sich aus der Erzeugung ergeben. Aus Sicht von Nutzerinnen und Nutzern handelt es sich um die Rechte, welche bei Nachnutzung von Daten zu beachten sind. Rechte können in Form von Lizenzen und zugehörigen Lizenztexten sowie Vereinbarungen in rechtlich verbindlicher Form festgelegt und kommuniziert werden.

Für die Nachnutzung von Daten  gelten mindestens die Regeln der guten wissenschaftlichen Praxis, d. h. im Wesentlichen die Pflicht, Urheber korrekt zu zitieren (Urheberrecht). Mit Vergabe der Creative-Commons-Lizenz CC-BY lässt sich diese Regel durch den Datenerzeuger auch lizenzrechtlich weitgehend nachbilden. Datenschutz-, patent- und persönlichkeitsrechtliche Einschränkungen können die Nachnutzung erschweren. 

Replikationsstudie

Eine Replikationsstudie ist eine wissenschaftliche Untersuchung, die überprüft, ob die Ergebnisse einer vorangegangenen Untersuchung reproduzierbar ist.

Repositorium

Ein Repositorium kann als eine spezielle Form des Archivs betrachtet werden. Im digitalen Zeitalter wird unter dem Begriff Repositorium ein verwalteter Speicherort für digitale Objekte verstanden. Da Repositorien meistens öffentlich oder einem eingeschränkten Nutzerkreis zugänglich sind, ist dieser Begriff eng mit  Open Access verknüpft. 

Richtlinien, Regeln, Policys

Richtlinien (engl. policies) sollen für alle Mitarbeiter einer Institution festschreiben, welche Verfahren beim Forschungsdatenmanagement eingesetzt werden sollen und wie mit Forschungsdaten umzugehen ist. In Deutschland gibt es fast keine Forschungsdaten-Policys (Datenrichtlinien) mit detaillierten Vorgaben sondern zumeist nur grundlegende Eigenverpflichtungen etwa zu den Prinzipien des Open Access.

Schöpfungshöhe

Bei der Schaffung eines Objektes bzw. Projektes kann die Persönlichkeit des Urhebers im Ergebnis zum Ausdruck kommen. Das Ausmaß davon definiert die Schöpfungshöhe (auch Gesaltungshöhe oder Werkhöhe), welche für die Schutzwürdigkeit nach deutschen Urheberrecht entscheidend ist. Dabei kommt es wesentlich darauf an, dass kein äußerer Zwang (Zielstellung, Funktionalität, Objektivität usw.), sondern der Urheber das Ergebnis individuell gestaltet. Deswegen sind Forschungsdaten fast nie vom Urheberrecht geschützt. Erreicht ein wahrnehmbares Schaffen eines Menschen die nötige Schöpfungshöhe, spricht man von einem Werk.

Semantisches Web

Als Semantisches Web werden die Bemühungen bezeichnet, das World Wide Web zu systematisieren, damit der maschinelle Austausch von Computern leichter und einfacher verwertbar wird. Mit zusätzlichen Informationen (Metadaten) werden zentrale Begriffe einer Webseite, die dort unstrukturiert vorkommen, kontextualisiert, sodass dadurch bspw. klar wird, ob es sich bei ‚Berlin‘ um die Hauptstadt Deutschlands, eine andere Stadt oder einen Namen handelt. Um den Maschinen den Kontext eines Begriffes zu vermitteln, wird auf maschinenlesbare Metadatenstandards zurückgegriffen. Die angestrebte Vernetzung von Information im Web durch die Kontextualisierung steht wegen ihrer Komplexität und des Arbeitsumfanges bisher erst am Anfang, wird die Durchsuchbarkeit des Webs aber sicherlich nachhaltig verbessern.

Softwaremanagementplan

Laut Definition der DINI/nestor AG Forschungsdaten beinhaltet ein Softwaremanagementplan (SMP) allgemeine und technische Informationen zum Softwareprojekt, Angaben zur Qualitätssicherung, zum Release und zur öffentlichen Verfügbarkeit sowie rechtliche und ethische Aspekte, die die Software betreffen.

Der SMP fasst Informationen zusammen, die die Erstellung, Dokumentation, Speicherung, Versionierung, Lizenzierung, Archivierung und/oder Veröffentlichung der in einem Projekt erzeugten oder verwendeten Software hinreichend beschreiben und dokumentieren. Dazugehörige Hardware und notwendige andere Ressourcen, aber auch damit verbundene weitere Software und Softwarebibliotheken, Text- und Datenpublikationen sind ebenfalls zu beschreiben und stellen eine Besonderheit des SMP dar.

Zweck eines SMPs ist zunächst die Nachvollziehbarkeit sowie ggf. die langfristige Nutzbarkeit der Software (zur direkten Anwendung sowie zur Weiterverarbeitung) zu unterstützen und den Support der Nutzer*innen bei Rückfragen zu erleichtern. Der SMP dient folglich auch der Qualitätssicherung (vgl. hierzu FAIR4RS Principles).

Der SMP kann in Verbindung zu einem oder mehreren Datenmanagementplänen (DMP) stehen, falls die Software zur Datengenerierung oder -verarbeitung genutzt wird. SMP und DMP können als Output-Pläne zusammengefasst werden (vgl. Software Sustainability Institute).

Urheberrecht

In Deutschland gilt das deutsche Urheberrechtsgesetz für die Nutzung von literarischen, künstlerischen und wissenschaftlichen Werken, die die dort genannten Schutzvoraussetzungen erfüllen. Sofern den Nutzern dieser Werke nicht weitere Nutzungsrechte durch eine weiterführende Lizenz (z. B. durch eine Creative Commons Lizenz) eingeräumt werden, ist die Nachnutzung der Werke nur im Rahmen der restriktiven Schrankenregelungen des deutschen Urheberrechtsgesetzes möglich.

Ob Forschungsdaten dem Schutz des Urheberrechtsgesetzes unterliegen oder nicht ist davon abhängig, ob die Anforderungen an die geistige Schöpfungshöhe oder die Voraussetzungen des Datenbankschutzrechts erfüllt werden. Da das Vorliegen der Voraussetzungen im Einzelfall geprüft werden muss, ist im Zweifelsfall die Beratung durch einen Fachanwalt empfehlenswert.

Um eine maximale Nachnutzbarkeit wissenschaftlicher Forschungsdaten zu gewährleisten, die prinzipiell dem Urheberrechtsgesetz unterliegen können, sollte die Vergabe von zusätzlichen Nutzungsrechten z. B. durch eine entsprechende Lizenzierung der Daten in Betracht gezogen werden. Die Vergabe solcher Lizenzen führt meist zu einer höheren Nutzung der Daten in der wissenschaftlichen Forschung und kann so zu einem Reputationsgewinn des Wissenschaftlers, auch über die Grenzen der jeweiligen Fachcommunity hinaus, beitragen.

URN (Uniform Resource Name)

URN ist die Bezeichnung eines Identifizierungs- und Adressierungssystems und wird ähnlich wie ein DOI zur persistenten Identifikation digitaler Objekte (Netzpublikationen, Datensätze u. a.) verwendet. Er ist vor allem im deutschsprachigen Raum sehr verbreitet, da die deutsche Nationalbibliothek URNs zur persistenten Identifikation und Adressierung anwendet, administriert und auflöst.

Versionierung

Bei der Arbeit mit Daten verändern sich diese zwangsläufig. Es empfiehlt sich, die jeweiligen Arbeitsstände mit Hilfe von Versionierungen zu kennzeichnen und so nachvollziehbar zu machen. Hierfür sollte ein vorher festgelegtes, einfach verständliches Versionierungsschema (z. B. Version 1.3 oder Version 2.1.4) genutzt werden. Die Versionierung von Daten kann dabei entweder händisch oder mittels Versionierungssoftware wie git erfolgen. Versioniert werden sollte zum einen während des Forschungsprozesses selbst, etwa um verschiedene Arbeitsversionen von Daten zu kennzeichnen, zum anderen bei nachträglichen Veränderungen an bereits veröffentlichten Forschungsdatensätzen, um Nachnutzenden zu ermöglichen, die korrekte Version eines Forschungsdatensatzes zu zitieren.

Virtuelle Forschungsumgebungen (VFU)

Virtuelle Forschungsumgebungen (VFU) sind Softwarelösungen bzw. Plattformen, die die ortsunabhängige Zusammenarbeit zwischen WissenschaftlerInnen ermöglichen. Eine VFU ist vor allem ein anwendungsorientierter Dienst, den eine Infrastruktureinrichtung (z. Bsp. Rechenzentrum, Bibliothek) für einen bestimmten Forschungsverbund oder eine bestimmte Forschungscommunity erbringt. Die Softwarelösung vereint vor allem fachspezifische Tools, Toolsammlungen und Arbeitsumgebungen. Überfachliche Anwendungen bleiben ein bisher nicht erreichtes Fernziel.

XML (Extensible Markup Language)

XML ist eine Auszeichnungssprache zur Speicherung von hierarchisch strukturierten Informationen als einfache Textdatei. Es wird hauptsächlich für den plattformunabhängigen Datenaustausch zwischen Anwendungen bzw. Computern benutzt. Die Kodierung ist sowohl maschinen- als auch menschenlesbar. Es besteht die Möglichkeit, den Inhalt eines XML-Dokuments auf Validität (Gültigkeit) zu überprüfen, wenn zu den allgemeinen, formalen Regeln weitere inhaltliche Regeln in einer externen Datei definiert worden sind. Dadurch kann die Gestalt und der Inhalt der kodierten Informationen sehr genau beschrieben werden. Mithilfe von XSL (XML Stylesheet Language) ist es möglich, die gespeichert Informationen zu interpretieren und zur Visualisierung in andere Dateiformate umzuwandeln. 

Zertifizierung

Zertifizierung bezieht sich im FDM-Bereich in der Regel auf Repositorien. Durch Einhaltung bestimmter Standards können Repositorien ein sogenanntes Zertifikat erhalten. Dadurch wird sowohl die Qualität als auch die Vertrauenswürdigkeit des Repositoriums bescheinigt.

Zitation

Je nach Fachbereich und Forschungsdisziplin ist das Zitieren wissenschaftlicher Datenpublikationen unterschiedlich üblich. Für die Zitation von Forschungsdaten existiert derzeit (noch) kein einheitlicher Standard. Forschungsdaten sollten bei der Publikation allerdings einen persistenten Identifikator wie etwa eine DOI bekommen, der bei der Zitation zu verwenden ist.