Text- und Data-Mining

Die automatisierte, auf Algorithmen gestützte Auswertung großer Datenmengen spielt in Wissenschaft, Industrie und Gesellschaft eine immer größere Rolle. Für die Anwender*innen solcher Analyseverfahren geht damit die Frage einher, unter welchen Voraussetzungen Text- und Data-Mining erlaubt ist. Speziell für die Wissenschaft existiert mit §42h UrhG dafür seit 2022 eine gesetzliche Regelung.[1] Die Regelung gilt in Österreich auch für einzelne Forscher*innen, die nicht mit Forschungsorganisationen assoziiert sind, soweit die Vervielfältigungen für die Verfolgung von nicht-kommerziellen Zwecken gerechtfertigt sind.

Unter welchen Voraussetzungen darf Text- und Data-Mining durchgeführt werden?

Bevor Daten automatisiert analysiert werden bzw. Datensammlungen zu diesem Zweck angelegt werden, sollte geklärt werden, ob eine solche Nutzung zulässig ist.

  1. Zunächst muss geprüft werden, ob Rohdaten bzw. Ursprungsmaterialien überhaupt urheberrechtlich geschützt sind. Andernfalls ist Text- und Data-Mining urheberrechtlich unbedenklich. Beispielsweise genießen quantitative Daten z.B. aus den Naturwissenschaften oft keinen urheberrechtlichen Schutz. Anders verhält es sich mit qualitativen Daten (z.B. Interviews in den Sozialwissenschaften). Allerdings können nicht nur einzelne Daten, sondern auch die Datenbanken, aus denen diese entnommen werden sollen, urheberrechtlichen Schutz genießen. Sofern es sich um personenbezogene Daten handelt, sind zudem datenschutzrechtliche Einschränkungen zu beachten.
  2. § 42h UrhG gewährt kein Recht auf Zugang zu den zu analysierenden Daten, sondern setzt diesen vielmehr voraus. Das bedeutet, dass die Ursprungsmaterialien ggf. von den Rechteinhabern lizenziert werden müssen. Eine solche Lizenz muss aber nicht explizit die Nutzung zum Text- und Data Mining umfassen. Vielmehr muss sie lediglich einen rechtmäßigen Zugang darstellen. Das Recht, Text- und Data Mining mit Inhalten zu betreiben, zu denen im privilegierten Kontext (siehe Pkt. 3) ein Zugang besteht, kann vielmehr vertraglich (etwa durch Lizenzvereinbarungen) gar nicht verwehrt werden. Dasselbe gilt für im Internet frei verfügbare Inhalte, d.h. wo kein Schutzmechanismus überwunden werden muss, um Zugang zu erhalten, selbst wenn die Lizenzen keine Berechtigung zum Text- und Data-Mining vorsehen. Auch die Digitalisierung von in Beständen vorhandenen Werken ist im Rahmen von §42h möglich (allerdings ist zu beachten, dass die Digitalisate dann nur im Rahmen der Bestimmung aufbewahrt werden dürfen, siehe unten 6), da zu diesen Beständen ein rechtmäßiger Zugang gegeben ist. Dies gilt sogar für per Fernleihe beschaffte Werke.
  3. Die Vorschrift schützt in erster Linie nicht-kommerzielle wissenschaftliche Forschung. Nach §42h Abs 3 UrhG sind Institutionen begünstigt die
    1. als vorrangiges Ziel die wissenschaftliche oder künstlerische Forschung oder die forschungsgeleitete Lehre haben
    2. in ihrer Tätigkeit nicht gewinnorientiert sind oder ihre Gewinne reinvestieren oder in einem staatlich anerkannten Auftrag im öffentlichen Interesse tätig sind und
    3. auf die kein Unternehmen einen bestimmenden Einfluss ausübt.

Forschung solcher Institutionen kann sich auf die Ausnahme berufen, selbst im Rahmen von öffentlich-privaten Partnerschaften, bei denen neben privilegierten Einrichtungen (Forschungs- und Kultureinrichtungen) auch z.B. ein auf Gewinn gerichtetes Unternehmen beteiligt ist. Die Ausnahme ist sohin weit formuliert. Auch einzelne Forscher können sich daneben auf die Ausnahme berufen, deren Tätigkeit darf jedoch im konkreten Fall nicht gewinnorientiert sein, wobei auch eine Reinvestition der Gewinne keine Abhilfe schafft (anders als bei den Institutionen). Wichtig ist jedoch, dass sich die konkrete Text- und Data-Mining-Aktivität auf die Forschung bezieht, d.h. es ist nicht jedes Text- und Data-Mining schon deshalb privilegiert, weil es an einer privilegierten Institution stattfindet. Bezüglich der Gewinnorientierung ist nicht auf die gesamte Institution abzustellen, sondern auf die konkrete Forschungstätigkeit. Daher kann sich z.B. bezahlte Auftragsforschung an Universitäten nicht auf § 42h UrhG berufen, außer sie reinvestiert die Gewinne oder erfolgt in einem staatlich anerkannten Auftrag im öffentlichen Interesse. Soweit sich eine Förderung durch Drittmittel aber auf die Deckung der Kosten beschränkt, ist dies unproblematisch.

  1. § 42h Abs 6 UrhG erlaubt auch außerhalb des Kontexts der nicht-kommerziellen, wissenschaftlichen Forschung Vervielfältigungen zum eigenen Gebrauch, sofern die Rechteinhaber*innen sich eine solche Nutzung nicht ausdrücklich vorbehalten haben. Ein solcher Widerspruch muss maschinenlesbar angebracht werden, sodass er automatisch ausgelesen werden kann.
  2. § 42h UrhG erlaubt es, das Ursprungsmaterial zu kopieren und zu speichern (vervielfältigen), um daraus durch Normalisierung, Strukturierung, Kategorisierung oder andere Aufbereitungsmethoden ein Korpus zu erzeugen. Zwar gewährt die Norm keinen Anspruch auf bestimmte, z.B. maschinenlesbare Dateiformate, sehr wohl aber dürfen die Daten im Rahmen des Text- und Data-Mining in ein anderes Format konvertiert werden.
  3. Das so entstandene Korpus darf aufbewahrt werden unter Wahrung angemessener Sicherheitsvorkehrungen. Das Gesetz räumt dabei insofern eine gewisse Sicherheit ein, als dass von repräsentativen Vereinen von Rechteinhabern und Forschungseinrichtungen als bewährt anerkannte Sicherheitsvorkehrungen jedenfalls als angemessen gelten. Soweit ersichtlich existiert jedoch eine solche „abgesegnete“ Vorgehensweise in Österreich noch nicht.
  4. Innerhalb einer Forschungsgruppe darf das erstellte Korpus elektronisch geteilt werden (öffentlich zugänglich machen). Voraussetzung ist, dass es sich um einen abgrenzbaren Personenkreis handelt. Nicht zwingend ist hingegen, dass die involvierten Personen alle an der gleichen Einrichtung forschen. Auch im Rahmen von Begutachtungs- bzw. Review-Prozessen darf das Korpus verfügbar gemacht werden. Nicht zulässig wäre es demgegenüber, die Ursprungsmaterialien bzw. das Korpus auf der eigenen Webseite zu veröffentlichen, da es somit einer nicht mehr abgrenzbaren Personengruppe zugänglich gemacht wird. Dies ist besonders mit Hinblick auf Open-Data-Publikationen relevant.
  5. Die automatisierte Auswertung des Korpus ist ebenfalls erlaubt, da sie keine urheberrechtlich relevante Nutzung darstellt. Urheberrechtlich relevant ist nur die Vervielfältigung der Daten sowie u.U. deren Zurverfügungstellung für Dritte.
  6. Das erstellte Korpus darf nur so lange aufbewahrt werden, als dies durch Forschungszwecke rechtfertigbar ist. Dabei sind jedoch auch die Überprüfbarkeit der Ergebnisse sowie eventuelle Anschlussforschungen mit einzubeziehen. Sobald das Korpus über den bloßen Prozess des Text- und Data-Minings hinaus aufbewahrt wird, sind die Sicherheitsvorkehrungen wie unter 6. beschrieben einzuhalten.

Quellen

[1] § 42h UrhG. (o. J.). LexisNexis. https://360.lexisnexis.at/d/rechtsnorm-ris/42h_urhg/L-10001848-P42H (abgerufen am 25.07.2024)

Zitiervorschlag (Chicago)

Redaktion von forschungsdaten.info. „Forschungsdatenmanagement in Österreich: Text- und Data-Mining“. forschungsdaten.info, 25. Juli 2024. https://forschungsdaten.info/fdm-im-deutschsprachigen-raum/oesterreich/text-und-data-mining/.