Text- und Data-Mining vs. KI

Hamburger Landgericht urteilt zur Erstellung eines Trainingsdatensatzes

– Ein Beitrag von Lea Sophie Singson, Legal Data Steward bei FAIRagro, Lea-Sophie.Singson@fiz-Karlsruhe.de –

Innovation fördern ohne Rechtsunsicherheiten – das war das erklärte Ziel, mit dem die Ausnahmeregelung („Schranke“) für Text- und Data-Mining (TDM) 2018 ins Urheberrecht kam. In den vergangenen sechs Jahren ist viel passiert: Die Möglichkeiten von Technologien „Künstlicher Intelligenz“ (KI) haben stetig zugenommen, zahlreiche rechtliche Fragen sind dennoch weiterhin ungeklärt.

Erstmals hat sich mit dem Hamburger Landgericht im „LAION“-Fall ein deutsches Gericht der Frage angenommen, ob die TDM-Schranke auch in Bezug auf Trainingsdatensätze für KI-Programme gilt. Im Folgenden werden die Hintergründe des Verfahrens und des Ende September gesprochenen Urteils erklärt und eingeordnet.

Einen wichtigen Punkt ließ das Gericht übrigens unangetastet. Es urteilte nicht darüber, ob das Training von generativer KI generell unter die TDM-Schranke fällt oder nicht. Zudem fällte das Gericht keine abschließende Entscheidung darüber, wie ein Nutzungsvorbehalt aussehen müsste, um als „maschinenlesbar“ zu gelten.

Urheber versus Non-Profit-Organisation

Ausgangspunkt des Verfahrens war die Klage eines Fotografen. Dieser hatte eigens angefertigte Fotografien auf einer Stock-Foto-Seite veröffentlicht. Auf dieser konnten die Bilder – gegen Entrichtung einer Gebühr – prinzipiell von jeder Person heruntergeladen werden. Außerdem konnten mit Wasserzeichen versehene Versionen der Fotografien öffentlich angesehen werden.

Auf der anderen Seite steht der LAION e.V., eine Non-Profit-Organisation, die laut eigenen Angaben „Large Scale Machine Learning“-Modelle trainiert. Das sind KI-Modelle, die auf der Basis sehr großer Datenmengen „lernen“, also Muster erkennen und daraus dann Vorhersagen oder Entscheidungen treffen. Zusammen mit Datensets will der LAION e.V. diese Daten kostenlos und offen lizenziert unter der Lizenz CC BY 4.0 für die Allgemeinheit verfügbar machen.

Training ist nicht gleich Training: Diese Handlungen standen im Streit

Der hauptsächliche Streitpunkt kreiste um folgende Frage: Handelt es sich um zulässiges TDM, wenn ein Datensatz mit Text-Bild-Paaren erstellt wird, der anschließend dem Training von KI dienen soll? Oder liegt darin eine im Sinne des Urheberrechts widerrechtliche Vervielfältigung von Werken?

Im Verfahren ging es um einen Datensatz, der Hyperlinks zu Bildern mit dazugehörigen beschreibenden Texten enthält. Diesen wollte LAION der Allgemeinheit für das Training von generativer KI kostenlos und mit CC-BY 4.0 lizenziert zur Verfügung stellen. Für den Datensatz wurden im Internet öffentlich abrufbare Bilder – darunter eine vom Kläger erstellte Fotografie – gemeinsam mit deren URLs und der textlichen Beschreibung des Bildinhalts extrahiert und mittels Software auf deren Übereinstimmung überprüft. Stimmten Bild und Bildbeschreibung überein, wurden die Paare in den Datensatz aufgenommen.

Die Webseite, die das Foto präsentierte, untersagte eigentlich den automatisierten Download der Werke. Auch dies war ein Grund dafür, dass der Fotograf die Rechtlichkeit dieser Handlung monierte.

Entscheidung des Landgerichts: Pro Text und Data Mining

Soweit die Hintergründe – über was entschied das Landgericht Hamburg nun genau? Die drei wichtigsten Punkte der Entscheidung sind folgende:

1 – Es ist zulässiges TDM, einen Datensatz zu erstellen, der für KI-Training genutzt werden soll.

2 – Die Intention, einen Datensatz im Open Access zur Verfügung zu stellen, ist ausreichend dafür, dass ein TDM zum Zweck der wissenschaftlichen Forschung angenommen werden kann.

3 – Keine Entscheidung, aber richterliche Auffassung: ein Nutzungsvorbehalt gegen TDM Handlungen automatisierter Programme in natürlicher Sprache reicht aus.

Was bedeuten diese drei Entscheidungen im Einzelnen?

1 – Erstellung des Datensatzes ist Text- und Data-Mining: mit Rückenwind durch EU-Recht

Das Gericht beruft sich auf folgendes Verständnis: Unter „Text und Data Mining“ (TDM) ist die softwaregestützte Auswertung großer Datenmengen zu verstehen. Die mittels TDM gewonnenen Information geben Aufschluss etwa über Muster, Trends und Korrelationen im Datenmaterial.

Laut der Entscheidung des Hamburger Landgerichts erfüllt die Erstellung des Datensatzes durch LAION diese Voraussetzungen. Denn es war genau das Ziel des Datensatzes, die Analyse von Korrelationen zwischen den Paaren (Match or No-Match) zu ermöglichen.

Dabei berief sich das Gericht auch auf die im August 2024 eingeführte KI-Verordnung der EU (sogenanter „AI-Act“). Aus dieser lässt sich lesen, dass auch der euro-päische Gesetzgeber auf die Erstellung von Datensätzen für das Training von KI die Schrankenregelung für TDM anwendet.

Das Gericht stellt auch klar, dass die Erstellung des Datensatzes als zulässiges TDM gilt. Und zwar unabhängig von der Frage, ob das spätere KI-Training mit diesem Datensatz selbst darunterfällt. Es begründet seine Entscheidung in diesem Punkt damit, dass die Zulässigkeit der Erstellung des Datensatzes nicht davon abhängig gemacht werden kann, ob möglicherweise zukünftige Technologien den Datensatz außerhalb der Grenzen des gesetzlich erlaubten TDM zum Training von KI verwenden werden. Dies ist grundsätzlich eine sinnvolle Maßnahme. Denn ansonsten bestünde bei keiner Form von an sich zulässigem TDM Rechtssicherheit.

2 – Open Access ist als Forschungszweck ausreichend

Das kostenlose Anbieten des Datensatzes für die Allgemeinheit reichte für das Gericht aus, um ein TDM zum Zwecke wissenschaftlicher Forschung nach Paragraf 60d Urheberrechtsgesetz anzunehmen, da die Erstellung zu einem Erkenntnisgewinn beitragen kann.

Das Gericht stellte auch klar, dass LAION ein TDM zum Zweck wissenschaftlicher Forschung betreiben kann, unabhängig davon, ob der Verein generell wissenschaftlich forscht. Auch darf der Datensatz laut Ansicht des Gerichts kommerziell Nutzenden angeboten werden, ohne aus dem Wirkungsbereich der Schranke zu fallen.

Bleibt die Entscheidung des Hamburger Landgerichts bestehen, würde sie zu einer deutlichen Stärkung derjenigen führen, die Datensätze für TDM-Zwecke kostenlos beziehungsweise Open Access anfertigen.

3 – Nach Ansicht des Gerichts: Wirksam erklärter Nutzungsvorbehalt

Auch wenn es keinen Einfluss auf das Ergebnis hatte, befasste sich das Gericht in seiner Entscheidung mit dem auf der Webseite erklärten Nutzungsvorbehalt. Dabei handelt es sich um eine Regelung aus dem Paragrafen 44b Absatz 3 des Urheberrechts. „Nutzungsvorbehalt“ heißt, dass ein Rechteinhaber das an sich zulässige TDM untersagen, sich also eine Nutzung vorbehalten kann.

Aus der gesetzlichen Regelung ergibt sich die Frage: Wie muss der Nutzungsvorbehalt beschaffen sein? Reicht es aus, dass eine Maschine einen Nutzungsvorbehalt lesen kann? Oder muss sie ihn darüber hinaus auch verstehen können? Oder noch etwas enger gefasst: Ist ein in „natürlicher Sprache“ erklärter Vorbehalt ausreichend oder muss er in einem technischen Format (wie robot.txt) vorliegen?

Hier bezog das Hamburger Landgericht – zumindest teilweise – Stellung: Es ließ anklingen, dass ein in natürlicher Sprache abgefasster Nutzungsvorbehalt für die Maschinenlesbarkeit ausreicht. Die Verantwortung liege hier bei KI-Entwickler*innen: Diese müssten modernste Technologien einsetzen (wozu sie nach dem AI-Act auch verpflichtet sind). Da moderne KI-Anwendungen bereits natürliche Sprache verstehen und verarbeiten können, könnten diese Programme nach Ansicht des Gerichts auch einen in natürlicher Sprache verfassten Nutzungsvorbehalt erkennen und berücksichtigen.

Diese relevanten Fragen bleiben ungeklärt

Mit seinem Urteil entschied das Hamburger Landgericht einige virulente Fragen rund um das Thema Urheberrecht und Künstliche Intelligenz. Andere Fragen hingegen blieben offen: Zum Beispiel verbleibt es der Entscheidung zukünftiger Gerichte, ob das Training von KI an sich unter die TDM-Schranke fällt und welche Anforderungen nun tatsächlich an einen Nutzungsvorbehalt (siehe oben) zu stellen sind.

Warum die grundsätzliche Frage nach dem KI-Training in der Entscheidung offen bleibt

Im Zivilprozessrecht gilt die so genannte Dispositionsmaxime. Sie schreibt den Parteien – also Kläger und Beklagtem – das Recht zu, selbst über die Einleitung, den Gegenstand und die vorzeitige Beendigung des Verfahrens zu bestimmen. Ausdruck dieses Prinzips ist auch der Paragraf 308 Absatz 1 Zivilprozessordnung. Nach diesem Paragrafen darf das Gericht nur über das entscheiden, was beantragt ist, und nicht über den Antrag hinaus. Wenn also zwischen den Parteien die Rechtmäßigkeit der Erstellung des Datensatzes im Streit steht, nicht aber das spätere Training einer KI mit diesem Datensatz, ist die Entscheidung darüber auch dem Gericht verwehrt.

Trotz der Einschränkungen bringt die Entscheidung des Hamburger Landgerichts definitiv erstes Licht in stark umkämpftes Feld, auf dem derzeit sehr viel in Bewegung zu kommen scheint.

Es ist zu erwarten, dass der Fall auch in höhere Gerichtsinstanzen getragen wird. Durch den starken Bezug zum EU-Recht ist möglicherweise sogar auf eine Entscheidung des Europäischen Gerichtshofs (EuGH) zu hoffen.

Dieser Text erscheint, lizenziert unter CC-BY, als Crosspost mit iRights.info: https://doi.org/10.59350/8zyj9-vj254