Robots.txt ist nicht die Antwort: Es wird ein neues Meta-Tag für LLM/KI vorgeschlagen
Veröffentlicht: 2023-07-18Während Google die Diskussion über die Anerkennung und Einhaltung des Urheberrechts beim Training großer Sprachmodelle (LLMs) für generative KI-Produkte eröffnet, liegt der Fokus auf der robots.txt-Datei.
Meiner Meinung nach ist dies jedoch das falsche Werkzeug.
Mein ehemaliger Kollege Pierre Far hat einen hervorragenden Artikel über Crawler, Suchmaschinen und den Verfall generativer KI-Unternehmen geschrieben, in dem er einige der immensen Herausforderungen hervorhob, denen sich die Online-Publishing-Branche derzeit gegenübersieht. Ähnlich wie in seinem Artikel werde ich diesen Vorschlag auf einem hohen Niveau halten, da die Entwicklungen in diesem Bereich äußerst schnell voranschreiten.
Warum nicht robots.txt verwenden?
Es gibt einige Gründe, warum die Verwendung von robots.txt der falsche Ausgangspunkt für die Diskussion darüber ist, wie das Urheberrecht von Verlagen respektiert werden kann.
Nicht alle LLMs verwenden Crawler und identifizieren sich
Es liegt beim Website-Betreiber, einzelne Crawler zu identifizieren und zu blockieren, die ihre Daten möglicherweise für generative KI-Produkte verwenden und/oder verkaufen. Dies verursacht insbesondere für kleinere Verlage eine Menge zusätzlicher (und unnötiger) Arbeit.
Dies setzt außerdem voraus, dass der Herausgeber Bearbeitungszugriff auf seine robots.txt-Datei hat, was bei gehosteten Lösungen nicht immer der Fall ist.
Dies ist keine nachhaltige Lösung, da die Zahl der Crawler weiter wächst
Die nutzbare Dateigröße einer robots.txt-Datei ist gemäß dem neu vorgeschlagenen robots.txt-Standard auf 500 KB begrenzt.
Dies bedeutet, dass ein großer Verlag möglicherweise Probleme mit seiner robots.txt-Datei hat, wenn er zusätzlich zu anderen Bots viele LLM-Crawler und/oder verfeinerte URL-Muster blockieren muss.
Ein „Alles oder Nichts“-Ansatz ist inakzeptabel
Bei den größeren Crawlern wie Googlebot und Bingbot kann kein Unterschied zwischen den Daten gemacht werden, die für Suchmaschinen-Ergebnisseiten verwendet werden (traditionell, wenn es eine „Vereinbarung“ zwischen Herausgeber und Suchmaschine in Form eines „Zitats“ auf das Original gibt). Quelle) und generative KI-Produkte.
Das Blockieren von Googlebot oder Bingbot für ihre generativen KI-Produkte blockiert auch jegliche potenzielle Sichtbarkeit in ihren jeweiligen Suchergebnissen. Dies ist eine inakzeptable Situation, in der der Verlag gezwungen ist, sich zwischen „Alles oder Nichts“ zu entscheiden.
Bei Robots.txt geht es um die Verwaltung des Crawlings, während es bei der Urheberrechtsdiskussion um die Art und Weise geht, wie die Daten verwendet werden
Letzteres betrifft die Indexierungs-/Verarbeitungsphase. Daher ist robots.txt für diese Diskussion nicht wirklich relevant, sondern eher ein letzter Ausweg, wenn nichts anderes funktioniert, und sollte eigentlich nicht der Ausgangspunkt dieser speziellen Diskussion sein.
Robots.txt-Dateien funktionieren gut für Crawler und müssen für den Zweck von LLMs nicht geändert werden. Ja, LLM-Crawler müssen sich identifizieren, aber worüber wir wirklich sprechen müssen, ist die Indexierung/Verarbeitung der gecrawlten Daten.
Das Rad neu erfinden
Glücklicherweise gibt es im Internet bereits einige etablierte Lösungen, mit denen sich die Datennutzung im Hinblick auf Urheberrechte verwalten lässt. Es heißt Creative Commons.
Die meisten Creative-Commons-Lizenzen würden für LLMs gut geeignet sein. Um zu veranschaulichen:
- CC0 ermöglicht es LLMs, das Material in jedem Medium oder Format ohne Bedingungen zu verbreiten, neu zu mischen, anzupassen und darauf aufzubauen.
- CC BY ermöglicht es LLMs, das Material in jedem Medium oder Format zu verbreiten, neu zu mischen, anzupassen und darauf aufzubauen, sofern der Urheber als Urheber angegeben wird. Die Lizenz erlaubt die kommerzielle Nutzung, es muss jedoch eine Nennung des Urhebers erfolgen.
- CC BY-SA ermöglicht es LLMs, das Material in jedem Medium oder Format zu verbreiten, neu zu mischen, anzupassen und darauf aufzubauen, sofern der Urheber als Urheber angegeben wird. Die Lizenz erlaubt die kommerzielle Nutzung. Wenn LLMs das Material neu mischen, anpassen oder darauf aufbauen, müssen sie das geänderte Material unter identischen Bedingungen lizenzieren.
- CC BY-NC erlaubt LLMs, das Material in jedem Medium oder Format für nichtkommerzielle Zwecke zu verbreiten, neu zu mischen, anzupassen und darauf aufzubauen, sofern der Urheber als Urheber angegeben wird.
- CC BY-NC-SA erlaubt LLMs, das Material in jedem Medium oder Format für nichtkommerzielle Zwecke zu verbreiten, neu zu mischen, anzupassen und darauf aufzubauen, sofern der Urheber als Urheber angegeben wird. Wenn LLMs das Material neu mischen, anpassen oder darauf aufbauen, müssen sie das geänderte Material unter identischen Bedingungen lizenzieren.
- CC BY-ND erlaubt LLMs, das Material in einem beliebigen Medium oder Format in unangepasster Form zu kopieren und zu verbreiten, sofern der Urheber als Urheber angegeben wird. Die Lizenz erlaubt die kommerzielle Nutzung und die Nennung des Urhebers muss erfolgen, es sind jedoch keine Derivate oder Adaptionen des Werks gestattet.
- CC BY-NC-ND erlaubt LLMs, das Material in einem beliebigen Medium oder Format nur in unangepasster Form zu kopieren und zu verbreiten, nur für nichtkommerzielle Zwecke und unter der Voraussetzung, dass der Urheber als Urheber angegeben wird und keine Ableitungen oder Anpassungen des Werks zulässig sind.
Die letzten beiden Lizenzen sind für LLMs voraussichtlich nicht nutzbar.
Die ersten fünf Lizenzen bedeuten jedoch, dass LLMs darüber nachdenken müssen, wie sie die gecrawlten/erhaltenen Daten verwenden, und sicherstellen müssen, dass sie die Anforderungen einhalten, die an die Verwendung der Daten der Herausgeber gestellt werden, wie z. B. Namensnennung und beim Teilen des auf den Daten basierenden Produkts.
Dies würde die Belastung auf die „wenigen“ LLMs auf der Welt übertragen und nicht auf die „vielen“ Verlage.
Die ersten drei Lizenzen unterstützen auch die „traditionelle“ Nutzung der Daten, beispielsweise in Suchmaschinenergebnissen, bei denen die Zuordnung/Quellenangabe über den Link zur Original-Website erfolgt. Während die vierte und die fünfte Lizenz auch Forschung und Entwicklung für Open-Source-LLMs unterstützen.
Randbemerkung: Bedenken Sie, dass all diese Softwareunternehmen, die LLMs entwickeln, häufig Open-Source-Software verwenden, bei der sie hinsichtlich der von ihnen verwendeten Softwarebibliotheken und Betriebssysteme denselben Herausforderungen bei der Urheberrechtslizenzierung gegenüberstehen, um Urheberrechtsverletzungen auf Codeebene zu vermeiden. Warum also das Rad neu erfinden, wenn wir ein ähnliches System für die Daten verwenden können, die dieser Code verarbeitet?
Der Meta-Tag ist der Weg
Sobald ein Verlag eine entsprechende Lizenz identifiziert hat, muss diese Lizenz noch kommuniziert werden. Auch hier scheint robots.txt der falsche Ansatz zu sein.
Nur weil das Crawlen einer Seite für Suchmaschinen gesperrt werden sollte, heißt das nicht, dass sie nicht verwendet werden kann oder für LLMs nicht nützlich ist. Dies sind zwei verschiedene Anwendungsfälle.
Um diese Anwendungsfälle zu trennen und den Herausgebern einen verfeinerten, aber auch einfacheren Ansatz zu ermöglichen, empfehle ich daher, stattdessen ein Meta-Tag zu verwenden.
Meta-Tags sind Codeteile, die auf Seitenebene, innerhalb eines Themas oder des Inhalts eingefügt werden können (ich weiß, das ist technisch nicht korrekt, aber HTML ist nachsichtig genug und kann als letztes Mittel verwendet werden, wenn ein Herausgeber nur eingeschränkten Zugriff hat zur Codebasis). Sie verlangen nicht, dass der Herausgeber über zusätzliche Zugriffsrechte verfügt, außer der Möglichkeit, den HTML-Code des veröffentlichten Inhalts zu bearbeiten.
Die Verwendung von Meta-Tags stoppt das Crawling nicht, wie etwa der Meta-Noindex. Es besteht jedoch die Möglichkeit, die Nutzungsrechte der veröffentlichten Daten mitzuteilen.
Und obwohl es bestehende Copyright-Tags gibt, die verwendet werden können – insbesondere aus Dublin Core, Rights-Standard (aufgegebener Vorschlag), Copyright-Meta (konzentriert sich auf den Namen des Eigentümers statt auf die Lizenz) und andere Versuche –, ist die aktuell bestehende Implementierung von Diese auf einigen Websites können im Widerspruch zu dem stehen, was wir hier erreichen möchten.
Daher kann ein neuer Meta-Tag notwendig sein, ich verwende aber auch gerne einen bestehenden oder alten, wie zum Beispiel „rights-standard“. Für diese Diskussion schlage ich das folgende neue Meta-Tag vor:
<meta name="usage-rights" content="CC-BY-SA" />
Darüber hinaus empfehle ich, dass dieses Meta-Tag auch bei der Verwendung in HTTP-Headern unterstützt wird, so wie der Noindex im X-Robots-Tag unterstützt wird, um LLMs-Crawlern dabei zu helfen, ihre Crawl-Ressourcen besser zu verwalten (sie müssen nur die HTTP-Header zur Validierung überprüfen). die Nutzungsrechte).
X-Robots-Tag: usage-rights: CC-BY-SA
Dies kann in Kombination mit anderen Meta-Tags verwendet werden. Im folgenden Beispiel sollte die Seite nicht für Suchergebnisse verwendet werden, kann aber für kommerzielle LLMs verwendet werden, sofern die Quelle angegeben wird:
X-Robots-Tag: usage-rights: CC-BY, noindex
Hinweis: Der Name „usage-rights“ für das Meta-Tag ist ein Vorschlag und kann geändert werden.
Kinderleichte Lösung
Zugegeben, es gibt schlechte Crawler und schlechte Akteure, die ihre LLMs und generativen KI-Produkte entwickeln.
Die vorgeschlagene Meta-Tag-Lösung verhindert nicht, dass der Inhalt auf diese Weise verwendet wird, die robots.txt-Datei jedoch auch nicht.
Es ist wichtig anzuerkennen, dass beide Methoden von der Anerkennung und Einhaltung durch die Unternehmen abhängen, die die Daten für ihre KI-Produkte verwenden.
Abschluss
Hoffentlich veranschaulicht dieser Artikel, dass die Verwendung von robots.txt zur Verwaltung der Datennutzung in LLMs meiner Meinung nach der falsche Ansatz/Ausgangspunkt für den Umgang mit Nutzung und Urheberrechten in diesem neuen Zeitalter von LLMs und generativen KI-Produkten ist.
Diese Meta-Tag-Implementierung würde es Herausgebern ermöglichen, mithilfe von Creative Commons Urheberrechtsinformationen auf Seitenebene anzugeben, ohne zu verhindern, dass die Seite für andere Zwecke (z. B. Suchmaschinenergebnisse) gecrawlt oder indiziert wird. Außerdem können Urheberrechtserklärungen für verschiedene Verwendungszwecke abgegeben werden, darunter LLMs, generative KI-Produkte und potenzielle zukünftige KI-Produkte.
Die in diesem Artikel geäußerten Meinungen sind die des Gastautors und nicht unbedingt die von Search Engine Land. Die Autoren unserer Mitarbeiter sind hier aufgelistet.