Crawler, Suchmaschinen und die Verdorbenheit generativer KI-Unternehmen

Veröffentlicht: 2023-07-13

Der Boom generativer KI-Produkte in den letzten Monaten hat viele Websites dazu veranlasst, gegenzusteuern.

Das Grundanliegen sieht so aus:

KI-Produkte sind darauf angewiesen, große Mengen an Inhalten zu verbrauchen, um ihre Sprachmodelle zu trainieren (die sogenannten Large Language Models, kurz LLMs), und diese Inhalte müssen von irgendwoher kommen. KI-Unternehmen gehen davon aus, dass die Offenheit des Webs groß angelegtes Crawling ermöglicht, um Trainingsdaten zu erhalten. Einige Website-Betreiber sind jedoch anderer Meinung, darunter Reddit, Stack Overflow und Twitter.

Die Antwort auf diese interessante Frage wird zweifellos vor Gerichten auf der ganzen Welt verhandelt werden.

Dieser Artikel geht dieser Frage nach und konzentriert sich dabei auf die geschäftlichen und technischen Aspekte. Aber bevor wir eintauchen, ein paar Punkte:

Obwohl dieses Thema einige rechtliche Argumente anspricht und ich sie in diesen Artikel einbeziehe, bin ich kein Anwalt, ich bin nicht Ihr Anwalt und ich gebe Ihnen keinerlei Ratschläge. Sprechen Sie mit Ihrem Lieblingsanwalt, wenn Sie Rechtsberatung benötigen.
Ich habe vor vielen Jahren bei Google gearbeitet, hauptsächlich in der Websuche. Ich spreche in keiner Weise im Namen von Google, auch wenn ich unten einige Google-Beispiele zitiere.
Das ist ein schnelllebiges Thema. Es ist garantiert, dass zwischen dem Zeitpunkt, an dem ich mit dem Schreiben fertig bin, und dem Zeitpunkt, an dem Sie es lesen, etwas Großes in der Branche passiert wäre, und ich bin garantiert etwas übersehen worden!

Der „Deal“ zwischen Suchmaschinen und Websites

Wir beginnen damit, wie eine moderne Suchmaschine wie Google oder Bing funktioniert. Vereinfacht ausgedrückt funktioniert eine Suchmaschine folgendermaßen:

Die Suchmaschine verfügt über eine Liste von URLs. Jede URL verfügt über Metadaten (manchmal auch „Signale“ genannt), die darauf hinweisen, dass die Anzeige der URL auf den Ergebnisseiten der Suchmaschine wichtig oder nützlich sein kann.
Basierend auf diesen Signalen verfügt die Suchmaschine über einen Crawler, einen Bot, ein Programm, das diese URLs in einer bestimmten Reihenfolge ihrer „Wichtigkeit“ basierend auf den Hinweisen der Signale abruft. Zu diesem Zweck heißt der Crawler von Google Googlebot und der von Bing Bingbot (und beide haben noch viele weitere für andere Zwecke, wie zum Beispiel Werbung). Beide Bots identifizieren sich im User-Agent-Header und beide können von Websites programmgesteuert überprüft werden, um sicherzustellen, dass der Inhalt dem echten Suchmaschinen-Bot bereitgestellt wird und keine Parodie vorliegt.
Sobald der Inhalt abgerufen wurde, wird er indiziert. Suchmaschinenindizes sind komplizierte Datenbanken, die den Seiteninhalt zusammen mit einer großen Menge an Metadaten und anderen Signalen enthalten, die verwendet werden, um den Inhalt mit Benutzeranfragen abzugleichen und zu bewerten. Ein Index ist das, was tatsächlich durchsucht wird, wenn Sie eine Suchanfrage in Google oder Bing eingeben.

Moderne Suchmaschinen, zumindest die guten, höflichen, geben dem Website-Betreiber die volle Kontrolle über das Crawling und die Indexierung.

Mit dem Robots Exclusion Protocol wird diese Kontrolle über die robots.txt-Datei und Meta-Tags oder Header auf der Webseite selbst implementiert. Diese Suchmaschinen befolgen freiwillig das Robots Exclusion Protocol und betrachten die Implementierung des Protokolls durch eine Website als Anweisung, als absolute Anweisung und nicht nur als bloßen Hinweis.

Wichtig ist, dass die Standardposition des Protokolls darin besteht, dass jegliches Crawlen und Indizieren erlaubt ist – es ist standardmäßig permissiv. Sofern der Website-Betreiber nicht aktiv Maßnahmen zur Umsetzung des Ausschlusses ergreift, wird davon ausgegangen, dass die Website das Crawlen und Indexieren zulässt.

Dies gibt uns das Grundgerüst der Vereinbarung zwischen Suchmaschinen und Websites: Standardmäßig wird eine Website von einer Suchmaschine gecrawlt und indiziert, was wiederum Suchende bei relevanten Suchanfragen in ihren Suchergebnissen direkt auf die ursprüngliche Website verweist .

Bei diesem Geschäft handelt es sich grundsätzlich um einen wirtschaftlichen Austausch: Die Kosten für die Produktion, das Hosting und die Bereitstellung der Inhalte trägt die Website, aber der Traffic, den sie im Gegenzug erhält, zahlt sich mit einem Gewinn aus.

Hinweis : Ich ignoriere hier absichtlich eine ganze Reihe verwandter Argumente darüber, wer bei dieser Börse mehr Macht hat, wer mehr Geld verdient, Fairness und vieles mehr. Ich möchte diese nicht kleinreden – ich möchte nur nicht vom Kernthema dieses Artikels ablenken.

Dieser Ansatz der Indexierung für den Datenverkehr kommt an anderer Stelle zum Einsatz, beispielsweise wenn es Suchmaschinen erlaubt ist, Inhalte hinter einer Paywall zu indizieren. Es ist die gleiche Idee: Die Website teilt Inhalte im Austausch dafür, dass sie in Suchergebnissen angezeigt werden, die Suchende direkt auf die Website zurückführen.

Und wenn der Herausgeber in jedem Schritt des Prozesses dieser Vereinbarung das Crawling oder die Indizierung ganz oder teilweise in irgendeiner Weise blockieren möchte, stehen ihm mehrere Tools zur Verfügung, die das Robots and Exclusion Protocol nutzen. Alles, was noch gecrawlt und indiziert werden darf, liegt daran, dass die Website einen direkten Vorteil daraus zieht, in den Suchergebnissen angezeigt zu werden.

Dieses Argument wurde in irgendeiner Form tatsächlich vor Gericht in der sogenannten „robots.txt-Verteidigung“ verwendet und im Grunde genommen zurückgehalten; Sehen Sie sich diese kurze Liste von Gerichtsverfahren an, von denen viele Google betreffen, und diesen Artikel aus dem Jahr 2007, der nicht ganz zufrieden damit ist.

LLMs sind keine Suchmaschinen

Es sollte jetzt ganz klar sein, dass ein LLM etwas anderes ist als eine Suchmaschine.

Die Antwort eines Sprachmodells verweist nicht direkt auf die Website(s), deren Inhalt zum Trainieren des Modells verwendet wurde. Es gibt keinen wirtschaftlichen Austausch, wie wir ihn bei Suchmaschinen kennen, und deshalb sind viele Verlage (und Autoren) verärgert.

Das Fehlen direkter Quellenangaben ist der grundlegende Unterschied zwischen einer Suchmaschine und einem LLM und die Antwort auf die sehr häufig gestellte Frage: „Warum sollten Google und Bing Inhalte durchsuchen dürfen, OpenAI jedoch nicht?“ (Ich verwende eine höflichere Formulierung dieser Frage.)

Google und Bing versuchen, Quellenlinks in ihren generativen KI-Antworten anzuzeigen, aber diese Quellen sind, wenn überhaupt, nicht vollständig.

Dies wirft eine verwandte Frage auf: Warum sollte eine Website zulassen, dass ihr Inhalt zum Trainieren eines Sprachmodells verwendet wird, wenn sie dafür keine Gegenleistung erhält?

Das ist eine sehr gute Frage – und wahrscheinlich die wichtigste, die wir als Gesellschaft beantworten sollten.

LLMs haben trotz der großen Mängel der aktuellen Generation von LLMs Vorteile (wie Halluzinationen, Lügen gegenüber menschlichen Bedienern und Vorurteile, um nur einige zu nennen), und diese Vorteile werden mit der Zeit nur zunehmen, während die Mängel behoben werden.

Für diese Diskussion ist es jedoch wichtig zu erkennen, dass eine grundlegende Säule der derzeitigen Funktionsweise des offenen Webs nicht für LLMs geeignet ist.

Die Faulheit

Für KI-Unternehmen, die daran interessiert sind, große Modelle nur zu ihrem eigenen wirtschaftlichen Vorteil zu trainieren, ist das offenbar kein Problem.

OpenAI verwendete mehrere Datensätze als Trainingsdateneingaben (Details hier für GPT3), und OpenAI veröffentlicht die Trainingsdatensätze für GPT4 absichtlich nicht.

Obwohl OpenAI viele Argumente anführt, um die Nichtoffenlegung von Informationen über die Trainingsdaten von GPT4 (hier besprochen) zu rechtfertigen, bleibt der entscheidende Punkt für uns bestehen: Wir wissen nicht, welche Inhalte zum Trainieren verwendet wurden, und OpenAI zeigt dies in den ChatGPT-Antworten nicht an.

Folgt die Datenerfassung von OpenAI dem Robots Exclusion Protocol? Enthält es urheberrechtlich geschützten Text, etwa Lehrbücher oder andere Bücher? Haben sie die Erlaubnis einer Website oder eines Herausgebers erhalten? Sie sagen es nicht.

Der super zwielichtige Ansatz von Brave Software

Wenn der Ansatz von OpenAI problematisch ist, vertritt Brave Software (der Hersteller des Brave-Browsers und der Brave-Suchmaschine) einen noch problematischeren Ansatz und eine noch problematischere Haltung, wenn es um Such- und KI-Trainingsdaten geht.

Die Brave-Suchmaschine hängt stark vom sogenannten Web Discovery Project ab. Der Ansatz ist hier ziemlich ausführlich und dokumentiert, aber ich möchte eine wichtige Tatsache hervorheben: Brave scheint keinen zentralisierten Crawler zu haben, und keiner der Crawler identifiziert sich als Crawler für Brave und (setzen Sie sich dafür) Brave verkauft die geschabten Inhalte mit Rechten, die Brave dem Käufer für die KI-Schulung einräumt.

In diesem Satz steckt viel drin, also analysieren wir ihn.

Die Brave-Suche verwendet den Brave-Browser als verteilten Crawler. Wie in diesem Hilfeartikel dokumentiert, gibt es diese FAQ-Frage und -Antwort:

Ist das Web Discovery Project ein Crawler?
In gewisser Weise ja. Das Web Discovery Project verarbeitet Abrufaufträge vom Webcrawler von Brave. Alle paar Sekunden oder Minuten wird der Browser möglicherweise angewiesen, eine Webseite abzurufen und den HTML-Code an Brave zurückzusenden . Dieser Abruf hat jedoch keine Auswirkungen auf Ihren Browserverlauf oder Ihre Cookies – er erfolgt als privater Abruf-API-Aufruf. Für zusätzliche Sicherheit werden die Abrufauftragsdomänen aus einer kleinen Gruppe harmloser und seriöser Domänen vorab ausgewählt.
Was ist das Web Discovery-Projekt? – Mutige Suche

Die Fetch-API ist eine Webstandardfunktionalität, die in moderne Browser-Engines integriert ist, einschließlich der von Brave verwendeten. Seine übliche Verwendung besteht darin, Inhalte abzurufen, um sie Benutzern im Browser anzuzeigen. Für unsere Zwecke wissen wir sofort, dass es sich um den Browser eines Benutzers handelt, der im Auftrag der Suchmaschine von Brave den Inhalt der Website anfordert.

Interessanterweise sorgt ein Reddit-Thread vom Juni 2021 für weitere Details und Verwirrung. Eine Antwort eines Brave-Vertreters ist sehr interessant (hebt meine hervor):

Wir haben unseren eigenen Crawler, aber dieser enthält keinen User-Agent-String (genau wie Brave, der Browser, auch keinen eindeutigen User-Agent-String enthält ), um mögliche Diskriminierung zu vermeiden. Allerdings haben wir darüber gesprochen, den Crawler möglicherweise für Administratoren zu identifizieren, die wissen möchten, wann/wo er auf ihren Grundstücken landet. Wir respektieren auch robots.txt. Wenn Sie also nicht möchten, dass Brave Search Ihre Website crawlt, wird dies nicht der Fall sein.

Das ist eine Goldgrube an Fakten:

Sie verfügen über einen eigenen Crawler, der sich möglicherweise auf einen zentralisierten oder auf das verteilte browserbasierte Web Discovery Project bezieht.
Dieser Crawler identifiziert sich nicht als Crawler, befolgt aber irgendwie das Robots Exclusion Protocol (in Form der robots.txt-Datei). Wie kann ein Website-Betreiber eine Robots-Ausschlussrichtlinie schreiben, wenn sich der Browser nicht identifiziert? Welches User-Agent-Token (wie es genannt wird) würde in der robots.txt-Datei verwendet, um spezifische Anweisungen für den Brave-Crawler anzugeben? Ich konnte keine Dokumentation von Brave finden.
Was sie als Diskriminierung bezeichnen, ist eigentlich die Art und Weise, wie Verlage das Crawling kontrollieren würden. Das Robots Exclusion Protocol ist ein Mechanismus, mit dem Herausgeber unterscheiden können, worauf Benutzer und Crawler zugreifen dürfen, und zwischen verschiedenen Crawlern unterscheiden können (z. B. Bingbot das Crawlen erlauben, Googlebot jedoch nicht). Mit der Behauptung, sie wollten Diskriminierung vermeiden, sagt Brave in Wirklichkeit, dass sie selbst entscheiden können, was sie crawlen und indizieren, und nicht der Herausgeber.

Zurück zur Fetch-API: Standardmäßig verwendet die Fetch-API die User-Agent-Zeichenfolge des Browsers. Wir wissen bereits, dass sich der Brave-Browser nicht mit einem eindeutigen User-Agent-Header identifiziert, sondern stattdessen die generische User-Agent-Zeichenfolge verwendet, die von der zugrunde liegenden Browser-Engine erzeugt wird.

Die Benutzeragentenzeichenfolge kann für den Browser im Allgemeinen und die Fetch-API angepasst werden, ich habe jedoch keinen Hinweis darauf gefunden, dass Brave dies tut (und tatsächlich heißt es in der oben zitierten Reddit-Antwort ausdrücklich, dass es keine eindeutige Kennung gibt).

Darüber hinaus verkauft Brave die gesammelten Daten gezielt für das KI-Training und nicht nur als Suchergebnisse (z. B. um eine Website-Suchfunktion zu betreiben).

Beim Besuch der Brave Search API-Homepage werden mehrere Preisstufen angezeigt, darunter einige mit der Bezeichnung „Daten für KI“. Diese Datenpläne umfassen Optionen für „Daten mit Speicherrechten“, die es dem Abonnenten ermöglichen, „Daten zwischenzuspeichern/speichern, um KI-Modelle zu trainieren“, wobei die Daten „zusätzliche alternative Snippets für KI“ und „Rechte zur Nutzung von Daten für KI-Inferenz“ enthalten. ”

Zusammenfassend lässt sich sagen, dass Brave, basierend auf den öffentlichen Äußerungen von Brave und dem Mangel an Dokumentation, das Web heimlich durchsucht, ohne dass es eine offensichtliche Möglichkeit gibt, es zu kontrollieren oder zu blockieren, und die gecrawlten Inhalte anschließend für KI-Schulungen weiterverkauft.

Oder um es deutlicher auszudrücken: Brave hat sich als gewinnorientierter Vertreiber von urheberrechtlich geschützten Inhalten ohne Lizenz oder Genehmigung von Website-Herausgebern etabliert .

Ist das akzeptabel? Ich sehe es als einen schmuddeligen Scraper als Dienstleistung.

Googles Initiative „Publisher Controls“.

Möglicherweise kommt bald ein neuer Webcrawlertyp speziell für generative KI auf den Markt.

Es scheint, dass Google die oben diskutierte Inkompatibilität erkannt hat und dass die Verwendung der vom Googlebot für die Websuche abgerufenen Inhalte möglicherweise nicht für das Training von KI-Modellen geeignet ist.

Google hat angekündigt, dass sie eine Community-Diskussion zur Erstellung von AI Web Publisher Controls starten wollen (hey, Google, ich habe mich angemeldet, lass mich bitte rein!). Ich unterstütze dieses Gespräch voll und ganz und danke Google dafür, dass es die Tür zu diesem Gespräch geöffnet hat.

Da wir noch am Anfang stehen, ist es wichtig darauf hinzuweisen, dass die Standardeinstellungen und Funktionen solcher Kontrollen entscheidend für deren Erfolg oder Misserfolg sein werden. Ich vermute, dass viele Verlage und Autoren der festen Meinung sein werden, dass wir hören müssen, wie diese KI-Kontrollen funktionieren sollten.

Was ist mit Open-Source-LLMs?

Ein wichtiger Aspekt der obigen Argumentation ist der wirtschaftliche Austausch. Was aber, wenn die Organisation hinter dem Sprachmodell das Modell ohne eigenen Nutzen freigibt?

Es gibt viele solcher Open-Source-Modelle, und sie werden auf Datensätzen trainiert, die sich erheblich mit den Datensätzen überschneiden, die zum Trainieren kommerzieller proprietärer Modelle verwendet werden. Viele Open-Source-Modelle sind derzeit für einige Anwendungsfälle gut genug und werden immer besser.

Dennoch: Ist es richtig, dass der Inhalt einer Website ohne Erlaubnis zum Trainieren eines Open-Source-LLM verwendet wird?

Das ist möglicherweise eine schwierigere Frage, und ich denke, die Antwort hängt derzeit davon ab, was das Robots Exclusion Protocol zulässt. Es ist möglich, dass eine bessere Antwort in Form eines gut konzipierten Ansatzes von Googles AI Web Publisher Controls oder einer anderen ähnlichen Initiative entsteht.

Beobachten Sie diesen Bereich.

Was kann ein Verlag nun tun?

Diese aktuelle Situation ist eine Situation, die viele Verlage weder wollen noch akzeptieren. Was können Sie machen?

Hier müssen wir zum Crawler-/Bot-Blockieren der alten Schule zurückkehren. Im Allgemeinen gibt es zwei Arten von Crawlern:

Crawler, die sich identifizieren. Sie können das Robots Exclusion Protocol befolgen oder auch nicht, aber zumindest verfügt der Server über eine Kennung, die er überprüfen kann, um zu entscheiden, ob die Anfrage blockiert werden soll oder nicht. Beispiele hierfür sind Googlebot und Bingbot.
Stealth-Crawler, die nicht für höfliche Suchmaschinen verwendet werden. Sie identifizieren sich nicht und/oder halten sich nicht an das Robots Exclusion Protocol. Beispiele sind der Spam-Scraper von Script Kiddie oder der Crawler von Brave Search.

Es gibt zwei komplementäre Dinge, die Sie tun können:

Wenn der Crawler das Robots Exclusion Protocol befolgt, können Sie ihn blockieren, wenn Sie glauben, dass der von ihm gecrawlte Inhalt in KI-Trainingsdaten einfließt. Hier gibt es zwei Ansätze:
- Blockieren Sie alle Crawler und lassen Sie nur diejenigen zu, die Sie für Ihre Anforderungen zulassen möchten (z. B. Googlebot und Bingbot). Dies ist gefährlich für die Leistung einer Website in der organischen Suche. Man muss damit äußerst vorsichtig sein, aber es ist für diese Crawler effektiv.
- Lassen Sie alle Crawler zu und blockieren Sie diejenigen, die Sie blockieren möchten. Dieser freizügigere Ansatz ist weniger gefährlich, aber natürlich kann es sein, dass Ihre Inhalte von KI oder anderen Crawlern erfasst werden, die Sie möglicherweise nicht möchten.
Verwenden Sie einen serverseitigen Stealth-Bot-Detektor und blockieren Sie damit solche Crawler. Viele Produkte können dies tun. Wenn Sie ein Content Distribution Network (CDN) verwenden, wie es viele Herausgeber tun, ist diese Art von Funktionalität wahrscheinlich darüber verfügbar (z. B. Akamai, Cloudflare, Fastly).

Der Ansatz, den ich bei den Websites, die ich betreibe und die ich mit Kunden bespreche, zu verfolgen beginne, ist eine Kombination der Optionen (1a) und (2), nämlich die Verwendung einer restriktiven robots.txt-Datei zusammen mit CDN-Steuerelementen.

Dies ist möglicherweise nicht für jeden Verlag der beste Ansatz, aber ich denke, es lohnt sich, ernsthaft darüber nachzudenken.

Was bedeutet das alles?

Wir durchleben Zeiten, die als eine der einflussreichsten in die Geschichte eingehen werden. Die Menschen sagen buchstäblich den Untergang der Menschheit durch KI voraus. Wir alle müssen einen Teil dazu beitragen, die Zukunft zu gestalten.

Als Ersteller von Originalinhalten müssen wir unsererseits darüber nachdenken, wie wir reagieren und mit diesem schnelllebigen Teil der Branche Schritt halten und uns anpassen. Die Entscheidung, wie die von uns verfassten Inhalte erstellt, verbreitet und konsumiert werden, ist heute eine komplizierte Mischung aus Strategie, Technologie, Finanzen, Ethik und mehr.

Wie auch immer Sie reagieren, Sie beziehen in einem historischen Moment Stellung. Ich spüre deine Last.

Die in diesem Artikel geäußerten Meinungen sind die des Gastautors und nicht unbedingt die von Search Engine Land. Die Autoren unserer Mitarbeiter sind hier aufgelistet.

Fügen Sie Search Engine Land zu Ihrem Google News-Feed hinzu.