Robots.txt nie jest odpowiedzią: proponujemy nowy metatag dla LLM/AI

Opublikowany: 2023-07-18

Podczas gdy Google otwiera dyskusję na temat przyznawania kredytu i przestrzegania praw autorskich podczas szkolenia dużych modeli językowych (LLM) dla generatywnych produktów AI, koncentruje się na pliku robots.txt.

Jednak moim zdaniem jest to niewłaściwe narzędzie do oglądania.

Mój były kolega, Pierre Far, napisał doskonały artykuł na temat robotów indeksujących, wyszukiwarek i nędzy generatywnych firm zajmujących się sztuczną inteligencją, w którym zwrócił uwagę na niektóre z ogromnych wyzwań stojących obecnie przed branżą wydawniczą online. Podobnie jak w przypadku jego artykułu, utrzymam tę propozycję na wysokim szczeblu, ponieważ zmiany w tej dziedzinie są niezwykle szybkie.

Dlaczego nie użyć pliku robots.txt

Istnieje kilka powodów, dla których użycie pliku robots.txt jest złym punktem wyjścia do dyskusji o tym, jak szanować prawa autorskie wydawców.

Nie wszystkie LLM używają robotów indeksujących i identyfikują się

Na operatorze strony spoczywa ciężar identyfikacji i blokowania poszczególnych robotów indeksujących, które mogą wykorzystywać i/lub sprzedawać swoje dane do generatywnych produktów AI. Powoduje to dużo dodatkowej (i niepotrzebnej) pracy, zwłaszcza dla mniejszych wydawców.

Zakłada to również, że wydawca ma dostęp do edycji swojego pliku robots.txt, co nie zawsze ma miejsce w przypadku rozwiązań hostowanych.

Nie jest to trwałe rozwiązanie, ponieważ liczba robotów gąsienicowych stale rośnie

Użyteczny rozmiar pliku robots.txt jest ograniczony do 500 kb, zgodnie z nowo zaproponowanym standardem robots.txt.

Oznacza to, że duży wydawca może napotkać problemy z plikiem robots.txt, jeśli oprócz innych botów musi zablokować wiele robotów indeksujących LLM i/lub udoskonalone wzorce adresów URL.

Podejście „wszystko albo nic” jest niedopuszczalne

W przypadku większych robotów indeksujących, takich jak Googlebot i Bingbot, nie można dokonać rozróżnienia między danymi używanymi na stronach wyników wyszukiwania (tradycyjnie tam, gdzie istnieje „umowa” między wydawcą a wyszukiwarką w postaci „cytowania” oryginału source) i generatywnych produktów AI.

Blokowanie Googlebota lub Bingbota dla ich generatywnych produktów AI blokuje również jakąkolwiek potencjalną widoczność w ich odpowiednich wynikach wyszukiwania. To niedopuszczalna sytuacja, w której wydawca jest zmuszony dokonać wyboru między „wszystko albo nic”.

Robots.txt dotyczy zarządzania indeksowaniem, podczas gdy dyskusja o prawach autorskich dotyczy sposobu wykorzystania danych

To ostatnie dotyczy fazy indeksacji/przetwarzania. Jako taki plik robots.txt nie jest tak naprawdę odpowiedni do tej dyskusji, ale raczej ostateczność, jeśli nic innego nie działa i naprawdę nie powinien być punktem wyjścia tej konkretnej dyskusji.

Pliki robots.txt działają dobrze dla robotów indeksujących i nie wymagają zmian na potrzeby LLM. Tak, roboty indeksujące LLM muszą się identyfikować, ale tak naprawdę musimy porozmawiać o indeksacji/przetwarzaniu przeszukiwanych danych.

Wynalezienie koła na nowo

Na szczęście w sieci istnieją już ugruntowane rozwiązania, które można wykorzystać do zarządzania wykorzystaniem danych z uwzględnieniem praw autorskich. Nazywa się Creative Commons.

Większość licencji Creative Commons nadawałaby się do celów LLM. Ilustrować:

CC0 pozwala LLM na dystrybucję, remiksowanie, adaptację i tworzenie materiałów na dowolnym nośniku lub formacie bez żadnych warunków.
CC BY pozwala LLM na dystrybucję, remiksowanie, adaptację i tworzenie materiałów na dowolnym nośniku lub w dowolnym formacie, pod warunkiem podania autorstwa twórcy. Licencja zezwala na wykorzystanie komercyjne, ale autor musi wyrazić uznanie dla twórcy.
CC BY-SA pozwala LLM na dystrybucję, remiksowanie, adaptację i tworzenie materiałów na dowolnym nośniku lub w dowolnym formacie, pod warunkiem podania autorstwa twórcy. Licencja zezwala na wykorzystanie komercyjne. Jeśli firmy LLM remiksują, dostosowują lub rozwijają materiał, muszą licencjonować zmodyfikowany materiał na identycznych warunkach.
CC BY-NC zezwala firmom LLM na dystrybucję, remiksowanie, adaptację i tworzenie materiałów na dowolnym nośniku lub w dowolnym formacie w celach niekomercyjnych wyłącznie pod warunkiem uznania autorstwa twórcy.
CC BY-NC-SA zezwala firmom LLM na dystrybucję, remiksowanie, adaptację i tworzenie materiałów na dowolnym nośniku lub w dowolnym formacie w celach niekomercyjnych wyłącznie pod warunkiem uznania autorstwa twórcy. Jeśli LLM remiksują, adaptują lub opierają się na materiale, muszą licencjonować zmodyfikowany materiał na identycznych warunkach.
CC BY-ND zezwala LLM na kopiowanie i dystrybucję materiałów na dowolnym nośniku lub formacie w niedostosowanej formie tylko pod warunkiem podania autorstwa twórcy. Licencja zezwala na wykorzystanie komercyjne, a twórca musi wyrazić uznanie, ale żadne pochodne ani adaptacje dzieła nie są dozwolone.
CC BY-NC-ND zezwala LLM na kopiowanie i dystrybucję materiału na dowolnym nośniku lub w dowolnym formacie, wyłącznie w formie niedostosowanej, wyłącznie do celów niekomercyjnych i pod warunkiem, że autor jest autorem i żadne pochodne ani adaptacje pracy nie są dozwolone.

Jest mało prawdopodobne, aby dwie ostatnie licencje nadawały się do użytku w przypadku LLM.

Jednak pierwsze pięć licencji oznacza, że LLM muszą rozważyć, w jaki sposób wykorzystują zindeksowane/uzyskane dane i upewnić się, że przestrzegają wymagań nałożonych na korzystanie z danych od wydawców, takich jak uznanie autorstwa i udostępnianie produktu zbudowanego na danych.

Spowodowałoby to obciążenie „kilku” LLM na świecie zamiast „wielu” wydawców.

Pierwsze trzy licencje wspierają również „tradycyjne” wykorzystanie danych, na przykład w wynikach wyszukiwania, gdzie przypisanie/uznanie następuje poprzez link do oryginalnej strony internetowej. Podczas gdy czwarta i piąta licencja wspierają również badania i rozwój dla LLM typu open source.

Uwaga dodatkowa: należy pamiętać, że wszystkie te firmy programistyczne budujące LLM często używają oprogramowania open source, w przypadku którego mają te same wyzwania licencyjne dotyczące praw autorskich w odniesieniu do bibliotek oprogramowania i systemów operacyjnych, których używają, aby uniknąć naruszeń praw autorskich na poziomie kodu. Po co więc wymyślać koło na nowo, skoro możemy użyć podobnego systemu do danych przetwarzanych przez ten kod?

Metatag jest drogą

Po określeniu przez wydawcę odpowiedniej licencji nadal należy ją przekazać. Ponownie, tutaj plik robots.txt wydaje się być niewłaściwym podejściem.

To, że strona powinna być zablokowana przed indeksowaniem przez wyszukiwarki, nie oznacza, że nie może być używana lub nie jest przydatna dla LLM. To są dwa różne przypadki użycia.

W związku z tym, aby oddzielić te przypadki użycia i umożliwić wydawcom bardziej wyrafinowane, ale także łatwiejsze podejście, zalecamy zamiast tego użycie metatagu.

Metatagi to fragmenty kodu, które można wstawić na poziomie strony, w obrębie motywu lub treści (wiem, że nie jest to technicznie poprawne, ale HTML jest wystarczająco wyrozumiały i może być używany w ostateczności, gdy wydawca ma ograniczony dostęp do bazy kodu). Nie wymagają od wydawcy dodatkowych praw dostępu innych niż możliwość edytowania kodu HTML publikowanych treści.

Korzystanie z metatagów nie zatrzymuje indeksowania, podobnie jak meta noindex. Pozwala jednak na informowanie o prawach do korzystania z opublikowanych danych.

I chociaż istnieją istniejące znaczniki praw autorskich, które można wykorzystać – zwłaszcza z Dublin Core, rights-standard (opuszczony wniosek), copyright-meta (koncentruje się na nazwisku właściciela, a nie na licencji) i innych próbach – obecna implementacja te na niektórych stronach internetowych mogą kolidować z tym, co staramy się osiągnąć tutaj.

Tak więc nowy metatag może być konieczny, chociaż z przyjemnością wykorzystam również istniejący lub stary tag, taki jak „rights-standard”. Na potrzeby tej dyskusji proponuję następujący nowy metatag:

 <meta name="usage-rights" content="CC-BY-SA" />

Ponadto zalecam, aby ten metatag był również obsługiwany, gdy jest używany w nagłówkach HTTP, tak jak noindex jest obsługiwany w X-Robots-Tag, aby pomóc robotom indeksującym LLM w lepszym zarządzaniu zasobami indeksowania (muszą tylko sprawdzić nagłówki HTTP, aby zweryfikować prawa użytkowania).

 X-Robots-Tag: usage-rights: CC-BY-SA

Można tego używać w połączeniu z innymi metatagami. W poniższym przykładzie strona nie powinna być używana w wynikach wyszukiwania, ale może być używana w komercyjnych LLM, pod warunkiem podania źródła:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Uwaga: nazwa „prawa do użytkowania” dla metatagu jest propozycją i może zostać zmieniona.

Niezawodne rozwiązanie

To prawda, że istnieją złe roboty i źli aktorzy, którzy budują swoje LLM i generatywne produkty AI.

Proponowane rozwiązanie metatagów nie zapobiegnie używaniu treści w ten sposób, ale plik robots.txt też nie.

Należy zauważyć, że obie metody zależą od uznania i zgodności ze strony firm wykorzystujących dane do ich produktów AI.

Wniosek

Mam nadzieję, że ten artykuł ilustruje, w jaki sposób używanie pliku robots.txt do zarządzania wykorzystaniem danych w LLM jest moim zdaniem niewłaściwym podejściem/punktem wyjścia do radzenia sobie z użytkowaniem i prawami autorskimi w nowej erze LLM i generatywnych produktów AI.

Ta implementacja metatagów umożliwiłaby wydawcom określanie informacji o prawach autorskich na poziomie strony przy użyciu Creative Commons, bez uniemożliwiania przeszukiwania lub indeksowania strony do innych celów (takich jak wyniki wyszukiwania). Pozwala również na składanie deklaracji praw autorskich do różnych zastosowań, w tym LLM, generatywnych produktów AI i potencjalnych przyszłych produktów AI.

Opinie wyrażone w tym artykule są opiniami autora-gościa i niekoniecznie Search Engine Land. Autorzy personelu są wymienieni tutaj.

Dodaj Search Engine Land do swojego kanału Google News.