Roboty indeksujące, wyszukiwarki i marne generatywne firmy zajmujące się sztuczną inteligencją

Opublikowany: 2023-07-13

Boom generatywnych produktów AI w ciągu ostatnich kilku miesięcy skłonił wiele stron internetowych do podjęcia środków zaradczych.

Podstawowa obawa wygląda następująco:

Produkty AI polegają na konsumowaniu dużych ilości treści w celu szkolenia ich modeli językowych (tak zwanych dużych modeli językowych, w skrócie LLM), a te treści muszą skądś pochodzić. Firmy zajmujące się sztuczną inteligencją postrzegają otwartość sieci jako umożliwiającą indeksowanie na dużą skalę w celu uzyskania danych szkoleniowych, ale niektórzy operatorzy witryn nie zgadzają się z tym, w tym Reddit, Stack Overflow i Twitter.

Ta odpowiedź na to interesujące pytanie bez wątpienia będzie przedmiotem sporów przed sądami na całym świecie.

W tym artykule omówimy to pytanie, koncentrując się na aspektach biznesowych i technicznych. Ale zanim zagłębimy się w temat, kilka punktów:

Chociaż ten temat dotyka, aw tym artykule zawarłem pewne argumenty prawne, nie jestem prawnikiem, nie jestem twoim prawnikiem i nie udzielam ci żadnych porad. Porozmawiaj ze swoim ulubionym prawnikiem, jeśli potrzebujesz porady prawnej.
Wiele lat temu pracowałem w Google, głównie w wyszukiwarce internetowej. Nie wypowiadam się w imieniu Google w jakiejkolwiek formie ani formie, nawet jeśli poniżej przytoczę kilka przykładów Google.
To szybko poruszający się temat. Gwarantuję, że pomiędzy momentem, w którym skończyłem to pisać, a wy to czytacie, coś ważnego wydarzyłoby się w branży i jest pewne, że coś bym przegapił!

„Umowa” między wyszukiwarkami a witrynami internetowymi

Zaczynamy od tego, jak działa nowoczesna wyszukiwarka, taka jak Google czy Bing. W uproszczeniu wyszukiwarka działa w następujący sposób:

Wyszukiwarka ma listę adresów URL. Każdy adres URL ma metadane (czasami nazywane „sygnałami”), które wskazują, że adres URL może być ważny lub przydatny do wyświetlenia na stronach wyników wyszukiwania.
Na podstawie tych sygnałów wyszukiwarka ma robota indeksującego, bota, który jest programem, który pobiera te adresy URL w pewnej kolejności „ważności” na podstawie tego, co wskazują sygnały. W tym celu robot indeksujący Google nazywa się Googlebot, a Bing to Bingbot (i oba mają o wiele więcej do innych celów, takich jak reklamy). Oba boty identyfikują się w nagłówku agenta użytkownika i oba mogą być weryfikowane programowo przez strony internetowe, aby mieć pewność, że treść jest dostarczana prawdziwemu botowi wyszukiwarki, a nie fałszerstwu.
Po pobraniu zawartość jest indeksowana. Indeksy wyszukiwarek to skomplikowane bazy danych, które zawierają treść strony wraz z ogromną ilością metadanych i innych sygnałów używanych do dopasowania i uszeregowania treści do zapytań użytkowników. Indeks jest tym, co faktycznie jest wyszukiwane po wpisaniu zapytania w Google lub Bing.

Nowoczesne wyszukiwarki, przynajmniej te dobre, grzeczne, dają operatorowi strony pełną kontrolę nad jej przeszukiwaniem i indeksowaniem.

Protokół wykluczania robotów to sposób implementacji tej kontroli za pośrednictwem pliku robots.txt oraz metatagów lub nagłówków na samej stronie internetowej. Wyszukiwarki te dobrowolnie przestrzegają Protokołu Wykluczenia Robotów, traktując implementację Protokołu przez stronę internetową jako dyrektywę, bezwzględny nakaz, a nie tylko zwykłą wskazówkę.

Co ważne, domyślną pozycją protokołu jest to, że dozwolone jest całe przeszukiwanie i indeksowanie – domyślnie jest to dozwolone. O ile operator witryny nie podejmie aktywnie kroków w celu wdrożenia wykluczenia, uznaje się, że witryna umożliwia indeksowanie.

Daje nam to podstawowe ramy umowy między wyszukiwarkami a witrynami internetowymi: domyślnie witryna internetowa będzie przeszukiwana i indeksowana przez wyszukiwarkę, która z kolei kieruje osoby wyszukujące bezpośrednio do oryginalnej witryny internetowej w wynikach wyszukiwania odpowiednich zapytań .

Ta umowa jest zasadniczo wymianą ekonomiczną: koszty produkcji, hostingu i udostępniania treści ponosi strona internetowa, ale chodzi o to, że ruch, który uzyskuje w zamian, zwraca się z zyskiem.

Uwaga : Celowo ignoruję tutaj całą masę powiązanych argumentów na temat tego, kto ma większą władzę w tej wymianie, kto zarabia więcej pieniędzy, uczciwości i wielu innych. Nie umniejszam ich – po prostu nie chcę odwracać uwagi od głównego tematu tego artykułu.

To podejście do indeksowania ruchu pojawia się gdzie indziej, na przykład, gdy wyszukiwarki mogą indeksować treść za zaporą płatną. To ten sam pomysł: witryna udostępnia treści w zamian za wyświetlanie jej w wynikach wyszukiwania, które kierują użytkowników bezpośrednio do witryny.

A na każdym etapie procesu tej umowy, jeśli wydawca chce w jakikolwiek sposób zablokować całość lub część indeksowania, ma do dyspozycji kilka narzędzi korzystających z protokołu Robots and Exclusion Protocol. Wszystko, co nadal może być przeszukiwane i indeksowane, wynika z tego, że witryna czerpie bezpośrednie korzyści z wyświetlania w wynikach wyszukiwania.

Argument ten w jakiejś formie był faktycznie używany w sądach, w czymś, co stało się znane jako „obrona robots.txt” i zasadniczo został zatrzymany; zobacz tę krótką listę spraw sądowych, z których wiele dotyczy Google, oraz artykuł z 2007 r., który nie jest z tego powodu zadowolony.

LLM nie są wyszukiwarkami

Teraz powinno być bardzo jasne, że LLM to inna bestia niż wyszukiwarka.

Odpowiedź modelu językowego nie wskazuje bezpośrednio na strony internetowe, których treść została wykorzystana do szkolenia modelu. Nie ma takiej wymiany ekonomicznej, jaką obserwujemy w przypadku wyszukiwarek, i dlatego wielu wydawców (i autorów) jest zdenerwowanych.

Brak bezpośrednich cytatów źródłowych jest podstawową różnicą między wyszukiwarką a LLM i jest odpowiedzią na bardzo często zadawane pytanie: „dlaczego Google i Bing mają mieć możliwość scrapowania treści, ale nie OpenAI?” (Używam bardziej uprzejmego sformułowania tego pytania.).

Google i Bing próbują pokazać linki źródłowe w swoich generatywnych odpowiedziach AI, ale te źródła, jeśli w ogóle są wyświetlane, nie są pełnym zestawem.

Rodzi to pokrewne pytanie: dlaczego witryna internetowa miałaby zezwalać na wykorzystywanie jej treści do trenowania modelu językowego, jeśli nie otrzymuje nic w zamian?

To bardzo dobre pytanie – i prawdopodobnie najważniejsze, na które jako społeczeństwo powinniśmy sobie odpowiedzieć.

LLM mają zalety pomimo głównych niedociągnięć obecnej generacji LLM (takich jak halucynacje, okłamywanie ludzkich operatorów i uprzedzenia, by wymienić tylko kilka), a korzyści te będą się zwiększać z czasem, gdy niedociągnięcia zostaną rozwiązane.

Ale w tej dyskusji ważne jest, aby zdać sobie sprawę, że fundamentalny filar obecnego funkcjonowania otwartej sieci nie jest odpowiedni dla LLM.

Obrzydliwość

Najwyraźniej nie stanowi to problemu dla firm zajmujących się sztuczną inteligencją, które są zainteresowane szkoleniem dużych modeli wyłącznie dla własnych korzyści ekonomicznych.

OpenAI użyło kilku zestawów danych jako wejściowych danych szkoleniowych (szczegóły tutaj dla GPT3), a OpenAI celowo nie ujawnia zestawów danych szkoleniowych dla GPT4.

Chociaż OpenAI używa wielu argumentów, aby usprawiedliwić nieujawnianie informacji o danych treningowych GPT4 (omówione tutaj), kluczowa kwestia pozostaje dla nas: nie wiemy, jakie treści zostały użyte do trenowania, a OpenAI nie pokazuje tego w odpowiedziach ChatGPT.

Czy gromadzenie danych przez OpenAI jest zgodne z protokołem wykluczenia robotów? Czy zawiera tekst chroniony prawem autorskim, na przykład podręczniki lub inne książki? Czy uzyskali pozwolenie od jakiejkolwiek strony internetowej lub wydawcy? nie mówią.

Super podejrzane podejście Brave Software

Jeśli podejście OpenAI jest problematyczne, Brave Software (twórca przeglądarki Brave i wyszukiwarki Brave) przyjmuje jeszcze bardziej problematyczne podejście i stanowisko, jeśli chodzi o wyszukiwanie i dane szkoleniowe AI.

Wyszukiwarka Brave w dużej mierze zależy od tak zwanego projektu Web Discovery. Podejście to jest dość skomplikowane i udokumentowane tutaj, ale podkreślę jeden kluczowy fakt: wydaje się, że Brave nie ma scentralizowanego robota, z którego korzystają, i żaden z indeksów nie identyfikuje się jako robot dla Brave i (usiądź za to) Brave sprzedaje zeskrobane treści z prawami, które Brave daje kupującemu na szkolenie AI.

W tym zdaniu jest dużo, więc przeanalizujmy to.

Brave search używa przeglądarki Brave jako rozproszonego robota. Jak udokumentowano w tym artykule pomocy, jest to często zadawane pytanie i odpowiedź:

Czy projekt Web Discovery jest robotem indeksującym?
W pewnym sensie tak. Projekt Web Discovery przetwarza zadania pobierania z robota sieciowego Brave. Co kilka sekund lub minut przeglądarka może zostać poinstruowana, aby pobrać stronę internetową i odesłać kod HTML z powrotem do Brave . Pobieranie to nie ma jednak wpływu na historię przeglądania ani pliki cookie — jest wykonywane jako prywatne wywołanie interfejsu API pobierania. Dla dodatkowego bezpieczeństwa domeny zadań pobierania są wstępnie wybierane z niewielkiego zestawu nieszkodliwych i renomowanych domen.
Czym jest projekt odkrywania sieci? – Odważne poszukiwanie

Fetch API to standardowa funkcja sieciowa wbudowana w nowoczesne silniki przeglądarek, w tym tę, z której korzysta Brave. Jego powszechnym zastosowaniem jest pobieranie treści w celu wyświetlenia użytkownikom w przeglądarce. Dla naszych celów od razu wiemy, że to przeglądarka użytkownika żąda treści strony w imieniu wyszukiwarki Brave.

Co ciekawe, wątek Reddita z czerwca 2021 r. dodaje więcej szczegółów i zamieszania. Jedna odpowiedź od przedstawiciela Brave jest bardzo interesująca (podkreśla moją):

Mamy własnego robota indeksującego, ale nie zawiera on ciągu agenta użytkownika (podobnie jak przeglądarka Brave również nie zawiera unikalnego ciągu agenta użytkownika ), aby uniknąć potencjalnej dyskryminacji . To powiedziawszy, rozmawialiśmy o potencjalnej identyfikacji robota dla administratorów, którzy chcieliby wiedzieć, kiedy/gdzie wyląduje na ich właściwościach. Szanujemy również plik robots.txt , więc jeśli nie chcesz, aby Brave Search indeksował Twoją witrynę, nie zrobi tego.

To kopalnia faktów:

Mają własnego robota indeksującego, który może odnosić się do scentralizowanego lub rozproszonego projektu Web Discovery opartego na przeglądarce.
Ten robot indeksujący nie identyfikuje się jako robot indeksujący, ale w jakiś sposób przestrzega protokołu Robots Exclusion Protocol (w postaci pliku robots.txt). Jak operator strony internetowej może napisać dyrektywę wykluczającą roboty, jeśli przeglądarka nie identyfikuje się? Który token agenta użytkownika (jak się go nazywa) zostałby użyty w pliku robots.txt do określenia dyrektyw specyficznych dla robota Brave? Nie udało mi się znaleźć żadnej dokumentacji od Brave.
To, co nazywają dyskryminacją, to w rzeczywistości sposób, w jaki wydawcy kontrolują indeksowanie. Protokół wykluczania robotów to mechanizm umożliwiający wydawcom rozróżnianie tego, do czego użytkownicy i roboty indeksujące mają dostęp, oraz rozróżnianie różnych robotów indeksujących (na przykład zezwalanie na indeksowanie Bingbotowi, ale nie Googlebotowi). Twierdząc, że chcą uniknąć dyskryminacji, Brave w rzeczywistości mówi, że to oni decydują, co będą indeksować i indeksować, a nie wydawca.

Wracając do Fetch API: Domyślnie Fetch API używa ciągu agenta użytkownika przeglądarki. Wiemy już, że przeglądarka Brave nie identyfikuje się za pomocą unikalnego nagłówka agenta użytkownika, zamiast tego używa ogólnego ciągu agenta użytkownika generowanego przez podstawowy silnik przeglądarki.

Ciąg agenta użytkownika można dostosować, ogólnie dla przeglądarki i Fetch API, ale nie znalazłem żadnych wskazówek, że Brave to robi (i rzeczywiście, cytowana powyżej odpowiedź Reddit wyraźnie mówi, że nie ma unikalnego identyfikatora).

Co więcej, Brave sprzedaje zebrane dane specjalnie do szkolenia sztucznej inteligencji, a nie tylko jako wyniki wyszukiwania (na przykład w celu zasilania funkcji wyszukiwania w witrynie).

Odwiedzenie strony głównej Brave Search API pokazuje kilka poziomów cen, w tym niektóre o nazwie „Dane dla AI”. Te plany danych obejmują opcje „Dane z prawami do przechowywania”, które umożliwiają subskrybentowi „Pamięć podręczną/przechowywanie danych w celu trenowania modeli AI”, z danymi obejmującymi „Dodatkowe alternatywne fragmenty dla sztucznej inteligencji” oraz „Prawa do wykorzystywania danych do wnioskowania o sztucznej inteligencji”. ”

Podsumowując, w oparciu o publiczne oświadczenia Brave i brak dokumentacji, Brave indeksuje sieć w ukradkowy sposób, bez oczywistego sposobu kontrolowania lub blokowania, a następnie odsprzedaje zindeksowane treści do szkolenia AI.

Lub, mówiąc bardziej dosadnie, Brave wyznaczył się jako nastawiony na zysk dystrybutor treści chronionych prawem autorskim bez licencji lub zgody wydawców witryn internetowych .

Czy to jest do zaakceptowania? Widzę to jako obskurny skrobak jako usługę.

Inicjatywa kontroli wydawców Google

Wkrótce może pojawić się nowy typ robota sieciowego, specjalnie dla generatywnej sztucznej inteligencji.

Wygląda na to, że Google rozpoznał omówioną powyżej niezgodność, zgodnie z którą korzystanie z treści pobieranych przez Googlebota do wyszukiwania w sieci może nie nadawać się do trenowania modeli sztucznej inteligencji.

Firma Google ogłosiła, że chce rozpocząć dyskusję społeczności w celu stworzenia kontrolek AI Web Publisher Controls (hej, Google, zarejestrowałem się, wpuść mnie!). Z całego serca popieram tę rozmowę i gratuluję Google za otwarcie drzwi do tej rozmowy.

Ponieważ jesteśmy na początku, ważne jest, aby zaznaczyć, że domyślne ustawienia i możliwości takich kontroli będą miały kluczowe znaczenie dla ich sukcesu lub porażki. Podejrzewam, że wielu wydawców i autorów będzie miało zdecydowane opinie, które powinniśmy usłyszeć o tym, jak powinny działać te kontrole AI.

A co z LLM typu open source?

Ważnym aspektem powyższego argumentu jest wymiana gospodarcza. Ale co, jeśli organizacja stojąca za modelem językowym udostępnia model swobodnie, bez korzyści dla siebie?

Istnieje wiele takich modeli open source i są one szkolone na zestawach danych, które w znacznym stopniu pokrywają się z zestawami danych używanymi do trenowania komercyjnych modeli zastrzeżonych. Wiele modeli open source jest obecnie wystarczająco dobrych dla niektórych przypadków użycia, a są one coraz lepsze.

Nadal: czy to prawda, że zawartość witryny jest wykorzystywana bez pozwolenia do szkolenia LLM typu open source?

To prawdopodobnie trudniejsze pytanie i myślę, że odpowiedź obecnie opiera się na tym, na co pozwala protokół wykluczania robotów. Możliwe, że lepsza odpowiedź pojawi się w postaci dobrze zaprojektowanego podejścia z AI Web Publisher Controls firmy Google lub innej podobnej inicjatywy.

Obserwuj tą przestrzeń.

Co zatem może teraz zrobić wydawca?

Obecna sytuacja jest sytuacją, której wielu wydawców ani nie chce, ani nie akceptuje. Co oni mogą zrobić?

Tutaj musimy wrócić do starej szkoły blokowania robotów/botów. Zasadniczo istnieją dwa rodzaje robotów indeksujących:

Roboty, które się identyfikują. Mogą, ale nie muszą, przestrzegać Protokołu wykluczenia robotów, ale przynajmniej serwer ma identyfikator, który należy sprawdzić, aby zdecydować, czy zablokować żądanie, czy nie. Przykłady obejmują Googlebota i Bingbota.
Roboty skradające się, które nie są używane w grzecznych wyszukiwarkach. Nie identyfikują się i/lub nie przestrzegają protokołu wykluczenia robotów. Przykładami są skrobaki spamu dla dzieci skryptowych lub roboty indeksujące Brave Search.

Możesz zrobić dwie uzupełniające się rzeczy:

Jeśli robot indeksujący przestrzega protokołu Robots Exclusion Protocol, możesz go zablokować, jeśli uważasz, że zawartość, którą indeksuje, jest wykorzystywana w danych szkoleniowych AI. Istnieją tutaj dwa podejścia:
- Zablokuj wszystkie roboty indeksujące i zezwól tylko na te, które chcesz zezwolić na swoje potrzeby (takie jak Googlebot i Bingbot). Jest to niebezpieczne dla wydajności witryny w organicznych wynikach wyszukiwania. Musisz być z nim bardzo ostrożny, ale jest skuteczny dla tych robotów.
- Zezwalaj na indeksowanie i blokuj te, które chcesz zablokować. To bardziej liberalne podejście jest mniej niebezpieczne, ale oczywiście Twoje treści mogą zostać zeskrobane przez sztuczną inteligencję lub inne roboty, których możesz nie chcieć.
Użyj wykrywacza robotów ukrywających się po stronie serwera i użyj go do blokowania takich robotów. Wiele produktów to potrafi. Jeśli korzystasz z sieci dystrybucji treści (CDN), jak wielu wydawców, prawdopodobnie tego rodzaju funkcje są dostępne za jej pośrednictwem (np. Akamai, Cloudflare, Fastly).

Podejście, które zaczynam stosować w przypadku witryn, które prowadzę i omawiam z klientami, to połączenie opcji (1a) i (2), a mianowicie użycie restrykcyjnego pliku robots.txt wraz z kontrolkami CDN.

To może nie być najlepsze podejście dla każdego wydawcy, ale myślę, że warto się nad nim poważnie zastanowić.

Co to wszystko oznacza?

Żyjemy w czasach, które zapiszą się jako jedne z najbardziej wpływowych w historii. Ludzie dosłownie przewidują zagładę ludzkości z AI. Wszyscy mamy swój udział w kształtowaniu przyszłości.

Jako twórcy oryginalnych treści musimy pomyśleć o tym, jak zareagować, nadążyć i dostosować się do tej szybko rozwijającej się części branży. Decyzja o tym, w jaki sposób tworzone przez nas treści są tworzone, rozpowszechniane i wykorzystywane, jest obecnie skomplikowaną mieszanką strategii, technologii, finansów, etyki i nie tylko.

Niezależnie od tego, jak zareagujesz, zajmujesz stanowisko w historycznym momencie. Czuję twój ciężar.

Opinie wyrażone w tym artykule są opiniami autora-gościa i niekoniecznie Search Engine Land. Autorzy personelu są wymienieni tutaj.

Dodaj Search Engine Land do swojego kanału Google News.