Сканеры, поисковые системы и дешевизна компаний, занимающихся генеративным искусственным интеллектом

Опубликовано: 2023-07-13

Бум генеративных продуктов искусственного интеллекта за последние несколько месяцев побудил многие веб-сайты принять контрмеры.

Основная забота звучит так:

Продукты ИИ зависят от потребления больших объемов контента для обучения своих языковых моделей (так называемые большие языковые модели, или сокращенно LLM), и этот контент должен откуда-то поступать. Компании, занимающиеся искусственным интеллектом, рассматривают открытость Интернета как возможность широкомасштабного сканирования для получения обучающих данных, но некоторые операторы веб-сайтов не согласны с этим, включая Reddit, Stack Overflow и Twitter.

Этот ответ на этот интересный вопрос, несомненно, будет оспорен в судах по всему миру.

В этой статье мы рассмотрим этот вопрос, сосредоточив внимание на деловых и технических аспектах. Но прежде чем мы углубимся, несколько моментов:

  • Хотя эта тема затрагивает, и я включил в эту статью некоторые юридические аргументы, я не юрист, я не ваш адвокат и не даю вам никаких советов. Поговорите со своим любимым котом-адвокатом, если вам нужна юридическая консультация.
  • Я работал в Google много лет назад, в основном в веб-поиске. Я ни в какой форме не выступаю от имени Google, даже когда привожу некоторые примеры Google ниже.
  • Это быстроразвивающаяся тема. Гарантируется, что между тем, как я закончу писать это, и тем, как вы его читаете, в отрасли произойдет что-то важное, и я гарантированно что-то пропущу!

«Сделка» между поисковыми системами и веб-сайтами

Начнем с того, как работает современная поисковая система, такая как Google или Bing. Если говорить слишком упрощенно, поисковая система работает так:

  • В поисковой системе есть список URL-адресов. У каждого URL-адреса есть метаданные (иногда называемые «сигналами»), которые указывают, что URL-адрес может быть важным или полезным для отображения на страницах результатов поисковой системы.
  • Основываясь на этих сигналах, у поисковой системы есть сканер, бот, который представляет собой программу, которая извлекает эти URL-адреса в некотором порядке «важности» на основе того, на что указывают сигналы. Для этой цели поисковый робот Google называется Googlebot, а поисковый робот Bing — Bingbot (и у обоих есть много других для других целей, таких как реклама). Оба бота идентифицируют себя в заголовке пользовательского агента, и оба могут быть проверены программно веб-сайтами, чтобы убедиться, что контент передается настоящему боту поисковой системы, а не подделке.
  • После получения контента он индексируется. Индексы поисковых систем — это сложные базы данных, которые содержат контент страницы вместе с огромным количеством метаданных и других сигналов, используемых для сопоставления и ранжирования контента по запросам пользователей. Индекс — это то, что на самом деле ищется, когда вы вводите запрос в Google или Bing.

Современные поисковые системы, по крайней мере, хорошие вежливые, дают оператору веб-сайта полный контроль над сканированием и индексированием.

Протокол исключения роботов — это то, как этот элемент управления реализуется через файл robots.txt и метатеги или заголовки на самой веб-странице. Эти поисковые системы добровольно подчиняются протоколу исключения роботов, принимая реализацию протокола веб-сайтом как директиву, абсолютную команду, а не просто намек.

Важно отметить, что положение протокола по умолчанию заключается в том, что все сканирование и индексирование разрешены — по умолчанию он разрешен. Если оператор веб-сайта активно не предпринимает шаги для реализации исключения, считается, что веб-сайт разрешает сканирование и индексирование.

Это дает нам базовую структуру сделки между поисковыми системами и веб-сайтами: по умолчанию веб-сайт будет просканирован и проиндексирован поисковой системой, которая, в свою очередь, направит искателей непосредственно на исходный веб-сайт в результатах поиска по релевантным запросам. .

По сути, эта сделка является экономическим обменом: затраты на создание, размещение и обслуживание контента несет веб-сайт, но идея состоит в том, что трафик, который он получает взамен, окупается с прибылью.

Примечание . Я намеренно игнорирую множество связанных аргументов о том, у кого больше власти в этом обмене, кто зарабатывает больше денег, справедливости и многом другом. Я не умаляю их — я просто не хочу отвлекать от основной темы этой статьи.

Этот подход к индексации трафика используется в других местах, например, когда поисковым системам разрешено индексировать контент за платным доступом. Это та же самая идея: веб-сайт делится контентом в обмен на то, что он отображается в результатах поиска, которые направляют искателей обратно на веб-сайт напрямую.

И на каждом этапе процесса этой сделки, если издатель хочет каким-либо образом заблокировать все или часть сканирования или индексации, у него есть несколько инструментов, использующих протокол «Роботы и исключение». Все, что еще разрешено сканировать и индексировать, связано с тем, что веб-сайт получает прямую выгоду от показа в результатах поиска.

Этот аргумент в той или иной форме фактически использовался в судах, что стало известно как «защита robots.txt», и в основном его поддерживали; посмотрите этот краткий список судебных дел, многие из которых связаны с Google, и эту рецензию 2007 года, которая не совсем счастлива по этому поводу.

LLM не являются поисковыми системами

Теперь должно быть совершенно ясно, что LLM отличается от поисковой системы.

Ответ языковой модели не указывает прямо на веб-сайт(ы), содержимое которых использовалось для обучения модели. Здесь нет экономического обмена, как в случае с поисковыми системами, и именно поэтому многие издатели (и авторы) расстроены.

Отсутствие прямых ссылок на источники — это фундаментальное различие между поисковой системой и LLM, и это ответ на очень распространенный вопрос: «Почему Google и Bing должны разрешать парсинг контента, но не OpenAI?» (Я использую более вежливую формулировку этого вопроса.)

Google и Bing пытаются показывать ссылки на источники в своих генеративных ответах ИИ, но эти источники, если они вообще отображаются, не являются полным набором.

Это поднимает связанный с этим вопрос: почему веб-сайт должен позволять использовать свой контент для обучения языковой модели, если он ничего не получает взамен?

Это очень хороший вопрос и, возможно, самый важный, на который мы должны ответить как общество.

У LLM действительно есть преимущества, несмотря на основные недостатки нынешнего поколения LLM (такие как галлюцинации, ложь операторам-людям и предубеждения, и это лишь некоторые из них), и эти преимущества будут только увеличиваться со временем, пока недостатки будут устранены.

Но для этого обсуждения важно понять, что фундаментальная основа того, как работает открытая сеть прямо сейчас, не подходит для LLM.

неряшливость

Очевидно, это не проблема для компаний, занимающихся искусственным интеллектом, которые заинтересованы в обучении больших моделей только для собственной экономической выгоды.

OpenAI использовал несколько наборов данных в качестве входных данных для обучения (подробности здесь для GPT3), и OpenAI намеренно не раскрывает наборы обучающих данных для GPT4.

Хотя OpenAI использует много аргументов, чтобы оправдать нераскрытие информации о данных обучения GPT4 (обсуждается здесь), ключевым моментом для нас остается: мы не знаем, какой контент использовался для его обучения, и OpenAI не показывает этого в ответах ChatGPT.

Соответствует ли сбор данных OpenAI протоколу исключения роботов? Включает ли он защищенный авторским правом текст, например учебники или другие книги? Получили ли они разрешение от какого-либо веб-сайта или издателя? Они не говорят.

Сверхтеневой подход Brave Software

Если подход OpenAI проблематичен, то Brave Software (создатель браузера Brave и поисковой системы Brave) придерживается еще более проблематичного подхода и позиции, когда речь идет о поиске и данных обучения ИИ.

Поисковая система Brave сильно зависит от так называемого проекта Web Discovery. Подход довольно сложный и задокументирован здесь, но я выделю один ключевой факт: у Brave, похоже, нет централизованного сканера, которым они управляют, и ни один из сканеров не идентифицирует себя как сканеры для Brave, и (присядьте для этого) Brave продает извлеченный контент с правами, которые Brave дает покупателю для обучения ИИ.

В этом предложении много, так что давайте разберем его.

Brave search использует браузер Brave в качестве распределенного поискового робота. Как указано в этой справочной статье, есть вопрос и ответ на часто задаваемые вопросы:

Является ли проект Web Discovery сканером?

В некотором смысле, да. Проект Web Discovery обрабатывает задания на выборку из веб-краулера Brave. Каждые несколько секунд или минут браузеру может быть предложено загрузить веб-страницу и отправить HTML-код обратно в Brave . Однако это получение не влияет на вашу историю посещенных страниц или файлы cookie — оно выполняется как частный вызов API извлечения. Для дополнительной безопасности домены заданий выборки предварительно выбираются из небольшого набора безопасных и надежных доменов.

Что такое проект Web Discovery? - Смелый поиск

Fetch API — это функциональность веб-стандарта, встроенная в современные браузерные движки, включая ту, которую использует Brave. Его обычное использование — получение контента для отображения пользователям в браузере. Для наших целей мы сразу знаем, что это браузер пользователя, запрашивающий содержимое веб-сайта от имени поисковой системы Brave.

Интересно, что ветка Reddit от июня 2021 года добавляет больше деталей и путаницы. Один ответ от представителя Brave очень интересен (выделено моим):

У нас есть собственный поисковый робот, но он не содержит строку пользовательского агента (как и браузер Brave, также не содержит уникальной строки пользовательского агента ), чтобы избежать потенциальной дискриминации . Тем не менее, мы говорили о потенциальной идентификации сканера для администраторов, которые хотели бы знать, когда и где он попадает на их ресурсы. Мы также уважаем robots.txt , поэтому, если вы не хотите, чтобы Brave Search сканировал ваш сайт, он этого не сделает.

Это кладезь фактов:

  1. У них есть собственный краулер, который может относиться к централизованному или к распределенному проекту Web Discovery на основе браузера.
  2. Этот сканер не идентифицирует себя как поисковый робот, но каким-то образом подчиняется протоколу исключения роботов (в форме файла robots.txt). Как оператор веб-сайта может написать директиву об исключении роботов, если браузер не идентифицирует себя? Какой токен пользовательского агента (как он называется) будет использоваться в файле robots.txt для указания директив, специфичных для сканера Brave? Я не смог найти никакой документации от Brave.
  3. То, что они называют дискриминацией, на самом деле означает, как издатели контролируют сканирование. Протокол исключения роботов — это механизм, позволяющий издателям различать, к чему разрешен доступ пользователям и поисковым роботам, а также различать разные поисковые роботы (например, разрешать сканирование Bingbot, но не Googlebot). Утверждая, что они хотят избежать дискриминации, Brave на самом деле говорит, что они решают, что сканировать и индексировать, а не издатель.

Возвращаясь к Fetch API: по умолчанию Fetch API использует строку пользовательского агента браузера. Мы уже знаем, что браузер Brave не идентифицирует себя с помощью уникального заголовка пользовательского агента, вместо этого используя общую строку пользовательского агента, созданную базовым движком браузера.

Строка пользовательского агента может быть настроена для браузера в целом и Fetch API, но я не нашел никаких указаний на то, что Brave делает это (и действительно, в приведенном выше ответе Reddit прямо говорится, что уникальный идентификатор отсутствует).

Кроме того, Brave продолжает продавать полученные данные специально для обучения ИИ, а не только в качестве результатов поиска (например, для включения функции поиска по сайту).

Посещение домашней страницы Brave Search API показывает несколько ценовых уровней, в том числе некоторые из них называются «Данные для ИИ». Эти тарифные планы включают опции «Данные с правами на хранение», которые позволяют подписчику «Кэшировать/хранить данные для обучения моделей ИИ», с данными, включая «Дополнительные альтернативные фрагменты для ИИ» и с «Правами на использование данных для вывода ИИ». ”

Таким образом, основываясь на публичных заявлениях Brave и отсутствии документации, Brave скрытно сканирует Интернет, без очевидного способа контролировать или блокировать его, а затем перепродает просканированный контент для обучения ИИ.

Или, если перефразировать это более прямо, Brave назначил себя коммерческим дистрибьютором защищенного авторским правом контента без лицензии или разрешения от издателей веб-сайтов .

Это приемлемо? Я рассматриваю это как неряшливый скребок в качестве услуги.

Инициатива Google по контролю над издателями

Возможно, скоро появится новый тип поискового робота, предназначенный специально для генеративного ИИ.

Похоже, что Google признал несовместимость, о которой говорилось выше, и использование контента, полученного роботом Googlebot для веб-поиска, может не подходить для обучения моделей ИИ.

Google объявил, что они хотят начать обсуждение в сообществе создания средств управления веб-издателями AI (эй, Google, я зарегистрировался, впусти меня, пожалуйста!). Я полностью поддерживаю этот разговор, и Google молодец, что открыл дверь для этого разговора.

Поскольку мы находимся в первые дни, важно отметить, что значения по умолчанию и возможности таких элементов управления будут иметь решающее значение для их успеха или неудачи. Я подозреваю, что многие издатели и авторы будут твердо убеждены в том, что нам нужно услышать о том, как должны работать эти элементы управления ИИ.

Как насчет LLM с открытым исходным кодом?

Важным аспектом приведенного выше аргумента является экономический обмен. Но что, если организация, стоящая за языковой моделью, бесплатно выпускает модель без какой-либо выгоды для себя?

Существует много таких моделей с открытым исходным кодом, и они обучаются на наборах данных, которые существенно перекрывают наборы данных, используемые для обучения коммерческих проприетарных моделей. Многие модели с открытым исходным кодом уже достаточно хороши для некоторых случаев использования, и они только улучшаются.

Тем не менее: правильно ли, что контент веб-сайта используется без разрешения для обучения LLM с открытым исходным кодом?

Возможно, это более сложный вопрос, и я думаю, что ответ в настоящее время зависит от того, что позволяет протокол исключения роботов. Вполне возможно, что лучший ответ появится в виде хорошо разработанного подхода от Google AI Web Publisher Controls или какой-либо другой подобной инициативы.

Наблюдайте за этим пространством.

Итак, что теперь может сделать издатель?

Эта текущая ситуация является той, которую многие издатели не хотят и не принимают. Что они могут сделать?

Здесь нам нужно вернуться к старой школе блокировки сканеров/ботов. Как правило, есть два типа сканеров:

  1. Поисковые роботы, которые идентифицируют себя. Они могут подчиняться или не подчиняться протоколу исключения роботов, но, по крайней мере, у сервера есть идентификатор, который нужно проверить, чтобы решить, блокировать запрос или нет. Примеры включают Googlebot и Bingbot.
  2. Скрытые сканеры, которые не используются для вежливых поисковых систем. Они не идентифицируют себя и/или не соблюдают Протокол исключения роботов. Примерами являются любой спам-скребок script kiddie или сканер Brave Search.

Есть две взаимодополняющие вещи, которые вы можете сделать:

  1. Если сканер подчиняется протоколу исключения роботов, вы можете заблокировать его, если считаете, что просматриваемый им контент используется в обучающих данных ИИ. Здесь есть два подхода:
    • Заблокируйте все поисковые роботы и разрешите только те, которые вы хотите разрешить для своих нужд (например, Googlebot и Bingbot). Это опасно для производительности сайта в органическом поиске. С ним нужно быть предельно осторожным, но он эффективен для этих краулеров.
    • Разрешите все сканирования и заблокируйте те, которые хотите заблокировать. Этот более снисходительный подход менее опасен, но, конечно, ваш контент может быть очищен искусственным интеллектом или другими поисковыми роботами, которые вам могут не понадобиться.
  2. Используйте детектор скрытых ботов на стороне сервера и используйте его для блокировки таких сканеров. Многие продукты могут сделать это. Если вы используете сеть распространения контента (CDN), как это делают многие издатели, скорее всего, такая функциональность доступна через нее (например, Akamai, Cloudflare, Fastly).

Подход, который я начинаю применять к веб-сайтам, на которых работаю, и который я обсуждаю с клиентами, представляет собой комбинацию вариантов (1a) и (2), а именно использование ограничительного файла robots.txt вместе с элементами управления CDN.

Возможно, это не лучший подход для каждого издателя, но я думаю, что его стоит серьезно рассмотреть.

Что все это значит?

Мы живем во времена, которые войдут в историю как одни из самых влиятельных. Люди буквально предсказывают гибель человечества от ИИ. Мы все должны сыграть свою роль в формировании будущего.

Со своей стороны, как создатели оригинального контента, мы должны думать о том, как реагировать, не отставать и адаптироваться к этой быстро развивающейся части отрасли. Решение о том, как контент, который мы создаем, создается, распространяется и потребляется, теперь представляет собой сложное сочетание стратегии, технологий, финансов, этики и многого другого.

Как бы вы ни ответили, вы занимаете позицию в исторический момент. Я чувствую твое бремя.


Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.