Robots.txt не является ответом: предложение нового метатега для LLM/AI

Опубликовано: 2023-07-18

В то время как Google открывает дискуссию о признании заслуг и соблюдении авторских прав при обучении больших языковых моделей (LLM) для генеративных продуктов ИИ, их внимание сосредоточено на файле robots.txt.

Однако, на мой взгляд, это неправильный инструмент для рассмотрения.

Мой бывший коллега Пьер Фар написал прекрасную статью о сканерах, поисковых системах и дешевизне компаний, занимающихся генеративным искусственным интеллектом, в которой он осветил некоторые из огромных проблем, с которыми в настоящее время сталкивается индустрия онлайн-изданий. Как и в случае с его статьей, я буду держать это предложение на высоком уровне, поскольку разработки в этой области развиваются чрезвычайно быстро.

Почему бы не использовать robots.txt

Есть несколько причин, по которым использование файла robots.txt является неправильной отправной точкой для обсуждения того, как соблюдать авторские права издателей.

Не все LLM используют сканеры и идентифицируют себя

На оператора веб-сайта ложится бремя идентификации и блокировки отдельных поисковых роботов, которые могут использовать и/или продавать свои данные для генеративных продуктов искусственного интеллекта. Это создает много дополнительной (и ненужной) работы, особенно для небольших издателей.

Это также предполагает, что у издателя есть доступ для редактирования к своему файлу robots.txt, что не всегда имеет место в случае размещенных решений.

Это неустойчивое решение, так как количество поисковых роботов продолжает расти.

Полезный размер файла robots.txt ограничен 500 КБ в соответствии с недавно предложенным стандартом robots.txt.

Это означает, что крупный издатель может столкнуться с проблемами со своим файлом robots.txt, если ему необходимо заблокировать множество поисковых роботов LLM и/или уточнить шаблоны URL в дополнение к другим ботам.

Подход «все или ничего» неприемлем

Для более крупных поисковых роботов, таких как Googlebot и Bingbot, нельзя делать различий между данными, используемыми для страниц результатов поисковой системы (традиционно, когда существует «соглашение» между издателем и поисковой системой в форме «цитирования» исходного документа). источник) и генеративные продукты ИИ.

Блокировка Googlebot или Bingbot для их генеративных продуктов искусственного интеллекта также блокирует любую потенциальную видимость в соответствующих результатах поиска. Это недопустимая ситуация, когда издатель вынужден делать выбор между «все или ничего».

Robots.txt посвящен управлению сканированием, в то время как обсуждение авторских прав посвящено тому, как используются данные.

Последнее относится к этапу индексации/обработки. Таким образом, robots.txt на самом деле не имеет отношения к этому обсуждению, а скорее является последним средством, если ничего не работает, и действительно не должен быть отправной точкой этого конкретного обсуждения.

Файлы robots.txt прекрасно подходят для поисковых роботов и не требуют изменения для целей LLM. Да, сканеры LLM должны идентифицировать себя, но нам действительно нужно поговорить об индексации/обработке просканированных данных.

Новое изобретение колеса

К счастью, в Интернете уже есть несколько хорошо зарекомендовавших себя решений, которые можно использовать для управления использованием данных в отношении авторских прав. Он называется Creative Commons.

Большинство лицензий Creative Commons подходят для целей LLM. Проиллюстрировать:

  • CC0 позволяет LLM распространять, микшировать, адаптировать и использовать материал на любом носителе или в любом формате без каких-либо условий.
  • CC BY позволяет LLM распространять, микшировать, адаптировать и использовать материал на любом носителе или в любом формате при условии указания авторства. Лицензия разрешает коммерческое использование, но необходимо указать автора.
  • CC BY-SA позволяет LLM распространять, микшировать, адаптировать и использовать материал на любом носителе или в любом формате при условии указания авторства. Лицензия разрешает коммерческое использование. Если LLM переделывают, адаптируют или развивают материал, он должен лицензировать измененный материал на тех же условиях.
  • CC BY-NC позволяет LLM распространять, микшировать, адаптировать и использовать материал на любом носителе или в любом формате только в некоммерческих целях при условии указания авторства.
  • CC BY-NC-SA позволяет LLM распространять, ремикшировать, адаптировать и использовать материал на любом носителе или в любом формате только в некоммерческих целях при условии указания авторства. Если LLM переделывают, адаптируют или развивают материал, они должны лицензировать измененный материал на тех же условиях.
  • CC BY-ND позволяет LLM копировать и распространять материал на любом носителе или в любом формате в неадаптированной форме только при условии указания авторства. Лицензия разрешает коммерческое использование, и автору должен быть предоставлен кредит, но никакие производные или адаптации работы не допускаются.
  • CC BY-NC-ND разрешает LLM копировать и распространять материал на любом носителе или в любом формате только в неадаптированной форме, только в некоммерческих целях, при условии указания авторства автора и запрещения производных или адаптаций произведения.

Последние две лицензии вряд ли можно будет использовать для LLM.

Однако первые пять лицензий означают, что LLM должны учитывать, как они используют просканированные/полученные данные, и обеспечивать соблюдение требований, предъявляемых к использованию данных от издателей, таких как атрибуция и совместное использование продукта, основанного на данных.

Это возложило бы бремя на «несколько» LLM в мире вместо «многих» издателей.

Первые три лицензии также поддерживают «традиционное» использование данных, например, в результатах поиска, где атрибуция/кредит дается через ссылку на исходный веб-сайт. В то время как четвертая и пятая лицензии также поддерживают исследования и разработки LLM с открытым исходным кодом.

Примечание: имейте в виду, что все эти компании-разработчики программного обеспечения, создающие LLM, часто используют программное обеспечение с открытым исходным кодом, где у них одинаковые проблемы с лицензией на авторские права в отношении библиотек программного обеспечения и операционных систем, которые они используют, чтобы избежать нарушений авторских прав на уровне кода. Так зачем изобретать велосипед, если мы можем использовать аналогичную систему для данных, которые обрабатывает этот код?

Метатег — это путь

После того как издатель определил подходящую лицензию, об этой лицензии все равно необходимо сообщить. Опять же, здесь robots.txt кажется неправильным подходом.

Тот факт, что страница должна быть заблокирована для сканирования поисковыми системами, не означает, что ее нельзя использовать или она бесполезна для LLM. Это два разных варианта использования.

Таким образом, чтобы разделить эти варианты использования и обеспечить более совершенный, но в то же время более простой подход для издателей, я рекомендую вместо этого использовать метатег.

Метатеги — это фрагменты кода, которые можно вставлять на уровне страницы, в тему или контент (я знаю, это технически неправильно, но HTML достаточно снисходителен и может использоваться в крайнем случае, когда у издателя ограниченный доступ). к кодовой базе). Они не требуют от издателя дополнительных прав доступа, кроме права редактировать HTML публикуемого контента.

Использование метатегов не останавливает сканирование, как и метатеги noindex. Тем не менее, он позволяет вам сообщать права на использование опубликованных данных.

И хотя существуют существующие теги авторского права, которые можно использовать — в частности, из Dublin Core, rights-standard (заброшенное предложение), copyright-meta (сосредоточено на имени владельца, а не на лицензии) и другие попытки — текущая существующая реализация они на некоторых веб-сайтах могут противоречить тому, что мы пытаемся сделать здесь.

Таким образом, может потребоваться новый метатег, хотя я также рад повторно использовать существующий или старый, например, «стандарт прав». Для этого обсуждения я предлагаю следующий новый метатег:

 <meta name="usage-rights" content="CC-BY-SA" />

Кроме того, я рекомендую, чтобы этот метатег также поддерживался при использовании в заголовках HTTP, подобно тому, как noindex поддерживается в X-Robots-Tag, чтобы помочь сканерам LLM лучше управлять своими ресурсами сканирования (им нужно только проверить заголовки HTTP для проверки права пользования).

 X-Robots-Tag: usage-rights: CC-BY-SA

Это можно использовать в сочетании с другими метатегами. В приведенном ниже примере страницу не следует использовать для результатов поиска, но ее можно использовать для коммерческих LLM, если указан источник:

 X-Robots-Tag: usage-rights: CC-BY, noindex

Примечание. Название «права использования» для метатега является предложением и может быть изменено.

Надежное решение

Конечно, есть плохие поисковые роботы и плохие актеры, создающие свои LLM и продукты для генеративного ИИ.

Предлагаемое решение с метатегами не предотвратит использование контента таким образом, но и файл robots.txt тоже.

Важно признать, что оба метода зависят от признания и соответствия со стороны компаний, использующих данные для своих продуктов ИИ.

Заключение

Надеюсь, эта статья иллюстрирует, как использование robots.txt для управления использованием данных в LLM, на мой взгляд, является неправильным подходом/отправной точкой для работы с использованием и авторскими правами в эту новую эпоху LLM и продуктов генеративного ИИ.

Эта реализация метатега позволит издателям указывать информацию об авторских правах на уровне страницы с помощью Creative Commons, не препятствуя сканированию или индексированию страницы для других целей (например, для результатов поисковой системы). Он также позволяет делать заявления об авторских правах для различных целей, включая LLM, генеративные продукты ИИ и потенциальные будущие продукты ИИ.


Мнения, выраженные в этой статье, принадлежат приглашенному автору, а не обязательно поисковой системе. Штатные авторы перечислены здесь.