Robots.txt 不是答案:为 LLM/AI 提出新的元标记

已发表: 2023-07-18

虽然谷歌正在就在为生成人工智能产品训练大型语言模型(LLM)时给予认可和遵守版权展开讨论,但他们的重点是robots.txt文件。

然而,在我看来,这是一个错误的工具。

我的前同事 Pierre Far 写了一篇关于爬虫、搜索引擎和生成型人工智能公司的优秀文章,他在其中强调了在线出版行业目前面临的一些巨大挑战。 与他的文章类似,我将保持该提案的高水平,因为该领域的发展速度非常快。

为什么不使用robots.txt

有几个原因可以解释为什么使用 robots.txt 是讨论如何尊重出版商版权的错误起点。

并非所有法学硕士都使用爬虫程序并表明自己的身份

网站运营商有责任识别和阻止单个爬虫,这些爬虫可能会使用和/或出售其数据来生成人工智能产品。 这会产生大量额外(且不必要)的工作,特别是对于小型出版商而言。

这还假设发布商对其 robots.txt 文件具有编辑权限,但托管解决方案并非总是如此。

随着爬虫数量持续增长,这不是一个可持续的解决方案

根据新提出的 robots.txt 标准,robots.txt 文件的可用文件大小限制为 500 kb。

这意味着,如果大型发布商除了其他机器人之外还需要阻止大量 LLM 爬网程序和/或精炼 URL 模式,他们的 robots.txt 文件可能会遇到问题。

“全有或全无”的做法是不可接受的

对于像 Googlebot 和 Bingbot 这样的大型爬虫来说,用于搜索引擎结果页面的数据之间没有区别(传统上,出版商和搜索引擎之间以对原始数据的“引用”形式存在“协议”)来源)和生成式人工智能产品。

阻止 Googlebot 或 Bingbot 的生成人工智能产品也会阻止其各自搜索结果中的任何潜在可见性。 这是一种不可接受的情况,出版商被迫在“全有或全无”之间做出选择。

Robots.txt 的重点是管理爬行,而版权讨论的重点是如何使用数据

后者是关于索引/处理阶段。 因此,robots.txt 与此讨论并不真正相关,而是在没有其他方法有效的情况下的最后手段,并且实际上不应该成为此特定讨论的起点。

Robots.txt 文件对于爬虫来说工作得很好,并且不需要为了 LLM 的目的而进行更改。 是的,LLM爬虫需要识别自己的身份,但我们真正需要讨论的是爬取数据的索引/处理。

重新发明轮子

幸运的是,网络已经拥有一些完善的解决方案,可用于管理版权方面的数据使用。 它被称为知识共享。

大多数知识共享许可对于法学硕士来说都可以很好地发挥作用。 为了显示:

  • CC0 允许法学硕士无条件地以任何媒介或格式分发、重新混合、改编和构建材料。
  • CC BY 允许法学硕士以任何媒介或格式分发、重新混合、改编和构建材料,只要注明作者的出处。 该许可证允许商业用途,但必须注明创作者。
  • CC BY-SA 允许法学硕士以任何媒介或格式分发、重新混合、改编和构建材料,只要注明作者的出处。 该许可证允许商业用途。 如果法学硕士重新混合、改编或在材料的基础上进行构建,则必须根据相同的条款许可修改后的材料。
  • CC BY-NC 允许法学硕士以任何媒介或格式分发、重新混合、改编和构建材料,仅用于非商业目的,只要注明创作者的归属即可。
  • CC BY-NC-SA 允许法学硕士以任何媒介或格式分发、重新混合、改编和构建材料,仅用于非商业目的,只要注明创作者的归属即可。 如果法学硕士重新混合、改编或在材料的基础上进行构建,他们必须根据相同的条款许可修改后的材料。
  • CC BY-ND 允许法学硕士以任何媒介或格式以未经改编的形式复制和分发材料,前提是注明作者的出处。 该许可证允许商业用途,并且必须向创作者提供信用,但不允许对作品进行衍生或改编。
  • CC BY-NC-ND 允许法学硕士以任何媒介或格式以未经改编的形式复制和分发材料,仅用于非商业目的,只要注明作者归属,并且不允许对作品进行衍生或改编。

最后两个许可证不太可能用于法学硕士。

然而,前五个许可证意味着法学硕士需要考虑如何使用爬取/获取的数据,并确保遵守使用发布者数据时的要求,例如归属以及共享基于数据构建的产品时的要求。

这将给世界上“少数”法学硕士而不是“许多”出版商带来负担。

前三个许可证还支持数据的“传统”使用,例如,在搜索引擎结果中,通过原始网站的链接给出归属/信用。 而第四个和第五个许可证也支持开源法学硕士的研究和开发。

旁注:请记住,所有这些构建法学硕士的软件公司通常都使用开源软件,他们在使用软件库和操作系统方面面临相同的版权许可挑战,以避免代码级别的版权侵犯。 那么,当我们可以使用类似的系统来处理此代码处理的数据时,为什么要重新发明轮子呢?

元标签就是这样

一旦发布者确定了适当的许可证,仍需要传达该许可证。 同样,这就是 robots.txt 似乎是错误方法的地方。

仅仅因为一个页面应该被阻止被搜索引擎抓取并不意味着它不能被使用或者对法学硕士没有用处。 这是两个不同的用例。

因此,为了区分这些用例并为发布商提供更精致且更简单的方法,我建议我们使用元标记。

元标签是可以在页面级别、主题或内容中插入的代码片段(我知道,这在技术上是不正确的,但 HTML 足够宽容,可以作为发布者访问权限有限时的最后手段)到代码库)。 除了能够编辑已发布内容的 HTML 之外,它们不要求发布者具有其他访问权限。

使用元标记不会停止爬行,就像元 noindex 一样。 但是,它允许您传达已发布数据的使用权利。

尽管有现有的版权标签可以使用——特别是都柏林核心、版权标准(放弃提案)、版权元(重点关注所有者的名称而不是许可证)和其他尝试——但当前的现有实现某些网站上的这些内容可能与我们在此尝试实现的目标相冲突。

因此,可能需要一个新的元标记,尽管我也很乐意重复使用现有的或旧的元标记,例如“rights-standard”。 对于本次讨论,我建议使用以下新元标记:

 <meta name="usage-rights" content="CC-BY-SA" />

另外,我建议在HTTP headers中使用时也支持这个meta标签,就像X-Robots-Tag中支持noindex一样,以帮助LLM爬虫更好地管理他们的爬行资源(他们只需要检查HTTP headers来验证)使用权)。

 X-Robots-Tag: usage-rights: CC-BY-SA

这可以与其他元标记结合使用。 在下面的示例中,该页面不应用于搜索结果,但可以用于商业法学硕士,只要注明来源即可:

 X-Robots-Tag: usage-rights: CC-BY, noindex

注意:元标记的名称“使用权”是一个提案,可以更改。

万无一失的解决方案

诚然,有一些糟糕的爬虫和不良演员在构建他们的法学硕士和生成式人工智能产品。

建议的元标记解决方案不会阻止内容以这种方式使用,但 robots.txt 文件也不会。

重要的是要承认,这两种方法都取决于使用人工智能产品数据的公司的认可和合规性。

结论

希望本文能够说明如何使用 robots.txt 来管理法学硕士中的数据使用,在我看来,在法学硕士和生成人工智能产品的新时代处理使用和版权的方法/起点是错误的。

这种元标记的实现将使发布者能够使用知识共享在页面级别指定版权信息,而不会阻止页面被爬网或索引用于其他目的(例如搜索引擎结果)。 它还允许为各种用途做出版权声明,包括法学硕士、生成式人工智能产品和潜在的未来人工智能产品。


本文表达的观点是客座作者的观点,并不一定是搜索引擎土地的观点。 此处列出了工作人员作者。