爬虫、搜索引擎和生成式人工智能公司的污点

已发表: 2023-07-13

过去几个月生成式人工智能产品的热潮促使许多网站采取了应对措施。

基本的担忧是这样的：

AI产品依赖于消耗大量内容来训练其语言模型（所谓的大型语言模型，简称LLM），而这些内容必须来自某个地方。人工智能公司认为网络的开放性允许大规模爬行以获得训练数据，但一些网站运营商不同意，包括Reddit、Stack Overflow和Twitter。

这个有趣问题的答案无疑会在世界各地的法庭上引起诉讼。

本文将探讨这个问题，重点关注业务和技术方面。但在我们深入讨论之前，有几点：

尽管这个主题涉及（我在本文中包含）一些法律论点，但我不是律师，我不是你的律师，我不会给你任何形式的建议。如果您需要法律建议，请与您最喜欢的律师猫交谈。
很多年前我曾在谷歌工作，主要从事网络搜索工作。即使我在下面引用了一些谷歌示例，我也不以任何方式代表谷歌发言。
这是一个快速发展的话题。可以保证，在我写完这篇文章和您阅读它之间，行业中会发生一些重大事件，而且我肯定会错过一些东西！

搜索引擎和网站之间的“交易”

我们从现代搜索引擎（如 Google 或 Bing）的工作原理开始。用过于简单的术语来说，搜索引擎的工作原理如下：

搜索引擎有一个 URL 列表。每个 URL 都有元数据（有时称为“信号”），指示该 URL 对于在搜索引擎的结果页面中显示可能很重要或有用。
基于这些信号，搜索引擎有一个爬虫，一个机器人，它是一个根据信号指示的内容按“重要性”顺序获取这些 URL 的程序。为此，Google 的抓取工具称为 Googlebot，Bing 的抓取工具称为 Bingbot（两者都有更多用于其他目的的抓取工具，例如广告）。两个机器人都在用户代理标头中标识自己，并且都可以由网站以编程方式进行验证，以确保内容正在提供给真正的搜索引擎机器人，而不是欺骗。
获取内容后，就会对其建立索引。搜索引擎索引是复杂的数据库，其中包含页面内容以及大量元数据和用于将内容与用户查询进行匹配和排名的其他信号。索引是当您在 Google 或 Bing 中输入查询时实际搜索到的内容。

现代搜索引擎，至少是好的礼貌搜索引擎，使网站运营商能够完全控制爬行和索引。

机器人排除协议是通过 robots.txt 文件以及网页本身上的元标记或标头实现此控制的方式。这些搜索引擎自愿遵守机器人排除协议，将网站执行该协议视为指令，绝对的命令，而不仅仅是暗示。

重要的是，协议的默认位置是允许所有爬行和索引 – 默认情况下是允许的。除非网站运营者主动采取措施实施排除，否则该网站将被视为允许爬行和索引。

这为我们提供了搜索引擎和网站之间处理的基本框架：默认情况下，搜索引擎将抓取网站并为其建立索引，而搜索引擎又将搜索者直接指向搜索结果中的原始网站以进行相关查询。

这笔交易从根本上来说是一种经济交换：内容的制作、托管和服务成本由网站承担，但其想法是，网站获得的流量会以利润来回报。

注意：我在这里故意忽略了一系列相关的争论，比如谁在这个交易中拥有更多的权力，谁赚了更多的钱，公平性等等。 我并不是贬低这些——我只是不想分散对本文核心主题的注意力。

这种流量索引方法出现在其他地方，例如当搜索引擎被允许对付费专区后面的内容进行索引时。这是相同的想法：网站共享内容，以换取在搜索结果中显示内容，将搜索者直接引导回该网站。

在交易过程的每个步骤中，如果发布商想要以任何方式阻止全部或部分爬行或索引，那么发布商可以使用多种使用机器人和排除协议的工具。任何仍然允许被抓取和索引的内容是因为网站通过在搜索结果中显示而获得直接的好处。

这一论点以某种形式实际上已在法庭上得到使用，即所谓的“robots.txt 辩护”，并且基本上得到了支持；请参阅这份简短的法庭案件清单，其中许多涉及 Google，以及 2007 年的这篇文章，但对此并不完全满意。

LLM 不是搜索引擎

现在应该非常清楚，法学硕士与搜索引擎不同。

语言模型的响应不会直接指向其内容用于训练模型的网站。没有像我们在搜索引擎中看到的那样的经济交换，这就是许多出版商（和作者）感到不安的原因。

缺乏直接来源引用是搜索引擎和法学硕士之间的根本区别，它回答了一个非常常见的问题：“为什么应该允许 Google 和 Bing 抓取内容而不是 OpenAI？” （我对这个问题使用了更礼貌的措辞。）。

谷歌和必应试图在其生成式人工智能响应中显示源链接，但这些源即使显示出来，也不是完整的集合。

这就提出了一个相关问题：如果网站没有得到任何回报，为什么应该允许其内容用于训练语言模型？

这是一个非常好的问题——而且可能是我们作为一个社会应该回答的最重要的问题。

尽管当前一代的法学硕士存在重大缺点（例如幻觉、对人类操作员撒谎和偏见等），但法学硕士确实有好处，而且随着时间的推移，这些好处只会随着缺点的解决而增加。

但对于本次讨论，重要的一点是要认识到开放网络目前运作方式的基本支柱并不适合法学硕士。

肮脏

对于那些只为了自身经济利益而训练大型模型感兴趣的人工智能公司来说，这显然不是问题。

OpenAI 使用了多个数据集作为训练数据输入（GPT3 的详细信息请参见此处），并且 OpenAI 故意不公开 GPT4 的训练数据集。

尽管 OpenAI 使用许多论据来证明不披露有关 GPT4 训练数据的信息（此处讨论），但我们的关键点仍然是：我们不知道使用哪些内容来训练它，并且 OpenAI 没有在 ChatGPT 响应中显示这一点。

OpenAI 的数据收集是否遵守机器人排除协议？它是否包含受版权保护的文本，例如教科书或其他书籍？他们是否获得了任何网站或出版商的许可？他们不说。

Brave Software 的超级阴暗做法

如果说 OpenAI 的方法有问题，那么 Brave Software（Brave 浏览器和 Brave 搜索引擎的制造商）在搜索和 AI 训练数据方面采取的方法和立场甚至更有问题。

Brave 搜索引擎在很大程度上依赖于所谓的网络发现项目。该方法非常复杂，并在此处进行了记录，但我将强调一个关键事实：Brave 似乎没有运行集中式爬虫，并且没有一个爬虫将自己标识为 Brave 的爬虫，并且（请坐下来）Brave出售抓取的内容，并授予买家进行人工智能培训的权利。

这句话的内容很多，我们来分析一下。

Brave搜索使用Brave浏览器作为分布式爬虫。如本帮助文章中所述，有以下常见问题解答：

Web Discovery 项目是爬虫吗？
在某种程度上，是的。 Web Discovery 项目处理来自 Brave 网络爬虫的获取作业。每隔几秒或几分钟，浏览器可能会被指示获取网页并将 HTML 发送回 Brave 。但是，此提取不会影响您的浏览历史记录或 cookie — 它是作为私有提取 API 调用完成的。为了额外的安全性，获取作业域是从一小组无害且信誉良好的域中预先选择的。
什么是网络发现项目？ – 勇敢的搜索

Fetch API 是一种内置于现代浏览器引擎（包括 Brave 使用的引擎）中的 Web 标准功能。它的常见用途是获取内容以在浏览器中向用户显示。出于我们的目的，我们立即知道这是用户的浏览器代表 Brave 的搜索引擎请求网站内容。

有趣的是，2021 年 6 月的 Reddit 帖子增加了更多细节和混乱。 Brave 代表的一个回复非常有趣（重点是我的）：

我们有自己的爬虫，但它不包含用户代理字符串（就像浏览器 Brave也不包含唯一的用户代理字符串）以避免潜在的歧视。也就是说，我们已经讨论过可能向管理员识别爬虫，他们想知道爬虫何时/在何处降落在他们的财产上。 我们也尊重 robots.txt ，所以如果您不希望 Brave Search 抓取您的网站，它也不会。

这是事实的金矿：

他们有自己的爬虫，这可能是指集中式爬虫，也可能是指基于浏览器的分布式网络发现项目。
该爬网程序并不将自己标识为爬网程序，但它以某种方式遵守机器人排除协议（以 robots.txt 文件的形式）。如果浏览器无法识别自己，网站运营商如何编写机器人排除指令？ robots.txt 文件中将使用哪个用户代理令牌（如其名称）来指定特定于 Brave 爬虫程序的指令？我无法找到 Brave 的任何文档。
他们所说的歧视实际上是出版商控制抓取的方式。机器人排除协议是发布者区分允许用户和爬虫访问的内容以及区分不同爬虫的机制（例如允许 Bingbot 爬行但不允许 Googlebot 爬行）。通过声称他们想要避免歧视，Brave 实际上是在说他们可以决定抓取和索引的内容，而不是出版商。

回到 Fetch API：默认情况下，Fetch API 使用浏览器的用户代理字符串。我们已经知道，Brave 浏览器不会使用唯一的用户代理标头来标识自己，而是使用底层浏览器引擎生成的通用用户代理字符串。

用户代理字符串可以针对一般浏览器和 Fetch API 进行定制，但我没有发现任何迹象表明 Brave 会这样做（事实上，上面引用的 Reddit 回复明确表示没有唯一标识符）。

此外，Brave 继续出售专门用于人工智能训练的抓取数据，而不仅仅是作为搜索结果（例如，为网站搜索功能提供支持）。

访问 Brave Search API 主页会显示几个价格等级，其中包括一些称为“AI 数据”的价格等级。这些数据计划包括“具有存储权限的数据”选项，允许订阅者“缓存/存储数据以训练人工智能模型”，数据包括“人工智能的额外备用片段”和“使用数据进行人工智能推理的权利”。 ”

综上所述，根据 Brave 的公开声明和缺乏文档，Brave 以隐秘的方式抓取网络，没有明显的方式来控制或阻止它，并继续转售抓取的内容用于 AI 训练。

或者更直白地说， Brave 在未经网站出版商许可或许可的情况下，将自己指定为受版权保护的内容的营利性分销商。

这是可以接受的吗？我认为它是一种卑鄙的刮刀服务。

Google 的发布商控制计划

可能很快就会出现一种新型的网络爬虫，一种专门用于生成人工智能的网络爬虫。

谷歌似乎已经认识到上面讨论的不兼容性，即使用 Googlebot 为网络搜索获取的内容可能不适合训练人工智能模型。

谷歌已经宣布他们希望启动社区讨论来创建人工智能网络发布者控件（嘿，谷歌，我注册了，请让我加入！）。我全心全意地支持进行这次对话，谷歌做得很好，为进行这次对话打开了大门。

由于我们还处于早期阶段，重要的是要指出此类控件的默认值和功能对其成功或失败至关重要。我怀疑许多出版商和作者都会有强烈的意见，我们需要听到这些人工智能控件应该如何工作。

开源法学硕士怎么样？

上述论点的一个重要方面是经济交换。但是，如果语言模型背后的组织自由地发布模型而不给自己带来好处怎么办？

有许多这样的开源模型，它们所训练的数据集与用于训练商业专有模型的数据集基本上重叠。目前许多开源模型对于某些用例来说已经足够好了，而且它们只会变得更好。

仍然：未经许可使用网站内容来培训开源法学硕士是否正确？

这可能是一个更棘手的问题，我认为答案目前取决于机器人排除协议所允许的内容。谷歌的 AI Web Publisher Controls 或其他类似举措可能会以精心设计的方法的形式出现更好的答案。

关注此空间。

那么出版商现在可以做什么呢？

这种现状是很多出版商不愿意也不愿意接受的。他们能做什么？

在这里，我们需要回到老式的爬虫/机器人拦截。爬虫一般有两种类型：

能够识别自己身份的爬虫。 它们可能遵守也可能不遵守机器人排除协议，但至少服务器有一个标识符可以检查以决定是否阻止请求。示例包括 Googlebot 和 Bingbot。
隐形爬虫，不用于礼貌的搜索引擎。 他们不表明自己的身份和/或不遵守机器人排除协议。例如任何脚本小子的垃圾邮件抓取工具或 Brave Search 的爬虫。

您可以做两件互补的事情：

如果爬虫遵守机器人排除协议，并且您认为它爬取的内容会进入人工智能训练数据，则可以阻止它。这里有两种方法：
- 阻止所有抓取工具并仅允许您希望允许的抓取工具（例如 Googlebot 和 Bingbot）。这对于网站在自然搜索中的性能来说是危险的。您需要非常小心，但它对这些爬虫很有效。
- 允许所有爬行并阻止您想要阻止的爬行。这种更宽松的方法危险性较小，但当然您的内容可能会被人工智能或您可能不想要的其他爬虫抓取。
使用服务器端隐形机器人检测器，并用它来阻止此类爬虫。许多产品都可以做到这一点。如果您像许多发布商一样使用内容分发网络 (CDN)，则很可能可以通过该网络使用此类功能（例如 Akamai、Cloudflare、Fastly）。

我开始对我运营的网站采取并与客户讨论的方法是选项 (1a) 和 (2) 的组合，即使用限制性 robots.txt 文件和 CDN 控件。

这可能不是每个出版商的最佳方法，但我认为值得认真考虑。

这是什么意思呢？

我们所生活的时代将成为历史上最有影响力的时代之一。人们确实通过人工智能预测了人类的末日。我们每个人都可以在塑造未来的过程中发挥作用。

作为原创内容的创作者，我们需要思考如何应对、跟上和适应这个快速发展的行业。现在，决定如何创建、分发和消费我们创作的内容是战略、技术、财务、道德等因素的复杂结合。

无论你如何回应，你都是在历史性时刻表明立场。我感受到你的负担。

本文表达的观点是客座作者的观点，并不一定是搜索引擎土地的观点。 此处列出了工作人员作者。

将搜索引擎土地添加到您的 Google 新闻提要中。