Google 是否使用类似 ChatGPT 的系统来检测垃圾邮件和 AI 内容并对网站进行排名?

已发表: 2023-02-01

标题是故意误导的——但仅限于使用术语“ChatGPT”。

“ChatGPT-like”立即让读者知道我所指的技术类型,而不是将系统描述为“像 GPT-2 或 GPT-3 这样的文本生成模型”。 (另外,后者真的不会那么可点击……)

我们将在本文中看到的是 2020 年的一篇较旧但高度相关的 Google 论文,“生成模型是页面质量的无监督预测器:一项大规模研究。”

这篇论文是关于什么的?

让我们从作者的描述开始。 他们这样介绍话题:

“许多人对神经文本生成器在野外的潜在危险表示担忧,这主要是因为它们能够大规模生成看起来像人类的文本。

受过训练以区分人类和机器生成的文本的分类器最近被用于监控网络上机器生成文本的存在[29]。 然而,在将这些分类器用于其他用途方面所做的工作很少,尽管它们具有不需要标签的吸引人的特性——只需要一个人类文本语料库和一个生成模型。 在这项工作中,我们通过严格的人工评估表明,现成的人工与机器鉴别器可作为页面质量的强大分类器 也就是说,看起来是机器生成的文本往往语无伦次或难以理解。 为了了解普遍存在的低质量页面,我们将分类器应用于 5 个英文网页样本。”

他们实质上说的是,他们发现开发用于检测基于 AI 的副本的相同分类器,使用相同的模型来生成它,可以成功地用于检测低质量的内容。

当然,这给我们留下了一个重要的问题:

这是因果关系(即系统选择它是因为它真的很擅长)还是相关性(即当前大量垃圾邮件的创建方式是否可以通过更好的工具轻松解决)?

然而,在我们探讨之前,让我们先看看作者的一些工作和他们的发现。

设置

作为参考,他们在实验中使用了以下内容:

  • 两个文本生成模型,OpenAI 基于 RoBERTa 的 GPT-2 检测器(一种使用带有 GPT-2 输出的 RoBERTa 模型并预测它是否可能由 AI 生成的检测器)和 GLTR 模型,它也可以访问 top GPT-2输出和操作类似。

    我们可以在我从上面的论文中复制的内容上看到这个模型的输出示例:
Gpt 2小
紫色和红色的流行表示非 AI 生成的内容。 我很高兴地报告本文的作者没有使用 GPT 来生成它。
  • 三个数据集Web500M(随机抽取 5 亿个英文网页)、GPT-2 输出(250k GPT-2 文本生成)和 Grover-Output(他们使用预训练的 Grover-Base 模型在内部生成 1.2M 文章,该模型是设计的检测假新闻)。
  • 垃圾邮件基线,一个在 Enron 垃圾邮件数据集上训练的分类器。 他们使用这个分类器来确定他们将分配的语言质量编号,因此如果模型确定文档不是垃圾邮件的概率为 0.2,则分配的语言质量 (LQ) 分数为 0.2。

获取搜索营销人员所依赖的每日时事通讯。

处理中……请稍候。

见条款。


关于垃圾邮件流行的旁白

我想暂时搁置一下,讨论一下作者偶然发现的一些有趣的发现。 一种如下图所示(论文中的图 3):

垃圾邮件流行

请务必注意每张图表下方的分数。 接近 1.0 的数字表明内容是垃圾邮件。 我们当时看到的是,从 2017 年开始——并在 2019 年激增——低质量文档盛行。

此外,他们发现低质量内容在某些领域的影响比其他领域更大(请记住,较高的分数反映出垃圾邮件的可能性较高)。

每个部门的内容质量

我为其中的几个挠头。 显然,成人是有道理的。

但是书籍和文学作品有点令人惊讶。 健康也是如此——直到作者将伟哥和其他“成人保健品”网站称为“健康”,将论文农场称为“文学”——就是这样。

他们的发现

除了我们讨论的行业和 2019 年的峰值之外,作者还发现了一些有趣的事情,SEO 可以从中学习并且必须牢记在心,尤其是当我们开始依赖 ChatGPT 等工具时。

  • 低质量内容的长度往往较短(最高可达 3,000 个字符)。
  • 经过训练以确定文本是否由机器编写的检测系统也擅长对低级内容和高级内容进行分类。
  • 他们将我们为排名设计的内容称为特定罪魁祸首,但我怀疑他们指的是我们都知道不应该存在的垃圾。

作者并没有声称这是一个万事俱备的解决方案,而是一个起点,我相信他们在过去几年中已经将标准向前推进了。

关于 AI 生成内容的说明

多年来,语言模型同样得到了发展。 虽然在撰写本文时 GPT-3 已经存在,但他们使用的检测器是基于 GPT-2,这是一个明显较差的模型。

GPT-4 可能指日可待,Google 的 Sparrow 定于今年晚些时候发布。 这意味着不仅战场双方(内容生成器与搜索引擎)的技术都变得更好,组合也将更容易发挥作用。

Google 能否检测到由 Sparrow 或 GPT-4 创建的内容? 或许。

但是,如果它是用 Sparrow 生成的,然后通过重写提示发送到 GPT-4 呢?

另一个需要记住的因素是本文中使用的技术基于自回归模型。 简而言之,他们预测一个词的分数是基于他们预测该词之前的词的分数。

随着模型的复杂程度越来越高,并开始一次创建完整的想法,而不是一个单词接着另一个单词,AI 检测可能会下滑。

另一方面,对简单垃圾内容的检测应该升级——这可能意味着唯一获胜的“低质量”内容是人工智能生成的。


本文中表达的观点是客座作者的观点,不一定是 Search Engine Land。 此处列出了工作人员作者。