实体 SEO:权威指南

已发表: 2023-04-06

本文由Andrew Ansley合着

事物,而不是字符串。 如果您以前没有听说过,它来自一篇宣布知识图谱的著名 Google 博客文章。

距离发布 11 周年只有一个月的时间,但许多人仍然难以理解“事物,而非字符串”对于 SEO 的真正含义。

引用是试图传达谷歌了解事物,不再是简单的关键字检测算法。

2012 年 5 月,可以说实体 SEO 诞生了。 借助半结构化和结构化知识库,谷歌的机器学习可以理解关键字背后的含义。

语言的歧义性终于有了一个长久之计。

因此,如果实体对谷歌来说已经很重要了十多年,为什么 SEO 仍然对实体感到困惑?

好问题。 我看到四个原因:

  • 实体 SEO 作为一个术语尚未广泛使用,SEO 无法对其定义感到满意,因此将其纳入他们的词汇表。
  • 针对实体的优化与旧的以关键字为中心的优化方法有很大的重叠。 结果,实体与关键字混淆了。 最重要的是,尚不清楚实体如何在 SEO 中发挥作用,当谷歌谈到这个主题时,“实体”一词有时可以与“主题”互换。
  • 理解实体是一项无聊的任务。 如果您想深入了解实体,则需要阅读一些 Google 专利并了解机器学习的基础知识。 实体 SEO 是一种更加科学的 SEO 方法——科学并不适合所有人。
  • 虽然 YouTube 对知识传播产生了巨大影响,但它也使许多学科的学习体验变得扁平化。 在平台上最成功的创作者在教育观众时历来采取简单的方式。 因此,内容创建者直到最近才在实体上花费太多时间。 正因为如此,你需要从 NLP 研究人员那里了解实体,然后你需要将这些知识应用到 SEO 中。 专利和研究论文是关键。 这再次强化了上面的第一点。

本文解决了所有阻碍 SEO 完全掌握基于实体的 SEO 方法的四个问题。

通过阅读本文,您将了解到:

  • 实体是什么以及为什么它很重要。
  • 语义搜索的历史。
  • 如何识别和使用 SERP 中的实体。
  • 如何使用实体对 Web 内容进行排名。

为什么实体很重要?

实体 SEO 是搜索引擎在选择要排名的内容和确定其含义方面走向的未来。

将此与基于知识的信任相结合,我相信实体 SEO 将成为未来两年 SEO 的未来。

实体示例

那么如何识别实体呢?

SERP 有几个您可能见过的实体示例。

最常见的实体类型与位置、人员或企业相关。

谷歌个人资料页面
谷歌商家资料
谷歌图片搜索
谷歌图片搜索
知识面板
知识面板
意图集群
意图集群

也许 SERP 中实体的最佳示例是意图集群。 对一个主题了解得越多,这些搜索功能就会出现得越多。

有趣的是,当您知道如何执行以实体为中心的 SEO 活动时,单个 SEO 活动可以改变 SERP 的外观。

维基百科条目是实体的另一个例子。 维基百科提供了与实体相关的信息的一个很好的例子。

从左上角可以看出,该实体具有与“鱼”相关的各种属性,从解剖结构到对人类的重要性。

鱼 - 维基百科实体

虽然维基百科包含关于某个主题的许多数据点,但它绝不是详尽无遗的。

什么是实体?

实体是唯一可识别的对象或以其名称、类型、属性和与其他实体的关系为特征的事物。 实体只有在实体目录中存在时才被认为存在。

实体目录为每个实体分配一个唯一的 ID。 我的代理机构拥有使用与每个实体关联的唯一 ID 的程序化解决方案(服务、产品和品牌都包括在内)。

如果某个词或短语不在现有目录中,并不意味着该词或短语不是实体,但您通常可以通过目录中存在某物来判断它是否是实体。

值得注意的是,维基百科并不是决定某物是否为实体的决定因素,但该公司以其实体数据库而闻名。

谈论实体时可以使用任何目录。 通常,实体是人、地点或事物,但也可以包括想法和概念。

实体目录的一些示例包括:

  • 维基百科
  • 维基数据
  • 数据库百科
  • 免费基地
  • 八子
Yago 知识图谱

实体有助于弥合非结构化数据和结构化数据世界之间的鸿沟。

它们可用于在语义上丰富非结构化文本,而文本源可用于填充结构化知识库。

识别文本中的实体提及并将这些提及与知识库中的相应条目相关联称为实体链接任务。

实体可以让人类和机器更好地理解文本的含义。

虽然人类可以根据提及实体的上下文相对容易地解决实体的歧义,但这给机器带来了许多困难和挑战。

实体的知识库条目总结了我们对该实体的了解。

随着世界不断变化,新的事实也在不断涌现。 跟上这些变化需要编辑和内容经理的不断努力。 这是一项大规模的艰巨任务。

通过分析提及实体的文档内容,可以支持甚至完全自动化发现新事实或需要更新的事实的过程。

科学家将此称为知识库人口问题,这就是实体链接很重要的原因。

实体促进了对用户信息需求的语义理解,如关键字查询和文档内容所表达的那样。 因此,实体可用于改进查询和/或文档表示。

在扩展命名实体研究论文中,作者确定了大约 160 种实体类型。 这是列表中七个屏幕截图中的两个。

扩展命名实体 - 1
1/7 实体类型
扩展命名实体 - 2
3/7 实体类型

某些类别的实体更容易定义,但重要的是要记住概念和想法是实体。 谷歌很难自行扩展这两个类别。

在处理模糊的概念时,您不能只用一个页面教谷歌。 实体理解需要许多文章和许多参考资料随着时间的推移而持续。

Google 的实体历史

2010 年 7 月 16 日,Google 收购了 Freebase。 此次购买是导致当前实体搜索系统的第一个重要步骤。

谷歌和 Freebase

投资 Freebase 后,Google 意识到 Wikidata 有更好的解决方案。 谷歌随后致力于将 Freebase 合并到维基数据中,这项工作远比预期困难。

五位 Google 科学家撰写了一篇题为“从 Freebase 到 Wikidata:大迁移”的论文。 关键要点包括。

“Freebase 建立在对象、事实、类型和属性的概念之上。 每个 Freebase 对象都有一个稳定的标识符,称为“mid”(机器 ID)。

“维基数据的数据模型依赖于项目和陈述的概念。 一个物品代表一个实体,有一个稳定的标识符,称为“qid”,并且可能有多种语言的标签、描述和别名; 其他维基媒体项目中关于该实体的进一步声明和页面链接——最著名的是维基百科。 与 Freebase 不同,维基数据声明的目的不是编码真实事实,而是来自不同来源的声明,这些声明也可能相互矛盾……”

实体是在这些知识库中定义的,但谷歌仍然必须为非结构化数据(即博客)构建其实体知识。

Google 与 Bing 和 Yahoo 合作创建了 Schema.org 来完成这项任务。

Google 提供模式说明,以便网站管理员可以拥有帮助 Google 理解内容的工具。 请记住,Google 希望专注于事物,而不是字符串。

用谷歌的话来说:

“您可以通过在页面上包含结构化数据,向 Google 提供有关页面含义的明确线索,从而帮助我们。 结构化数据是一种标准化格式,用于提供有关页面的信息并对页面内容进行分类; 例如,在食谱页面上,配料是什么、烹饪时间和温度、卡路里等等。”

谷歌继续说:

“您必须包含一个对象的所有必需属性,该对象才有资格出现在具有增强显示功能的 Google 搜索中。 通常,定义更多推荐功能可以使您的信息更有可能出现在具有增强显示效果的搜索结果中。 然而,更重要的是提供更少但完整和准确的推荐属性,而不是试图为每个可能的推荐属性提供不太完整、格式错误或不准确的数据。”

关于模式可以说更多,但足以说模式是 SEO 寻求使页面内容对搜索引擎清晰的令人难以置信的工具。

最后一块拼图来自 Google 的博客公告,标题为“改进未来 20 年的搜索”。

文档相关性和质量是本公告背后的主要理念。 Google 用于确定页面内容的第一种方法完全集中在关键字上。

谷歌随后添加了主题层来进行搜索。 这一层是通过知识图和系统地在网络上抓取和构建数据而实现的。

这将我们带到了当前的搜索系统。 在不到 10 年的时间里,谷歌从 5.7 亿个实体和 180 亿个事实发展到 8000 亿个事实和 80 亿个实体。 随着这个数字的增长,实体搜索得到改进。

实体模型是如何改进以前的搜索模型的?

传统的基于关键字的信息检索 (IR) 模型具有固有的局限性,即无法检索与查询没有明确术语匹配的(相关)文档。

如果您使用ctrl + f在页面上查找文本,您使用的是类似于传统的基于关键字的信息检索模型。

每天都有大量的数据发布在网络上。

谷歌根本不可能理解每个词、每个段落、每篇文章和每个网站的含义。

相反,实体提供了一种结构,谷歌可以从中最大限度地减少计算负荷,同时提高理解力。

“基于概念的检索方法试图通过依靠辅助结构在更高级别的概念空间中获取查询和文档的语义表示来应对这一挑战。 此类结构包括受控词汇表(词典和叙词表)、本体和知识库中的实体。”

面向实体的搜索,第 8.3 章

Krisztian Balog 是关于实体的权威著作,他确定了传统信息检索模型的三种可能解决方案。

  • 基于扩展:使用实体作为扩展具有不同术语的查询的来源。
  • 基于投影:通过将查询和文档投影到实体的潜在空间来理解查询和文档之间的相关性
  • 基于实体:在实体空间中获得查询和文档的显式语义表示,以增强基于术语的表示。

这三种方法的目标是通过识别与查询密切相关的实体来获得更丰富的用户信息表示。

Balog 然后确定了六种与基于投影的实体映射方法相关的算法(投影方法涉及将实体转换为三维空间并使用几何测量矢量)。

  • 显式语义分析 (ESA) :给定单词的语义由一个向量描述,该向量存储单词与维基百科派生概念的关联强度。
  • 潜在实体空间模型(LES) :基于生成概率框架。 文档的检索分数被认为是潜在实体空间分数和原始查询似然分数的线性组合。
  • EsdRank: EsdRank 用于对文档进行排名,结合使用查询实体和实体文档功能。 这些分别对应于之前 LES 的查询投影和文档投影组件的概念。 使用判别式学习框架,还可以轻松合并其他信号,例如实体流行度或文档质量
  • 显式语义排序(ESR):显式语义排序模型结合了来自知识图的关系信息,以实现实体空间中的“软匹配”。
  • 词实体二重奏框架:这结合了基于术语和基于实体的表示之间的跨空间交互,导致四种类型的匹配:查询术语到文档术语、查询实体到文档术语、查询术语到文档实体和查询实体记录实体。
  • 基于注意力的排名模型 这是迄今为止描述起来最复杂的一个。

这是 Balog 写的:

“一共设计了四个attention features,针对每个query entity提取出来。 实体歧义特征旨在表征与实体注释相关的风险。 它们是:(1)表面形式被链接到不同实体的概率的熵(例如,在维基百科中),(2)被注释的实体是否是表面形式最流行的意义(即具有最高的共性)分数,以及 (3) 给定表面形式最可能和第二可能候选之间的共性分数差异。第四个特征是接近度,它定义为查询实体与嵌入空间中的查询之间的余弦相似度. 具体来说,使用 skip-gram 模型在语料库上训练联合实体-术语嵌入,其中实体提及被相应的实体标识符替换。查询的嵌入被视为查询术语嵌入的质心。

目前,重要的是对这六种以实体为中心的算法有表面的熟悉。

主要的收获是存在两种方法:将文档投影到潜在实体层和文档的显式实体注释。

三种数据结构

三种数据结构

上图显示了向量空间中存在的复杂关系。 虽然该示例显示了知识图连接,但可以在逐页模式级别上复制相同的模式。

要理解实体,了解算法使用的三种数据结构非常重要。

  • 使用非结构化实体描述,必须识别和消除对其他实体的引用。 有向边(超链接)从每个实体添加到其描述中提到的所有其他实体。
  • 半结构化设置(即维基百科)中,可能会明确提供指向其他实体的链接。
  • 在处理结构化数据时,RDF 三元组定义了一个图(即知识图)。 具体来说,主体和客体资源 (URI) 是节点,谓词是边。

IR 分数的半结构化和分散注意力的上下文的问题是,如果文档没有为单个主题配置,则 IR 分数可能会被两个不同的上下文稀释,导致相对排名丢失到另一个文本文档。

IR 分数稀释​​涉及结构不良的词汇关系和不良词接近度。

相互补充的相关词应在文档的段落或部分中紧密使用,以更清楚地表明上下文以提高 IR 分数。

利用实体属性和关系产生 5-20% 范围内的相对改进。 利用实体类型的信息更有价值,相对改进从 25% 到 100% 以上不等。

用实体注释文档可以为非结构化文档带来结构,这可以帮助用关于实体的新信息填充知识库。

内容流

使用维基百科作为您的实体 SEO 框架

维基百科页面的结构

  • 标题(一)
  • 铅节(II.)
    • 消歧链接(II.a)
    • 信息框 (II.b)
    • 介绍性文本(II.c)
  • 目录 (III.)
  • 正文内容(四)
  • 附录和底质(五)
    • 参考文献和注释 (Va)
    • 外部链接 (Vb)
    • 类别 (Vc)

大多数维基百科文章都包含介绍性文本,即“导语”,即文章的简短摘要——通常不超过四段。 这应该以引起对文章的兴趣的方式编写。

第一句话和开头一段特别重要。 第一句话“可以被认为是文章中描述的实体的定义。” 第一段提供了更详尽的定义,但没有太多细节。

链接的价值超出了导航目的; 他们捕捉文章之间的语义关系。 此外,锚文本是实体名称变体的丰富来源。 维基百科链接可用于帮助识别和消除文本中提及的实体的歧义。

  • 总结有关实体(信息框)的关键事实。
  • 简单的介绍。
  • 内部链接。 给编辑的一个关键规则是只链接到实体或概念的第一次出现。
  • 包括实体的所有流行同义词。
  • 类别页面指定。
  • 导航模板。
  • 参考。
  • 用于理解 Wiki 页面的特殊解析工具。
  • 多种媒体类型。

如何针对实体进行优化

以下是优化搜索实体时的主要考虑因素:

  • 在页面上包含语义相关的词。
  • 页面上的单词和短语频率。
  • 页面上概念的组织。
  • 包括页面上的非结构化数据、半结构化数据和结构化数据。
  • 主谓宾对 (SPO)。
  • 网站上充当书页的网络文档。
  • 在网站上组织网络文档。
  • 在 web 文档中包含概念,这些概念是实体的已知特征。

重要说明:当重点放在实体之间的关系时,知识库通常称为知识图谱。

由于正在结合用户搜索日志和其他上下文来分析意图,因此来自人 1 的相同搜索短语可能会产生与人 2 不同的结果。此人可能对完全相同的查询有不同的意图。

如果您的页面涵盖两种类型的意图,那么您的页面更适合网络排名。 您可以使用知识库的结构来指导您的查询意图模板(如上一节所述)。

People Also Ask、People Search For 和 Autocomplete 在语义上与提交的查询相关,并且要么深入当前搜索方向,要么转移到搜索任务的不同方面。

我们知道这一点,那么我们如何针对它进行优化呢?

您的文档应包含尽可能多的搜索意图变体。 您的网站应包含集群的每个搜索意图变体。 聚类依赖于三种类型的相似性:

  • 词汇相似性。
  • 语义相似性。
  • 单击相似度。

话题覆盖

它是什么 –> 属性列表 –> 专用于每个属性的部分 –> 每个部分都链接到一篇完全专注于该主题的文章 –> 应该指定受众并指定子部分的定义 –> 应该考虑什么? –> 有什么好处? –> 修饰符的好处 –> ___ 是什么 –> 它有什么作用? –> 如何获得 –> 如何做 –> 谁可以做 –> 返回所有类别的链接

人们还问

Google 提供了一种工具,可以提供显着性分数(类似于我们使用“强度”或“置信度”一词的方式),告诉您 Google 如何看待内容。

谷歌 API 工具

上面的示例来自 2018 年关于实体的 Search Engine Land 文章。

SEL 文章中的实体

您可以从示例中看到人、其他人和组织。 该工具是 Google Cloud 的自然语言 API。

在谈论实体时,每个单词、句子和段落都很重要。 您组织想法的方式会改变 Google 对您内容的理解。

您可能包含一个关于 SEO 的关键字,但 Google 是否按照您希望的方式理解该关键字?

尝试将一两段放入工具中,然后重新组织和修改示例,以查看它如何增加或减少显着性。

这种称为“消歧”的练习对于实体来说非常重要。 语言是模棱两可的,所以我们必须让我们的文字对谷歌来说不那么模棱两可。

现代消歧方法考虑三种类型的证据:

实体和提及的优先重要性。

围绕提及的文本与候选实体之间的上下文相似性以及文档中所有实体链接决策之间的连贯性。

实体链接决策

模式是我最喜欢的消除内容歧义的方法之一。 您正在将博客中的实体链接到知识库。 巴洛格 说:

“[L] 将非结构化文本中的实体链接到结构化知识库可以极大地增强用户的信息消费活动能力。”

例如,文档的读者只需单击一下即可获取上下文或背景信息,并且可以轻松访问相关实体。

实体注释也可用于下游处理,以提高检索性能或促进更好的用户与搜索结果的交互。

实体注解

在这里您可以看到 FAQ 内容是使用 FAQ 架构为 Google 构建的。

实体注释 - 2

在此示例中,您可以看到模式提供了文本描述、ID 和页面主要实体的声明。

(请记住,Google 想要了解内容的层次结构,这就是 H1-H6 很重要的原因。)

您会看到替代名称和与声明相同的名称。 现在,当谷歌阅读内容时,它会知道将哪个结构化数据库与文本相关联,并且它会拥有链接到实体的单词的同义词和替代版本。

当您使用架构进行优化时,您会针对 NER(命名实体识别)进行优化,也称为实体识别、实体提取和实体分块。

这个想法是从事命名实体消歧>维基化>实体链接。

实体

“维基百科的出现通过提供全面的实体目录以及其他宝贵资源(特别是超链接、类别以及重定向和消歧页面),促进了大规模的实体识别和消歧。”

– 面向实体的搜索

如何 超越 SEO 工具建议

大多数 SEO 使用一些页面工具来优化他们的内容。 每个工具在识别独特的内容机会和内容深度建议方面的能力都是有限的。

在大多数情况下,页面工具只是汇总最热门的 SERP 结果并创建一个平均值供您模拟。

SEO 必须记住,谷歌并不是在寻找相同的重新散列的信息。 你可以复制别人在做什么,但独特的信息是成为种子网站/权威网站的关键。

以下是 Google 如何处理新内容的简要说明:

一旦发现文档提到了给定的实体,就可以检查该文档以可能发现新的事实,利用这些新的事实可以更新该实体的知识库条目。

巴洛格写道:

“我们希望通过自动识别内容(新闻文章、博客文章等)来帮助编辑掌握变化,这些内容可能暗示对一组感兴趣的实体(即给定编辑所关注的实体)的知识库条目进行修改负责)。”

任何改进知识库、实体识别和信息可抓取性的人都会得到谷歌的青睐。

在知识库中所做的更改可以追溯到作为原始来源的文档。

如果您提供的内容涵盖了该主题并且您添加了一个罕见或新的深度级别,Google 可以确定您的文档是否添加了该独特信息。

最终,这种持续一段时间的新信息可能会使您的网站成为权威。

这不是基于域评级的权威性,而是基于主题的报道,我认为这更有价值。

使用 SEO 的实体方法,您不仅限于定位具有搜索量的关键字。

您需要做的就是验证主要术语(例如“fly fishing rods”),然后您可以专注于基于良好的 ole 时尚人类思维的目标搜索意图变化。

我们从维基百科开始。 以飞蝇钓为例,我们可以看出,钓鱼网站至少应涵盖以下概念:

  • 鱼类、历史、起源、发展、技术改进、扩展、飞钓方法、铸造、spey 铸造、飞钓鳟鱼、飞钓技术、冷水钓鱼、干飞鳟鱼钓、鳟鱼若虫、静水钓鳟鱼、打鳟鱼、放生鳟鱼、咸水飞蝇钓、钓具、人工苍蝇和打结。

上面的主题来自飞钓维基百科页面。 虽然此页面对主题进行了很好的概述,但我想添加来自语义相关主题的其他主题想法。

对于“鱼”这个主题,我们可以添加几个额外的主题,包括词源学、进化论、解剖学和生理学、鱼类交流、鱼类疾病、保护和对人类的重要性。

有没有人将鳟鱼的解剖结构与某些捕鱼技术的有效性联系起来?

是否有一个钓鱼网站涵盖了所有鱼类品种,同时将钓鱼技术、鱼竿和鱼饵的类型与每种鱼联系起来?

到目前为止,您应该能够看到主题扩展是如何增长的。 在规划内容活动时请记住这一点。

不要只是复述。 增加价值。 是独一无二的。 使用本文中提到的算法作为您的指南。

结论

本文是关注实体的系列文章的一部分。 在下一篇文章中,我将深入探讨围绕实体的优化工作以及市场上一些以实体为中心的工具。

我想通过向两个向我解释许多这些概念的人大喊大叫来结束这篇文章。

SEO by the Sea 的 Bill Slawski 和 Holistic SEO 的 Koray Tugbert。 虽然 Slawski 不再与我们在一起,但他的贡献继续在 SEO 行业产生连锁反应。

我的文章内容严重依赖以下来源,因为这些来源是该主题中存在的最佳资源:

  • 扩展命名实体层次结构,作者:Satoshi Ketine、Kiyoshi Sudo 和 Chikashi Nobata
  • Krisztian Balog 的面向实体搜索,信息检索系列(INRE,第 39 卷)
  • 带实体检测的查询重写,谷歌专利
  • 优化搜索查询,谷歌专利
  • 将实体与搜索查询相关联,谷歌专利

本文中表达的观点是客座作者的观点,不一定是 Search Engine Land。 此处列出了工作人员作者。