语义搜索——变革之风

已发表: 2019-11-15

什么是语义搜索？

在原始的技术术语之下是一种天真的欲望，就像人类本身一样古老。

我们一直试图超越表象，了解我们周围事物的更深层含义。

有时，这让我们有了深刻的认识。在其他时候，我们成功地失败了。

现在我们有了技术来增强和深化我们对意义的追求。

进入语义搜索。

单词和语义搜索的魔力

语义是语言学迷人的一面，被赋予寻找意义的任务。

词的意义及其相互关系。语义必须解释为什么我们选择某些词和短语来描述事物。

什么语义定义为语义搜索的一个重要组成部分是我们必须寻求和创建连接的向往。

想象一下大海捞针——一种无可否认的伤脑筋的经历。

如果没有工具来实现快速和直观的结果，您会在互联网上寻找具有大致相同成功水平的东西。

幸运的是，使我们的生活结构化和互联的动力甚至会转化为我们在网络上搜索事物的方式。这就是语义搜索的方式。

我们从 Hannah Bast 及其合著者的出版物中获得了关于语义搜索的更详细解释。

正如他们所描述的，语义搜索是“有意义的搜索”。我们至少可以在搜索过程的几个部分中找到意义。

首先，在查询本身中。在这里，我们需要弄清楚请求背后的真实意图。

然后，我们必须考虑我们必须检索的数据，以及它是否真正适合我们正在寻找的数据。

或者，如果我们正确呈现信息，那么它对搜索有意义。

打破语义搜索的含义

用外行的术语来说，语义搜索旨在以人类的方式理解自然语言，并提供适当的语义网络搜索结果。

这意味着什么？

好吧，假设我在 Google 的搜索字段中输入“这是最小的哺乳动物”。

可以理解，搜索引擎会根据我想找出最小的哺乳动物是哪种假设来回答我的问题——而不是寻找与我输入的短语完全匹配的内容。

这就是我第一次得到一篇名为“世界上 6 种最小哺乳动物”的文章，然后是伊特鲁里亚鼩鼱的照片——顺便说一下，它是地球上已知最小的哺乳动物。

希望了解我的查询的含义有助于语义搜索引擎建议更正拼写错误的单词。

所以，如果我碰巧拼错了“哺乳动物”这个词，谷歌会建议我可能在寻找“哺乳动物”而不是“哺乳动物”。

语义搜索是怎么来的？

我们的物种被吸引去寻找秩序——如果缺乏秩序，我们会忍不住尝试创造秩序。

因此，我们正在构建一个虚拟世界来满足我们对订单和优化时间的需求，这是可以理解的。

除了提供正确的答案外，搜索引擎还借助人工智能为其增添了意义。

他们使用语义搜索机器学习来帮助处理和排序信息，还可以理解自然的人类语音。

最后，所有这些都为我们的查询提供了足够的结果。

但他们究竟如何才能回答诸如“世界上最大的甜甜圈”之类的问题？

语义搜索是从语义网络中出现的，所以为了忠于我自己的寻求顺序的本性，让我们先看看什么是语义网络。

语义网源

简而言之：语义网是万维网的延伸。

根据万维网联盟 (W3C) 的说法，它为共享和重用数据提供了一个通用框架。

这适用于应用程序、企业和社区。

框架或“本体论”，正如在信息科学领域所熟知的那样，收集最终成为知识系统的事实和信息。

简而言之，语义网络结构和标记数据以计算机可以读取的方式进行。

语义网允许基于网络或相关因素分析特定输入。它使用集合、属性和关系来理解构成 Web 的大量数据。

我会把它比作我试图建立我的家谱。

我肯定无法弄清楚我祖母声称是我母亲身边的远房表亲的人是谁。我缺乏背景，因为我不认识他们。

然而，语义网在整理事物方面做得更好。

语义网的愿景

正如其创始人蒂姆·伯纳斯·李 (Tim Berners-Lee) 所见，语义网的最终目标是让计算机能够代表我们更好地操纵信息。

语义网的概念已经演变成今天形成它的两种重要数据类型——链接开放数据和语义元数据。

混乱中的秩序——用语义搜索工具整理

链接开放数据 (LOD) 被建模为图形并以允许跨服务器互连的方式发布。

它本质上代表结构化数据。 2006 年，Tim Berners-Lee 将链接数据的四项规则形式化为：

使用通用资源标识符 (URI) 作为事物的名称。
使用 HTTP URI 以便人们可以查找这些名称。
当有人查找 URI 时，使用标准格式（RDF、SPARQL）提供有用的信息。
包括指向其他 URI 的链接。所以他们可以发现更多的东西。

LOD 使人和机器能够跨不同服务器访问数据并更轻松地解释其语义。

结果，语义网从包含链接文档的空间转变为包含链接信息的空间。

反过来，这允许一个相互关联的意义网络，可由机器处理。

有数以千计的数据集，在不同部门以 LOD 形式发布。

一些例子是百科全书、地理数据、政府数据、科学数据库和文章、娱乐、旅游等。

由于它们相互关联，这些数据集形成了一个巨大的数据网络或知识图。

该图连接了对具有普遍重要性的实体和概念的大量描述。

标签游戏——语义搜索工具卷。 2

语义网依赖的第二个重要工具是语义元数据。

这基本上是语义标签，添加到常规网页中以更好地描述其含义。

例如，可以对诺贝尔奖的主页进行语义注释，引用几个相关的概念和实体——瑞典、学术进步、文化和奖项等。

主题和相应结果之间这些明确的关系最好通过结构化元数据方案来表示，例如Schema.org

元数据使得根据语义标准查找网页变得更加容易。

通过从过去的结果中学习并在实体之间创建链接，搜索引擎可能能够推断出搜索者查询的答案，而不是提供可能包含也可能不包含正确答案的多个链接。

元数据解决了任何潜在的歧义，并确保当我们搜索王子（音乐家）时，我们不会得到任何关于皇室成员的页面，例如。

你可以为此感谢语义网。

现在。

语义网的结构让我们知道什么是语义搜索。它甚至告诉我们搜索引擎如何确定世界上最大的甜甜圈是什么。

但

让我们来看看它的历史。

语义搜索领域的远见者

与任何大型运动一样，变革背后有一个领导者。我们已经提到了 Tim Berners-Lee 的名字，许多人认为他是语义搜索背后的人。

1998 年，在现代网络的初期，伯纳斯-李已经在他发表的一份名为语义网络路线图的报告中谈到了这个想法。

21 年后，他的想法被采纳，语义搜索成为现实。

谷歌是带来变革并让位于语义搜索兴起的公司。

“机器应该能够像人类一样相互交流，”伯纳斯-李说。

谷歌现在正在努力实现他的愿景。

如何？

语义搜索的转折点

虽然自 1998 年以来发生了很多事情，但 2012 年是语义搜索的转折点。

正是在这一年，所有 Google 搜索中有20%是新搜索。不仅如此，长尾关键词占所有搜索的70%左右。

这告诉谷歌，用户越来越有兴趣使用他们的搜索引擎作为回答问题和解决问题的工具。

它不再只是查找事实和查找单个网站。

因此，迈出了语义更新的第一步。

知识图谱

知识图谱于 2012 年推出，标志着谷歌转向理解实体和上下文，而不是盲目地比较关键字字符串。

或者正如谷歌所说，“事物，而不是字符串。”

什么是知识图谱？

维基百科指出，谷歌及其服务使用知识图谱来利用来自各种来源的信息来增强其搜索引擎的结果。

换句话说，知识图是一种对知识领域建模的编程方式——在该领域专家、数据互连和机器学习算法的帮助下。

使这个特殊图成为语义搜索工具的原因是它收集信息的方式。

它收集了被认为是公共领域的数据（例如，从地球的大小到乐队成员的姓名），以及每个实体的属性（生日、兄弟姐妹、父母、职业——所有可以与之相关联的东西）实体。）

或者

我们可以说它建立在现有数据库之上，将大量数据链接在一起——结合了结构化信息（列表）和非结构化信息。

知识图收集搜索引擎提供合理答案所需的信息。

谷歌的图表为即将到来的大规模算法变化奠定了基础。很快，蜂鸟紧随其后。

使用蜂鸟加速取得成功

蜂鸟是一个转折点。该算法影响了全球约90% 的搜索。

它旨在精确和快速，许多人将其称为将“对话式搜索”引入搜索活动的工具。

它是语义搜索技术的明星。

然而， Hummingbird 不仅仅提供对话式查询的答案。

该算法关注查询中的每个单词。

然后它确保考虑整个查询、整个句子或含义，而不是特定的单词。

目的是让页面匹配更深层的含义，而不仅仅是实际的单词。

还有更多。

除了 Hummingbird 更新在速度和准确性方面的改进外，Google 还确保它集成了语义搜索。

他们显着提高了对搜索查询（甚至是长尾搜索）的理解，从而提高了对用户意图的理解。

其结果：

整个查询和搜索查询中词组的关系被识别、定位和解释。

蜂鸟算法的影响

Hummingbird 的改进特别侧重于上下文和对话搜索。

这两个领域都与基本语义和单词之间的关系密切相关。

现在。

该算法处理自然语言，以便在头部和长尾级别检索查询的利基结果。

换句话说，它使用上下文搜索，其中谷歌越来越多地返回与查询背后的意图相匹配的结果。

结果不再局限于单词本身，而是包括对搜索词意图的解释。

具体如何？

该工具的作用是检查尚未明确建模的关系。

该过程结合语法、统计和词典来实现关系标记。

通过以语义方式评估意图并专注于同义词和与主题相关的主题，Hummingbird 允许其用户自信地搜索主题和子主题，而不是试图通过搜索“abracadabra”。

该算法在很多方面都是语义搜索的定义。

一个说明蜂鸟实际工作方式的示例可以是搜索，例如“英格兰总统”。

现在。

英国没有总统，只有首相，他是政府首脑。英国还有一位国家元首，即女王。

谷歌知道这一点，所以它会显示与首相或女王有关的结果。

在某种程度上，Hummingbird 允许人们获得他们不知道如何提问的问题的答案 - 并策划结果以帮助用户找到他们正在寻找的内容。

定位导向

Hummingbird 带来的另一个改进是面向本地的结果。

由于使用了上下文，本地结果变得更加精确。

因此，当您寻找优质的意大利餐厅时，Google 会假设您想在您所在的城市享用晚餐。

这就是为什么它会使用您的位置数据来推荐您所在地区的好披萨，而不是列出意大利的餐馆。

我们经常认为精确度是理所当然的，通过它我们可以获得正确的结果。

是幕后多年研发的硕果累累。

语义搜索的梦想是通过对话语言处理和基于位置数据理解人类意图的结合而形成的。

Hummingbird 是语义搜索的一个重要突破，但 Google 并没有就此止步。

他们后来引入的另一个非常重要的改进是 RankBrain。

语义网络世界中的人工智能

RankBrain 是语义搜索机器学习工具，用于解决谷歌在回答关键字查询时偶然发现的问题。

几年前，谷歌大约有 15% 的搜索包含它以前从未见过的词。

它无法确切地知道用户在寻找什么。

乍一看，15% 似乎没什么大不了的。

尽管如此，谷歌每天处理数十亿个请求，所以这个百分比绝对是一个相当大的数字。

大约4.5 亿次搜索包含以前从未处理过的关键字。

那么当你不知道如何回答问题时，你会怎么做？

猜测？

这就是谷歌在收到对任何这些未知关键字的请求时所做的。

不幸的是，这并没有导致准确的结果。搜索引擎只是查找包含用户输入的所有关键字的页面，而不了解它们背后的意图。

它不知道如何为搜索引擎以前从未收到的请求实现和生成语义搜索。

这促使 Google 寻找解决方案并推出可以随时随地学习的工具。

进入RankBrain

基于机器学习的搜索引擎算法帮助谷歌处理搜索结果，为用户提供更相关的搜索结果。

谷歌不仅使用人工智能算法来解决这些搜索查询，而且还处理和理解它们。

RankBrain 有什么变化？

在 RankBrain 之前，Google 的算法 100% 都是手工编码的。

因此，这个过程在很大程度上依赖于试图猜测什么会改善搜索结果的人类工程师。

今天人类工程师仍在研究算法，但 RankBrain 也在后台做它的事情。

过程

简而言之，RankBrain 可以调整自己的算法以产生更好的响应。

根据关键字，RankBrain 增加或减少反向链接、内容新鲜度、内容长度、域权限和其他排名变量的重要性。

然后它观察用户如何与新的搜索结果交互。如果他们更喜欢新算法，它就会留下来。

如果不是，RankBrain 将回滚旧算法。

借助其智能语义更新， Google 能够弄清楚您的意思，即使它之前没有关联您的查询。

如何？

通过您的-从未见过的关键字匹配的关键字，它已经见过。

作为语义网络如何工作的一个例子，谷歌 RankBrain 可能已经注意到人们搜索“世界上最大的甜甜圈”。

它了解到，寻找那个的人几乎都在寻找有史以来最大的甜甜圈。

因此，当有人搜索“世界上最大的甜甜圈”时，RankBrain 会给出类似的结果。

在甜甜圈的情况下，您在两次搜索中获得的前三个网页是相同的。

RankBrain的方法

谷歌评论了他们如何使用机器学习通过一种称为“ Word2vec ”的技术来更好地理解搜索者的意图，该技术将关键字转化为概念。

例如，他们说这种语义网络技术“理解巴黎和法国的关联方式与柏林和德国的关联方式相同（首都和国家），而不是马德里和意大利。”

即使他们没有特别提到这也是 RankBrain 的工作方式，我们几乎可以猜测它使用了类似的技术。

回到关键字匹配的概念概念——RankBrain 尝试根据您的搜索意图给出结果。

用户满意度 vs RankBrain

当然， RankBrain 可以在理解新关键字方面冒险。它甚至可以自行调整算法。

那么第一个问题是：

一旦 RankBrain 显示一组结果，它如何知道它们是否好？

好吧 - 它观察到。

RankBrain 使用用户体验信号——至少这是技术术语。

简单来说，这意味着 RankBrain 会向您展示一组它认为您会喜欢的搜索结果。

如果很多人喜欢某个特定条目，他们就会提升该页面的排名。

如果他们不这样做呢？

然后算法删除该页面并用不同的页面替换它。

RankBrain 究竟观察到了什么？

它密切关注我们如何与搜索结果互动。

它正在监视几个信号：

有机点击率 (CTR)
停留时间
跳出率
Pogo-sticking

这些被称为用户体验信号（UX 信号）。

让我们看一个例子，看看 Google 的语义网络如何解释我的搜索。

如果我搜索“最适合儿童的无人机”，我得到的第一个结果是 6 月中旬发表的一篇文章。

这会影响 RankBrain 在建议查询答案时评估的内容的新鲜度。

但是让我们暂时离开那个。

算法会关注我打开的网站。它将比较它之前打开过多少次以获得类似的结果 - 从而给出点击率。

打开页面后，RankBrain 将观察我的停留时间。这是我花在网站上的时间。这样，算法将估计我是否发现这些信息有用。

如果我打开查看与我的查询无关的内容或内容不佳，我会迅速返回结果页面。

如果有足够多的人这样做，网站的排名就会下降。

如果页面没有按时加载，反弹的机会就会增加，页面的排名也会随之下降。

现在，假设我无法通过第一次单击页面找到我要查找的内容。我可能会继续探索我得到的结果，直到找到它。

这是 RankBrain 用来分析其工作成功的另一个因素——pogo-sticking。

我来回走得越多，RankBrain 将那些不幸的页面推荐给下一个具有类似搜索的用户的可能性就越小。

现在。

我们已经介绍了Google 等搜索引擎用来理解用户请求并为其提供适当答案的基本语义工具。

因此，我们可以看看如何利用这些优势。

如何优化语义搜索引擎优化内容

对于 SEO 来说，理解语义搜索有很大的好处。很大一部分是在比赛中保持领先的能力。

专家建议的良好语义搜索引擎优化策略有几个步骤。

随着时间的推移，语义搜索的影响力越来越大，这些步骤是帮助任何人优化内容和更好地排名网站的好建议。

考虑主题，而不仅仅是关键字
将内容与搜索意图匹配
在您的内容中包含相关关键字
针对精选片段优化您的内容
在内容中包含结构化数据
考虑主题而不仅仅是关键字

正如我们在文章前面看到的，这一切都与主题有关 - 搜索的上下文。谷歌和其他搜索引擎正在寻求为我们提供最相关的结果。

因此，内容应该比以往任何时候都更加全面和翔实。

如果您正在考虑为广泛搜索查询的每个变体创建简短而平面的内容页面 – 不用麻烦。相反，您应该创建一个涵盖整个主题的全面而持久的指南。

然后，您应该使用关键字优化最佳实践来确保内容针对搜索引擎和读者进行了全面优化。

将内容与搜索意图匹配

在为您想要定位的 SEO 关键字创建内容之前，您应该询问用户为什么会搜索该短语。确定关键字代表的意图，您还可以更轻松地吸引观众。

关键字的意图可以是：

信息性——用户试图学习一些东西，所以他们使用“知道”关键字来寻找信息并获得答案；
导航——用户试图导航到特定站点或查找特定项目，因此他们使用“go”关键字来查找熟悉品牌的网站；
交易 - 用户正在尝试进行购买，因此他们使用“do”关键字来查找要购买的产品或进行交易的页面。

在内容中包含相关关键词

要检查语义搜索的语义栏，您应该向内容添加相关或潜在语义索引关键字 (LSI)。

LSI 关键字是与目标关键字密切相关的短语。它们为内容提供上下文并帮助搜索引擎更好地了解内容的含义以及它如何为受众服务。

所以当你谈到巧克力时，你至少应该把它与可可联系起来。

优化精选片段的内容

搜索引擎喜欢直接在他们的结果页面上显示丰富的结果，为用户提供他们想要的信息。

要提高搜索可见性，您可能需要：

优化答案框和段落、列表和表格精选片段的内容
明确回答内容中重点关注长尾关键词的问题
使用格式使信息成为精选片段的有吸引力的选项

最后，在内容中包含结构化数据

另一种帮助搜索引擎理解您的内容的含义和相关性的方法是通过结构化数据。

结构化数据或模式标记是一种微数据形式，可添加额外的上下文以复制到网页上。

它使用一组标准数据结构来对搜索引擎的内容进行分类。

此额外信息可帮助搜索引擎对内容进行排名并识别可在丰富搜索结果中显示的信息。

实际上，到目前为止我们所说的一切都归结为一件事。

为了充分利用我们的在线状态，我们发布的信息应该按语义进行组织。

上下文是语义网络搜索的未来。虽然仍有一些拼图需要收集，但语义网已经存在。

也许离下一代智能网络将帮助我们安排约会、购物、查找所需信息以及将我们与志同道合的人联系起来的那一天不远了。

最重要的是，自主进行。

我们当然不必问什么是语义搜索。它将成为我们日常生活中不可分割的一部分。