追踪 20 年的搜索
已发表: 2023-08-11您是一位新的搜索营销人员,希望了解搜索的历史吗?
您想了解最新的搜索营销新闻吗?
如果是这样,那么您只需要“关注”一个人就可以了解该行业 90% 的有趣变化。
此人有一个网站; 他的第一篇博客文章发表于 2003 年 12 月 2 日。该网站的 Google Analytics (GA) 代码非常短:UA-67314-1。
几个月前,在 Mastodon 进行了简短的互动后,我被允许访问他的 GA 帐户,看看我是否可以通过他作为搜索营销记录保存者的工作来讲述一个关于搜索历史的故事。
看看他的发帖模式(图 1 ),很明显,数量并不是什么挑战。 (我什至多次检查该图以确保其正确。哇!)
在过去 20 年中,此人平均发布了:
- 每天3.81次。
- 每周 26.67 次。
- 每月116.20次。
- 每年 1,437 次。
我相信您现在已经猜到了,但我正在谈论 Barry Schwartz 和他的网站“搜索引擎圆桌会议”。
本文介绍了我对 seroundtable.com 的历史 Google Analytics 数据进行分析后得出的主要结论和发现。
(如果您对我如何分析数据以及使用哪些工具感兴趣,可以查看下面的方法。)
多年来搜索引擎覆盖率
由于我们拥有 2003 年的数据和多产的海报,我们认为查看帖子标题中提到各种引擎的主题覆盖范围会很有趣(图 2 )。
这个数字讲述了我们都知道的同一个故事,谷歌是过去二十年覆盖率最高的搜索引擎。
但值得注意的是雅虎的消亡和微软 Bing 的复兴。 (正如 5 月份报道的那样,虽然 Microsoft Bing 的覆盖率大幅上升,但从使用角度来看,这是否有帮助尚不清楚。)
从一个人的角度来报道“有趣” 了解这些产品是了解其历史的独特方式。
值得注意的是,在过去 13 年中,大多数美国主要搜索引擎的提及次数都很少,但 Microsoft Bing 除外,该引擎最近由于微软与 OpenAI 的集成而突然声名鹊起。
通过搜索引擎队列查看每个帖子的平均会话数和随时间推移的帖子频率(图 2 ),很明显,广泛的新闻报道极大地增强了 Google 对于该网站受众的重要性。
搜索引擎的一个重要组成部分是它们改进结果的频率。 我们可以回顾一下“算法更新”的历史以及每个月推动的搜索量。
您会注意到,随着更新公告的出现,帖子在最初的流量激增后是如何增加的。 下图描绘了一个非常有趣的故事:
- 更新的频率(至少是主要更新)。
- 施瓦茨与其报道的联系和一致性。
Google 更新在搜索社区中的影响和受欢迎程度
我们标记了大约 20 个命名的 Google 更新。 下面显示的八个是总会话数排名前八的(图 4 )。 我们在此图表中添加了“处罚”类别,因为这是企鹅时代的一个热门话题领域。
虽然这个话题仍在讨论中,但其受欢迎程度已经下降,如下所示。 由此可见企鹅更新对搜索界的巨大影响。
有趣的是,大约从 2007 年到 2013 年 3 月,seroundtable.com 受到了 Google 的手动操作。
Schwartz 在 2011 年写了相关文章,我们可以在他的 GA 帐户中看到注释,指出该规则已于 3 月份被取消,并通过 4 月份的重新考虑请求得到验证。
2013 年第一季度,他的 Google/Organic 会话增长率(同比)为 16%,而第二季度为 25%(图 5 )。
新用户增长增长22个百分点。 尽管如此,由于第二季度的兴趣异常激增,其影响仍值得怀疑。
施瓦茨在他关于处罚的帖子(以及他的赞助链接)中说:
- “我很固执,我是少数几个在谷歌惩罚后决定不改变的 SEO 博客之一。”
多年后,他重新考虑。 (GA 中现在缺少许多细节,但手动惩罚可能不会产生重大影响。)
Seroundtable.com 也成为 2014 年 Panda 4.1 更新的受害者(图 6 )。
正如 Schwartz 在 2015 年指出的那样,Panda 4.2 的性能从 2015 年中期开始略有改善,直到 2020 年 5 月,性能再次突然下降。
谷歌团队成员
我们确定了帖子标题中提到的 10 名 Google 员工(图 7 )。
在这 10 个中,我们将列表限制为仅显示那些定期向 SEO 社区传达信息的人。
这是我最喜欢的观点,因为它清楚地展示了马特·卡茨与约翰·穆勒时代。
作为 Google 搜索的公共联络人,丹尼·沙利文 (Danny Sullivan) 在帖子中的发言并不那么明显。 值得注意的是,2017 年底之前提及他的任何内容都指的是他在担任此职位之前的职务。
作为Search Engine Watch的创始人和后来的Search Engine Land的创始编辑,沙利文无疑是SEO历史中不可或缺的一部分。
SEO工具覆盖范围
SEO行业并不缺少工具。 回顾施瓦茨的帖子,我们可以看到他多年来提到了各种各样的工具公司。
虽然专门针对特定公司的帖子相当罕见,但施瓦茨涵盖了数据研究和产品公告。
下面(图 8a ),我们可以看到自 2003 年以来帖子的报道频率。该数据与本文中的其他数据不同,因为它考虑了文章标题和内容中的提及。
工具名称 | 提及次数 |
莫兹 | 924 |
等级游侠 | 第561章 |
精确排序 | 第297章 |
阿尔戈鲁 | 第292章 |
高级网络排名 | 第289章 |
认知搜索引擎优化 | 第232章 |
SERP指标 | 116 |
酵母 | 91 |
雄伟 | 53 |
SERPs.com | 46 |
SEMrush | 44 |
尖叫青蛙 | 34 |
阿雷夫斯 | 29 |
西斯特里克斯 | 21 |
深度爬行 | 20 |
类似网络 | 13 |
SE排名 | 12 |
哈罗 | 9 |
SERP统计 | 7 |
SERP吴 | 6 |
从历史上看,我们可以看到创建 Mozcast 等聚合排名指标给工具供应商带来的好处。
随着每次排名波动,提及次数不断增加。 从这里也可以看出莫兹的持久力。
热门帖子
下表(图 9 )按独特综合浏览量显示了每年的热门帖子。
有些内容具有更广泛的吸引力(在 SEO 社区之外),而内容则更针对搜索引擎营销人员。
我想知道他是如何决定这个平衡的? 我对这个列表有点惊讶,但它是有道理的。
年 | 标题 | 独特的综合浏览量 |
2005年 | 有史以来第一次通过搜索引擎求婚 | 3,568 |
2006年 | Google 地球 – 免费下载 | 50,669 |
2007年 | Google 地球 – 免费下载 | 44,214 |
2008年 | Google 地球 – 免费下载 | 64,097 |
2009年 | 骗局:Google Money System 或 Google Kit | 88,657 |
2010年 | 如何通过 YouTube 设置 Google AdSense 视频单元 | 78,537 |
2011年 | 如何通过 YouTube 设置 Google AdSense 视频单元 | 148,083 |
2012年 | Google 庆祝首家汽车影院 | 126,629 |
2013年 | 谷歌地图 荷兰谋杀案,电话:52.376552,5.198303 | 265,977 |
2014年 | 谷歌地图 荷兰谋杀案,电话:52.376552,5.198303 | 110,222 |
2015年 | Google Analytics(分析)更改术语:会话和用户取代访问和唯一身份 | 68,565 |
2016年 | 如何在 iPhone 上使用 Google 地图获取位置的经度/纬度 | 129,300 |
2017年 | 谷歌大算法弗雷德更新似乎相关链接 | 175,488 |
2018年 | 您现在可以选择删除 Google 搜索应用中的热门搜索 | 125,922 |
2019年 | 您现在可以选择删除 Google 搜索应用中的热门搜索 | 181,556 |
2020年 | 谷歌徽标表示感谢冠状病毒帮助者 | 413,202 |
2021年 | 您现在可以选择删除 Google 搜索应用中的热门搜索 | 103,498 |
2022年 | Google 有用内容更新,以针对搜索排名编写的内容 | 226,842 |
2023年 | 谷歌地图 荷兰谋杀案,电话:52.376552,5.198303 | 55,533 |
图9
评论
据我所知,Seroundtable.com 一直允许发表评论,而且 SEO 社区也喜欢分享有关 Google 恶作剧的意见。
此视图(图 10 )由 John Mueller 建议,通过独特的页面视图和评论(气泡大小)显示一段时间内的帖子。
如果我们按主题类别查看数据,这会变得有趣。
例如,我们将“Google 更新”上的内容与“付费广告”上的内容进行比较(图 11a和11b )。
付费方面的热情要低得多,但它显示了人们对涉及可能消除数月或数年努力的变化的帖子的兴趣、情感和互动程度的提高。
链接
施瓦茨并不羞于与他人建立联系。
如前所述,施瓦茨在 2007 年受到 Google 的适度处罚后,几年后才不情愿地为赞助链接添加了 nofollow 属性。
在过去 20 年里,Schwartz 已将他的帖子内容链接到近 4,000 个独特的域(图 12 )。
该图显示了数据集中排名前 10 的链接域,清楚地说明了 Twitter 在过去 10 年中为 Schwartz 提供的显示信息所提供的价值。
下一张图表删除了 Twitter 和 Google,并执行相同的操作(图 13 )。
我们开始看到一些新的 SEO 可能不知道的网站,但许多人可能会以不同程度的喜爱程度记住这些网站。
获取搜索营销人员信赖的每日新闻通讯。
查看条款。
随着时间的推移搜索趋势的数据可视化
这是一个有趣的赛车条形图,显示了过去 20 年的顶级类别(图 14 )。 这提醒人们在 Google 更新期间 SEO 社区中出现了恐慌。
在某种程度上,这带来了安慰,因为尽管 SEO 正在迅速变化,但它一直都是这样。
图 14 (请参阅此处的完整动画。)
施瓦茨像机器人一样发帖
我认为这里有一些有趣的东西可以用来指出某一天优先发布的位置,但事实并非如此。
就这样发帖,而且这种情况经常发生。
我提到施瓦茨是一个机器人,因为他多年来在发帖中表现出非凡的一致性。
我在六个多月的时间里都很难致力于同一个项目,所以 20 年已经超出了惊人的范围(图 15 )。
为了平衡起见,这里是按周各天划分的会话数(图 16 )。 我想这确实不重要,尽管周中是明显的赢家。
从近几年发布的帖子类型来看,平日的帖子类型似乎并没有太大的差异(图17 )。
我们确实看到差异的地方是周六和周日,这些日子通常涉及非常重要的临时事件。
施瓦茨历来很少在周六和周日发帖,分别占所有帖子的 0.74% 和 0.17%。
从直觉上看,这是有道理的,因为他更有可能在周末休息一下,去处理真正重要的事情。
重要类别和字数
这些是根据斜率审查的类别中排名靠前的类别(图 18 )。 作为参考,斜率是描述线的方向和陡度的度量。
从流量的角度来看,这些类别表现如此出色的原因之一可能是此类内容打破了典型的 SEO 世界泡沫,并进入了 Google 周围的普通人群的兴趣范围。
施瓦茨经常表示,他更关心新闻的传播,而不是报道的深度。
当查看会话和字数之间的关系时,数据支持了这一点(图 19 )。
Schwartz 的读者群如何反映 SEO 行业以及对不同细分市场的兴趣
SEO 小节
这就是类别可能会给我带来麻烦的地方。
从较高层面来看,以下是 Schwartz 的追随者和读者对 SEO 行业对 SEO 四个主要部分的相对兴趣(图 20 )。
正如穆勒所指出的,你可以很好地看到移动领域的十年。
人工智能和搜索引擎优化
好的,我只是想做一个树形图,但这是“机器学习”类别中的帖子的总会话的一个很酷的视图(图 21 )。
请注意,这是每个类别中最佳帖子的总会话数。 这应该控制某些类别的相对新颖性。
我觉得很有趣的是,进入 BERT 词典比最近的机器学习变化产生了更大的影响。
搜索引擎优化英雄
对于所有页面专家来说,以下是基于表现最佳帖子的会话对该类别成员的相对兴趣水平(图 22 )。
这里需要注意的是,“Meta”可能会因与公司 Meta (Facebook) 的匹配而被夸大。
以下是按策略划分的顶级类别(图 23 )。 由于时间跨度已超过 20 年,其中许多策略实际上可能会让网站受到惩罚。
这确实很好地展示了 SEO 曲折的过去,以及 Google 公关推动的本质,以揭露试图欺骗其系统或伤害他人的策略。
有薪酬的
对于付费方面的朋友,这里是“付费广告”帖子组的成员。 (图24 )。 谁还记得序曲?
浏览器
考虑到该网站上 Google 的覆盖范围以及 Google 的市场份额 (62.85%) 的不平衡程度,这让我感到惊讶,但要向 Schwartz 的均匀覆盖致敬(图 25 )。
活动
历史上的一些早期帖子宣传了 SMX 等特定会议,但时间相对较短,因此它们已从数据集中删除。
有趣的是,将持续一年左右的主要 COVID-19 内容与 20 多年的其他类别进行了比较(图 26 )。
此外,我们肯定需要谷歌提供更多的复活节彩蛋。 施瓦茨告诉我,他曾经举办过现场博客活动,但十多年前就停止了。
我从数据集中删除了大多数(全部?)标题,这些标题至少没有提到相关主题(例如,vlog 剧集#1234 Weekly Roundup 就是一个将被删除的示例)。
施瓦茨还提到,当其他出版商开始覆盖谷歌徽标时,他就不再覆盖它们。
“他们失去了乐趣。”
靠激情而不是点击来做某件事有多酷?
32,926 个帖子的搜索历史记录以及还在增加中
回顾并回顾行业中发生的所有变化并了解搜索的“狂野西部”时代是很有趣的。
我们要感谢巴里·施瓦茨 (Barry Schwartz) 20 年来对行业的报道,无一例外。
如果涉及搜索营销,我们知道施瓦茨很可能已经看到或报道过它。
这并不新鲜。
我要感谢约翰·穆勒 (John Mueller) 和帕特里克·斯托克斯 (Patrick Stox) 对此处提供的信息和数据提出的建议和健全性检查。 丹尼·沙利文还进行了额外的健全性检查。
数据和方法
我首先在 Screaming Frog 中抓取 seroundtable.com,使用自定义提取小心地提取帖子元内容,例如作者、发布日期和类别。 我还提取了 GA 数据,尽管这是 2005 年的数据,我知道这还不够。 HTML 数据被输出到 CSV 中以供进一步处理。
由于 seroundtable.com 上有很多作者,因此我将其余分析仅限于 Schwartz 撰写的帖子(他撰写了超过 32,000 篇帖子)。
为了更好地了解 Schwartz 为该网站做出了多少贡献,我们快速浏览一下排名前 10 位的作者以及他们发表的文章数量(图 27 )。
作者 | 文章 |
巴里·施瓦茨 | 32,786 |
塔玛·温伯格 | 1,875 |
本·菲佛 | 第351章 |
克里斯·博格斯 | 246 |
cr8pc | 119 |
数字点 | 40 |
烤干酪辣味玉米片 | 34 |
邪恶的绿猴 | 24 |
搜索引擎优化人 | 22 |
谢尔 | 21 |
然后,我从 GA API 设置 API 拉取,为所有用户拉取每月的登陆页面和会话。 此外,我们还提取了浏览量和外部链接的数据。
提取所有数据后,我注意到 seroundtable.com 使用 AMP,这意味着许多文章有两组 URL。 看看 slug(例如,/category/this-is-a-slug.html),幸运的是,这些都是独一无二的。
我需要消除类别、作者页面和其他无法从标题推断出主题的页面——仅限于尖叫青蛙发现作者可以轻松清理的地方。
从那里,我将 URL 路径清理为唯一的 slugs,并将其用作已爬网 URL 数据和 GA 数据之间的匹配。
值得注意的是,seroundtable.com 的数据始于 2005 年第四季度的 GA。第一篇文章是从 2003 年第四季度开始的。正如 Patrick Stox 所指出的,2005 年 11 月 14 日是 GA 的正式推出,这意味着正如我们所知,我们的数据涵盖了 GA 从诞生到消亡的所有数据。
在此之前,该网站使用了 Urchin Analytics,后来成为 GA。 在爬行中发现的 27,309 个独特的 slugs 中,只有 0.2% 在 GA 数据中未找到。 大多数是在 2023 年 6 月 30 日数据截止之后。
自然语言处理(NLP)
在确保拥有干净的页面数据和分析数据后,我通过将页面标题转换为 ngram 的过程来运行页面标题。 ngram 是 n 项分组。 例如,“the green frog”将由:“the”、“green”、“frog”作为 1-grams 组成,“the green”、“green frog”作为 2-grams 组成。 在标题上运行这个并计算每个克级别的频率可以让重要的概念浮现出来。
然后,我们通过大型语言模型 (LLM) 运行所有重要的 ngram,看看它能如何很好地挑选出重要主题,并进一步将它们组合到相关类别中。 这就是我们看到法学硕士在利基主题上的局限性的地方。 尽管模型在此过程中有所帮助,但仍需要大量手动检查各种 ngram 来查找可以构建类别的概念。
此外,数据集中有许多实体和概念,如“谷歌”和“有机搜索”,它们出现在许多帖子中,而像“蜂鸟”这样的临时重要主题只出现在少数帖子中,并且混淆了语言模型。
您可以在此处查看类别数据并查看下图中的主要类别名称。 我们使用反向字长排序匹配将类别与标题进行匹配,以确保更详细的短语在更广泛(更短)的短语之前匹配。 值得注意的是,我们将每个主题分为一个广泛的类别和一个更详细的子类别。
下图(图 28 )包含会话数高于 25% 的大类。 另请注意,分类过程非常主观。 可以肯定的是,观众会发现他们会以不同方式分类的主题。
外部链接数据和 SEO 工具提及是通过单独的抓取来处理的,该抓取仅针对每个页面中专门用于主要内容的部分。
SEO 工具数据与分类数据不同,因为它考虑标题和内容。 帖子的分类仅根据标题进行。
表格、分类以及历史(每年)页面浏览量和会话数据可在跟踪 20 年搜索数据中找到。
本文表达的观点是客座作者的观点,并不一定是搜索引擎土地的观点。 此处列出了工作人员作者。