与 Gerry White 一起使用日志文件进行 SEO 的 5 种方法

已发表: 2023-02-08



您如何利用日志文件来改进您的 SEO?

这就是我们今天要与一位在 SEO 行业工作超过 20 年的品牌和机构(包括 BBC、Just Eat 和 Rise at Seven)工作经验的人谈论的内容。 热烈欢迎 Gerry White 收看 In Search SEO 播客。

在这一集中,Gerry 分享了使用日志文件进行 SEO 的五种方法,包括:
  • 查看 Google 如何查看您的网站
  • 参数
  • 是否有子域消耗您的抓取预算
  • JavaScript 和 CSS 文件
  • 响应代码

Gerry:嘿,很高兴来到这里。

D:很高兴有你在。 您可以通过在 LinkedIn 上搜索 Gerry White 找到 Gerry。 那么 Gerry,每个 SEO 都应该使用日志文件吗?

G:不,我知道当我说日志文件时听起来有争议,我们有大量的信息。 但老实说,很多时候收益递减。 在进入日志文件之前,您通常可以找到很多信息。 我的意思是,如果您查看 Google Search Console 信息,那里有大量信息。 当我一直在查看日志文件时,就是我首先耗尽了很多其他地方的时候。 我总是建议使用诸如 Screaming Frog 之类的工具或您拥有的任何桌面爬虫来抓取网站,然后在开始查看日志文件之前查看 Google Search Console。

我这么说的原因,以及当我要谈论它们有多么有用时,我听起来几乎是反日志文件的原因,是因为它们最初使用起来实际上非常具有挑战性。 确实需要一点技巧、知识和经验才能真正掌握甚至接触它们。 但今天的一件好事是,现在我们实际上比以往任何时候都拥有更多的日志文件访问权限。 最初,当我刚开始时,我们没有像今天这样的 Google Analytics 或任何分析软件。 日志文件分析是我们查看人们如何访问网站的方式。 现在,我们很少查看日志文件来了解人们如何看待网站,除非我们正在使用 InfoSec 做些什么。 或者我们正在做一些事情来诊断一些非常奇怪和美妙的事情。

但实际上,很多时候,我们有更好的分析软件。 这可能会改变,因为实际上,一件奇怪的事情是许多网站无法跟踪有多少人访问了 404 页面,因为很多时候,您永远不会在 404 页面上点击接受 cookie . 突然间,日志文件又回来回答一些非常奇怪的问题。

但我今天谈论日志文件的主要原因是出于 SEO 目的。 所以是的,如果你有大型网站的问题,如果你有一个大型电子商务网站,如果你有一个国际化的、多语言的、带有多面导航的大型网站,那么日志文件绝对是应该采取的措施考虑在内,绝对应该尽快下线。

D:所以今天,您分享了 SEO 应该使用日志文件的五种方式。 从第一位开始,看看 Google 如何看待您的网站。



1. 看看谷歌如何看待你的网站



G:是的,谷歌相当难以预测,几乎就像一个不守规矩的孩子。 这很奇怪,因为虽然我说我们可以查看网站,我们可以使用抓取工具来查看 Google 应该如何查看该网站,但我们常常惊讶地发现 Google 沉迷于一组页面或去沿着某处奇怪的路线。 或者最近,去年我一直在为一家名为 Odor 的超市工作,我们发现的一件事是 Google 机器人一直在非常关注某种分析配置并从中创建人工链接。 Google 发现损坏的链接。 很长一段时间,我一直在试图弄清楚为什么它会找到数十个 1000 个根本不在页面上的 404。 但事实证明它一直在查看分析配置并从中创建链接。 所以我们正在研究这产生了多大的影响。 如果我们看看 Google 正在寻找所有这些 404 的事实,那可能不是一个大问题。 但现在我们想知道它在这些 404 上花费了多少时间,如果我们解决这个小问题,是否意味着网站其余部分的抓取将增加 20-30%? 如果我们在那里修复它,机会是什么? 这一切都是为了了解为什么谷歌会这样查看网站,以及它发现了它不应该找到的东西。



2. 参数



我们经常看的另一件事是参数。 我不知道你是否知道,但是 SEO 人员总是链接到页面的规范版本。 我的意思是,一个页面通常有多个版本,有时会有某种内部跟踪或外部跟踪。 我们可以通过多种方式链接到一个页面,例如,通常一个产品可以位于一个站点的多个位置。 一个很好的例子是我在一个网站上工作,它是 Magento。 每个产品似乎都属于每个类别,所以当我们发现每个产品大约有 20 个版本并且每个产品都可以抓取时,我们感到很惊讶。 所以从那里,我们知道谷歌也花费了大量时间来抓取该网站。 有趣的是,如果你删除一个产品,谷歌会说“哦,但我有这个产品的 19 个其他版本”所以如果你使用过,实际页面几乎消失需要一段时间一个 404 或类似的东西,因为谷歌的工作方式。谷歌会看到这是这个页面的规范版本。但是如果你删除规范版本,那么它将开始使用不同的版本。这就是那种日志文件为我们提供的信息。我们能够以 Google 的方式查看站点。

它还允许我们查看状态代码等内容。 一个很好的例子是有一个状态代码说我没有被修改。 对于我现在的生活,我想不出它是什么,我应该在这个播客之前把它写下来。 但基本上,“我没有被修改”极大地提高了网站的抓取速度。当我发现这是谷歌尊重的东西时,我能做的就是处理所有的图片,所有的产品,以及所有这些不经常修改的点点滴滴,如果我们可以使用一个不修改的,我们可以提高谷歌的抓取速度,提高效率,减少服务器的负载,我们可以然后显着改进 Google 查找所有不同产品的方式。

谷歌看待东西的方式,我们想要,服务器管理员想要,每个人都想要,是服务器尽可能快和高效。 再一次,回到它的日志文件方面,如今,多年来我们根本无法有效地使用日志文件。 因为使用 CDN,您经常会发现页面会在多个位置被点击。 而且 CDN 本身通常没有日志文件。 所以我们将查看所有这些不同的地方,看看这台服务器上有多少负载以及那台服务器上有多少负载。 我们尝试将所有内容拼凑在一起,日志文件将采用不同的格式。 现在有了 CDN,我们实际上可以开始了解 CDN 的有效性。 突然之间,像 PageSpeed 这样的东西受到了巨大的影响和改进,因为如果我们使用日志文件,我们就可以开始理解图像这一事实,例如,通过图像的规范化,所以如果一个图像被用于多个页面,如只要 URL 一致,CDN 就可以工作,并且 Google 可以更好地抓取它。 是的,日志文件可以通过多种不同方式帮助提高 PageSpeed、缓存以及更有效地为用户和搜索引擎提供服务。

D:我正在回顾你要分享的五点。 您已经分享了其中的不同元素。 你让我想起了一个我可以只问一个问题的人,他们给了我一个 15 分钟的播客片段,而不问任何进一步的问题。 所以有一个人可能可以做到这一点,甚至比你更多。 那可能是 Duane Forrester。 Duane 和我开玩笑说他这样做我只是问他一个问题然后我就走开了让他分享这一集剩下的内容。 但是你稍微谈到了参数。 我不知道您是否触及了第三点,即发现是否有子域正在消耗抓取预算,因为不应该有。



3. 是否有子域消耗您的抓取预算?



G:这实际上可以追溯到 Just Eat。 有一次,我们发现该网站在多个不同的子域上被复制,并且所有这些都可以被抓取。 现在,有趣的是,根据像 Citrix 这样的工具,这些是不可见的。 他们不这样做的原因是因为它都被规范化了。 因此,当我们发现尽管存在这些重复项时,Google 用于抓取这些子域的预算略低于 60% 到 70%。 由于 CDN 和其他技术的原因,这些内容没有以相同的方式缓存,这实际上造成了大量的服务器负载。 所以这对我们来说是一件很有趣的事情,因为我们只是忽略了这个需要在未来某个时候解决的问题。 因为我们知道这个问题。 我们知道有一个问题,我已经谈过了。 但在我们开始查看日志文件之前,我已经取消了它的优先级。

我们看到谷歌在这里花费了大量的精力、时间和资源。 它创建了多少服务器负载? 影响有多大? 由于服务器无法解释不同来源的方式,我们无法了解服务器负载有多少。 所以令人着迷的是,当我们获得日志文件时,我们可以大大提高网站的可靠性。 所以我们知道子域,但在我们开始查看日志文件之前,我们只是不知道问题有多大。 然后突然间,我们发现这需要尽快解决。 这是我们知道如何解决的事情之一,这只是优先级排序。 它排在队列的底部,被提升到第二位。



4. JavaScript 和 CSS 文件



D:你谈到了规范化,但你也说,具体来说,JavaScript 和 CSS 文件可能是一个问题。 这是为什么?

G:我们经常做的一件事是通过向 CSS 文件添加参数来破坏缓存。 我们这样做的原因是如果你使用 CDN 或类似的东西会发生什么,每当你更新 CSS,你正在创建新页面或其他东西时,问题就是你有一个缓存的 CSS 文件并且新页面将无法使用它。 我们对所有这些不同的 JavaScript 和 CSS 文件都有很长的缓存时间。 因此,在页面中,只要我们添加需要更新 JavaScript 或 CSS 的内容,您只需稍微更改其中的参数即可。 从那里开始,我们必须确保所有不同的服务器都使用相同的参数版本。 那就是如果你在多个不同的团队、多个不同的网站上工作,一个更好的 JavaScript 来支持整个事情,我们总是确保它是正确的版本。 日志文件是我们确保所有不同页面始终使用正确的 JavaScript 版本的一种方式,因为我们可能必须更新 API 密钥或类似的东西。 我们必须采用多种不同的方式来做到这一点。 这对开发人员来说是一项艰巨的任务。

我们在日志文件中查看的其中一件事是,旧的是否被击中,它是从哪里被击中的,我们可以修复它吗? 我们还发现,您可以通过多种不同的方式编写 JavaScript 文件的路径。 例如,如果我们使用不同的主机名,它就在一个子域中,因为有趣的是,如果您在多个不同的网站上工作,您经常会发现实际上访问同一服务器的不同 URL 或不同域名。 通常,如果您使用的是 CDN 或子目录,那么有时它可能会非常不一致。 从用户的角度来看,如果您在旅程中以六七种不同的方式访问同一个 JavaScript 文件,那么您将以六七种不同的方式加载它。 虽然这看起来可能不是很多,但累积起来,这会为您的旅程增加一些兆字节。 当然,这会减慢整个体验,并降低服务器的效率。 还有更多。 因此,请确保始终使用正确版本的 JavaScript、CSS 和其他零散片段。 还要确保没有理由将 JavaScript 隐藏在参数或其他内容中。 创建蜘蛛陷阱的方法有很多种,其中包括 JavaScript 文件,例如,在其中标记某些内容,可能它们没有使用对 JavaScript 的正确绝对引用。 所以它位于与其他时间不同的目录中。 令人惊讶的是,您可以通过多种不同方式发现多个不同页面加载 JavaScript 的方式略有不同。 所以是的,这是一个非常简单的。 但在分析方面却出奇地昂贵。



5.响应代码



D:还要确保以您希望的方式提供响应代码。 这方面的一个例子是通过 TOS 有时会被谷歌看到或不被谷歌看到,而谷歌应该或不应该看到。 那为什么会这样呢?

G:同样,我们总是使用相同的浏览器、相同的技术、相同的体验和一切来访问网页。 我尝试确保我使用的工具不同于我通常使用的工具,因为每个人都在进行 Screaming Frog 审计,所以我尝试使用各种零碎的东西。 但我们总是假装我们有点像一台电脑。 所以我们从不假装我们是 Googlebot,我们从不假装我们是所有这些不同的东西。 因此,如果您查看 Google 机器人如何从不同的 IP 地址访问特定文件……很多技术,例如 CloudFlare,如果您假装自己是 Googlebot,并尝试使用 Screaming Frog 访问它,它就会知道您是不是 Googlebot,您实际上就是这个。 因此,它对待您的方式与您对待 Googlebot 的方式不同。 通常,服务器被配置为预渲染东西来完成所有的点点滴滴。 并且它只是确保每个人在那个时候从服务器获得正确的响应代码。

这看起来很简单,但是当你在国际上扩大规模时......当你有地理重定向时,如果用户或搜索引擎无法访问特定页面,因为有人在地理重定向中说如果你访问这个来自西班牙的网站,然后去加载这个子目录...因此它不能查看根版本或替代版本。 这就是为什么像正确的响应代码这样的事情是绝对关键的。 令人惊讶的是,您经历这些事情的频率很高,并且您认为一切都已正确设置。 因为一次又一次,我们知道应该如何设置。 我们把它交给某人,某人解释它,另一个人实施它,然后其他人检查它。 然后其他人点击 CDN 上的一个按钮,上面写着,“哦,我们可以在这个特定的地方对某人进行地理定位。” 与其说任何人做错了什么,不如说链条上有什么东西有效地稍微打破了它。





帕累托泡菜——唾手可得的果实



D:让我们以 Pareto Pickle 结束吧。 帕累托说,你可以通过 20% 的努力获得 80% 的结果。 您推荐的一项 SEO 活动是什么,它可以通过适度的努力提供令人难以置信的结果?

G:目前我最喜欢的事情是我有一个非常基本的 Google Data Studio 仪表板,它让我可以看看我所说的唾手可得的成果。 现在,每个人都讨厌流行语宾果游戏。 但这是我的事情,我看那些排名不高的东西。 我会查看所有针对特定页面集、食谱、产品或其他内容进行排名的关键字。 一个很好的例子是,目前,我正在处理成千上万的产品,我查看了所有获得高印象的页面,但可能在第 6 个位置,我可以将它们处理到第 3 个位置。十有八九你可以通过确保标题标签得到改进和内部链接得到改进来做到这一点。 非常简单的东西,可以找出哪些具有高搜索量的关键字可以稍微增加一点以提高点击率。

D:大卫·贝恩,我是你的主持人。 您可以通过在 LinkedIn 上搜索 Gerry White 找到 Gerry。 Gerry,非常感谢您参加 In Search SEO 播客。

G:我的荣幸。 感谢您的时间。

D:感谢您的收听。 查看之前的所有剧集并注册免费试用 Rank Ranger 平台。