什么是抓取预算 [以及如何优化它]?
已发表: 2022-05-16抓取预算是您可能听说过营销人员谈论的那些 SEO 术语之一。
但是,您知道它的含义和含义吗?
不用担心,我们不是来测试你的。 相反,我们在这里帮助您了解抓取预算、为什么它很重要以及如何检查和优化它。
毕竟,你必须先学会爬行,然后才能走路,对吧?
什么是抓取预算?
抓取预算是谷歌在特定时间范围内可以在网站上抓取的页面数。
你看,每次你在你的网站上发布一个页面,你都需要等待谷歌对其进行索引和排名,而要做到这一点,它的机器人需要先抓取它。
这个过程可能会发生得更快或更慢,具体取决于您的网站有多大、主题有多受欢迎、您的页面有多少流量等。
但是爬行实际上是如何工作的呢?
让我们来了解一下。
爬虫如何工作?
十多年前,谷歌意识到他们的资源有限,只能找到有限比例的不断在线发布的永无止境的在线内容。
然后,在 2017 年,Google 发布了他们的官方“抓取预算对 Googlebot 意味着什么”文章,其中解释了他们对抓取的定义以及其他相关细节。
以下是基本事实:
- 抓取是有效的,除非您的网站有超过几千个 URL
- 快速响应页面增加爬取限制
- 您可以通过 Google Search Console 降低网站抓取速度
- 热门网址往往被更频繁地抓取
- 大量低价值 URL(重复内容、软错误页面等)会对索引编制和抓取产生负面影响
- 爬行不是直接的排名因素
基本上,为了确保您网站的最大可抓取性,您需要有快速的加载时间,避免重复和低质量的内容,并使您的网页受欢迎。
但是,需要注意的是,大多数网站所有者不需要太在意抓取预算。 应该注意的是拥有数千页的大型网站,例如电子商务商店、数字出版物和流行博客。
为什么抓取预算很重要?
抓取预算对您的 SEO 工作非常重要,尤其是当您拥有数千页并且每天不断发布大量新文章时。 机器人会想要抓取您的新内容,但它们也会同时重新访问您网站的其余部分。
如果他们遇到让他们感到困惑的多个挫折和/或问题,他们将陷入在旧页面上浪费抓取预算的困境,而不是将其投资于您希望他们索引的新内容。 这可能会造成延迟并暂时(甚至永久)使您的 URL 在 SERP 中不可用。
例如,您正在发布对尽快获得可见性很重要的新闻或信息。
您不想等待一个星期让您的帖子被索引,对吗?
毕竟,如果您的页面未编入索引,您将无法对 SERP 进行排名。 假设您正在撰写关于今天发生的世界事件,但您的页面在五天内被抓取。 到那时,实现您的初始目标为时已晚,因为事件不再那么相关和新鲜了。 更不用说,许多其他网站都会写到它,并及时被索引。
抓取机器人需要长达一周的时间来索引您的页面并不少见,但老实说,它应该花费更少的时间。
此外,与此同时,您还将继续发布需要抓取、编入索引并及时提供给目标受众的新页面。 这就是索引瓶颈的秘诀。
总而言之,如果您经常达到爬网预算的限制,您可能会冒一些页面在裂缝之间滑倒而无法进入 SERP 的风险。 因此,这些内容不会从自然流量中受益,并且与您的其他内容相比,其知名度要低得多。
如果您想知道如何检查您的抓取预算 - 这很容易。 只需转到 Google Search Console 并检查 Crawl → Crawl Stats。
抓取预算优化
重要的是要记住,抓取预算取决于三个主要因素:网站规模、网站健康状况和网站受欢迎程度。
这意味着您无需担心抓取预算浪费,如果:
- 您的网站规模适中,意味着不到几千页。
- 您的网站没有状态代码错误,并且具有适当的规范化。
- 您的网站很受欢迎,这意味着您已经开发了社交媒体追随者,以及其他渠道来分享您的内容并产生流量。
涵盖这些标准意味着 Googlebot 应该能够有效地抓取您的网站。
如果您缺少这三个因素中的任何一个,您可能会遇到不同级别的抓取问题并失去某些页面的自然搜索可见性。
以下是一些需要遵循的抓取预算最佳实践:
提高您的网站速度
如上所述,网站速度和页面加载时间可能会影响抓取限制。 一个健康、快速的网站意味着 Googlebot 能够在更短的时间内抓取更多的网页。
另一方面,较慢的加载页面会降低抓取速度,并且在大型网站中,这可能会导致整体索引问题。
简而言之,确保优化您的网站速度。 这不仅会使机器人更容易,而且会改善用户体验。
应用内部链接
最好的情况是让反向链接指向您网站上的每个页面。 这不仅是一种很好的 SEO 做法,可以吸引访问者访问您的网站并向搜索引擎展示您的内容很重要,而且还吸引了 Googlebot。
简而言之,反向链接是 SEO 的金童。
但这是交易。
除了反向链接,谷歌也喜欢内部链接。 它有助于它发现您的所有页面并更好地了解它们之间的关系。 虽然反向链接可能很难获得,但您可以完全控制内部链接,并且可以根据需要添加任意数量(只是不要过度)。
应用此优化技术将确保您的更多页面被抓取。
使用平面 Web 架构
在 Google 眼中,人气非常重要。 这就是为什么使用扁平化网站架构是有益的。 扁平架构允许链接权限在您的所有页面上具有相同的比例。
它将帮助机器人更容易地跟踪您网站上的链接是如何连接的,此外还可以让您更好地对相关页面进行分组并获得主题权威。
实际上,这意味着用户和搜索引擎都可以在四次点击内访问您网站上的任何给定页面。
避免孤立页面和重复内容
孤立页面是不包含单个外部链接或内部链接的页面。 这使得这些类型的页面与您的其他内容隔离开来,而且从逻辑上讲,它们也更难被 Googlebot 发现。
通过为您拥有的每篇文章和页面添加至少一个内部链接,您可以轻松避免孤立页面。
管理重复内容
重复的内容会导致许多问题。 拥有多个具有相似参数的 URL 会使爬网机器人感到困惑。 这会浪费 Googlebot 的时间,因为它必须确定哪个页面是主页面,哪个页面是重复版本,这会导致抓取过程变慢。
对于像电子商务平台这样的网站,通常会有多个相似的 URL,由于多个相似的产品具有微小的差异,例如大小和颜色,请务必使用规范标签,这将引导 Googlebot 到您想要优先处理的页面。
禁止抓取某些页面
每个网站都有登录、联系表格、购物车等页面。 这些不需要爬网,除此之外,它们不能被爬网。 然而,谷歌会尝试,所以让机器人知道他们应该跳过它们并节省资源是个好主意。
要执行此操作,请使用您的 robots.txt 文件来禁止抓取您想要的网页。
更新旧内容并编写新内容
我们有没有提到谷歌喜欢新鲜的内容? 确实如此。
Google 甚至可能会停止抓取您的页面,因为最近几次抓取时没有任何新内容。
想象一下,Googlebot 每两天访问一次您的网站,并且每次找到要索引的新内容时。 然后,突然间,出于某种原因,您停止更新您的网站。 但是,Googlebot 会继续以相同的频率访问它。 过了一会儿,机器人注意到没有新的内容可以索引,最终降低了访问频率。
在相反的情况下,您开始更频繁地提供新鲜内容,Googlebot 可以开始更频繁地访问您的网站。
通常,在确定哪些页面需要更新时,请注意相关性——一篇文章可能已有两年之久,但仍然有适用的信息(不过,您仍然应该更新它)。 或者它可能是一个月前已经失去新鲜感的材料。
减少错误页面
这个很容易理解。
Googlebot 在尝试抓取包含 5xx 错误代码(服务器错误)、4xx 错误代码(无法找到错误)、3xx 错误代码(重定向)等的页面时会浪费时间,因此会降低您的抓取速度限制。
基本上,导致代码不同于 200 的每个页面都是浪费时间和爬取资源。 实际上,没有必要将 Google 的注意力引向您已删除或重定向的页面。 相反,优先修复您的实时 URL。
简而言之,抓取预算优化
让我们回顾一下优化 Google 抓取预算的步骤:
- 加速您的网站
- 在所有页面上放置内部链接
- 应用扁平化网站架构
- 避免孤立页面和重复内容
- 防止在某些页面上爬行
- 更新旧内容,写新内容
- 减少错误页面
奖金提示
您可以通过执行日志文件分析来检查您的网站被抓取的频率。 这样,您可以确定某些页面是否比其他页面更频繁地被抓取。
此外,日志文件分析可以帮助您了解网站的特定区域是否存在问题。
此外,日志文件分析可以帮助您了解网站的特定区域是否存在问题。
底线
抓取预算对于您网站的整体搜索引擎可见性至关重要。 如果 Googlebot 无法抓取您的网页并将其编入索引,那么您实际上就不存在于在线状态。
确保应用我们在文章中讨论的所有抓取预算优化技术,您将获得回报。
谷歌将能够更快地找到您的内容并将其编入索引,最终,您的网站将领先于失败或忽视实施优化的竞争对手。
1:0给你! 好工作!