理解和解决“已发现 - 目前未编入索引”

已发表: 2023-02-07

如果您在 Google Search Console 中看到“已发现 - 当前未编入索引” ,则表示 Google 知道该 URL,但尚未对其进行抓取和索引。

这并不一定意味着该页面永远不会被处理。 正如他们的文档所说,他们稍后可能会在您不需要任何额外努力的情况下返回它。

但其他因素可能会阻止 Google 抓取该页面并将其编入索引,包括:

  • 服务器问题和现场技术问题限制或阻止谷歌的抓取能力。
  • 与页面本身相关的问题,例如质量。

您还可以使用 Google Search Console Inspection API 将 URL 排队,以获得它们的coverageState状态(以及其他有用的数据点)。

通过 Google Search Console 请求索引

这是一个显而易见的解决方案,对于大多数情况,它将解决问题。

有时,Google 抓取新 URL 的速度很慢——这种情况时有发生。 但其他时候,根本问题是罪魁祸首。

当您请求索引时,可能会发生以下两种情况之一:

  • URL 变为“已抓取 - 当前未编入索引”
  • 临时索引

两者都是潜在问题的症状。

第二种情况发生是因为请求索引有时会给您的 URL 一个临时的“新鲜度提升”,这可以使 URL 超过必要的质量阈值,进而导致临时索引。


获取搜索营销人员所依赖的每日时事通讯。

处理中……请稍候。

见条款。


页面质量问题

这就是词汇会让人困惑的地方。 有人问我,“如果尚未抓取,Google 如何确定页面质量?”

这是一个很好的问题,答案是不能。

Google 正在根据域中的其他网页对网页的质量做出假设。 他们的分类同样基于 URL 模式和网站架构。

因此,将这些页面从“意识”转移到爬网队列可以根据他们在类似页面上发现的质量不足而降低优先级。

与针对相同用户意图和关键字的其他内容片段相比,具有相似 URL 模式的页面或位于网站架构相似区域的页面可能具有低价值主张。

可能的原因包括:

  • 主要内容深度。
  • 推介会。
  • 支持内容的级别。
  • 所提供内容和观点的独特性。
  • 或者更多的操纵性问题(即内容质量低下并且自动生成、旋转或直接复制已经建立的内容)。

努力提高站点集群和特定页面中的内容质量可以对重新点燃 Google 以更大的目的抓取您的内容的兴趣产生积极影响。

您还可以对网站上您认为质量不高的其他页面不编制索引,以提高网站上优质页面与劣质页面的比例。

抓取预算和效率

抓取预算是 SEO 中经常被误解的机制。

大多数网站不需要担心这一点。 事实上,Google 的 Gary Illyes 公开表示可能 90% 的网站不需要考虑抓取预算。 它通常被认为是企业网站的问题。

另一方面,抓取效率会影响各种规模的网站。 如果被忽视,它可能会导致 Google 抓取和处理网站的方式出现问题。

举例来说,如果您的网站:

  • 使用参数复制 URL。
  • 使用和不使用尾部斜杠解析。
  • 在 HTTP 和 HTTPS 上可用。
  • 提供来自多个子域的内容(例如,https://website.com 和 https://www.website.com)。

…那么您可能会遇到重复问题,这些问题会影响 Google 基于更广泛的站点假设对爬网优先级的假设。

您可能会用不必要的 URL 和请求来消耗 Google 的抓取预算。 鉴于 Googlebot 会分段抓取网站,这可能会导致 Google 的资源无法扩展到足以按您希望的速度发现所有新发布的 URL。

您希望定期抓取您的网站,并确保:

  • 页面解析为单个子域(根据需要)。
  • 页面解析为单个 HTTP 协议。
  • 带有参数的 URL 被规范化到根(根据需要)。
  • 内部链接不要不必要地使用重定向。

如果您的网站使用电子商务产品过滤器等参数,您可以通过在 robots.txt 文件中禁止这些 URI 路径来限制对它们的抓取。

您的服务器对于 Google 如何分配预算来抓取您的网站也很重要。

如果您的服务器过载并且响应速度太慢,则可能会出现抓取问题。 在这种情况下,Googlebot 将无法访问该页面,从而导致您的某些内容无法被抓取。

因此,谷歌将尝试稍后返回以索引该网站,但这无疑会导致整个过程的延迟。

内部链接

当您拥有一个网站时,拥有从一个页面到另一个页面的内部链接非常重要。

谷歌通常不太关注没有任何或足够内部链接的 URL,甚至可能将它们从其索引中排除。

您可以通过 Screaming Frog 和 Sitebulb 等爬虫检查页面的内部链接数量。

在优化您的网站时,拥有一个有组织和逻辑的网站结构以及内部链接是最好的方法。

但是,如果您对此有困难,确保所有内部页面都已连接的一种方法是使用 HTML 站点地图“侵入”爬网深度。

这些是为用户而不是机器设计的。 虽然它们现在可能被视为文物,但它们仍然有用。

此外,如果您的网站有很多 URL,明智的做法是将它们分成多个页面。 您不希望它们都从一个页面链接起来。

内部链接也需要为内部链接使用 <a> 标签,而不是依赖于诸如onClick()之类的 JavaScript 函数。

如果您使用的是 Jamstack 或 JavaScript 框架,请研究它或任何相关库如何处理内部链接。 这些必须显示为 <a> 标记。


本文中表达的观点是客座作者的观点,不一定是 Search Engine Land。 此处列出了工作人员作者。