如何优化抓取预算

2023 年 7 月 5 日|搜索引擎优化|预计阅读时间 ≈ 9 分钟

谷歌关于抓取预算的说法

一月中旬,谷歌在他们的博客上发表了一篇文章指出:“对于我们(SEO 人员)所认为的抓取预算,我们没有一个单一的术语来全面描述。”

这家网络巨头还表示,如果您的新页面通常在发布当天就被抓取,那么您真的不必担心抓取预算。它还指出,如果一个网站的网址少于几千个,它将被正确抓取,因为抓取预算通常是为高容量网站保留的......这既对也不对,因为谷歌搜索控制台中的所有网站都有抓取预算。我们可以在谷歌指标中很容易地看到这一点。

我们还在这篇文章中发现,谷歌正在尝试实现“抓取速率限制”,这限制了给定网站的最大抓取速率。例如,我们可以看到,当加载时间过长时,谷歌几乎将其预算削减了一半。话虽如此,还是有一些因素会影响抓取预算,例如不良的架构(系统、状态代码、内部结构)、质量差和/或重复的内容、蜘蛛陷阱等。

谷歌的抓取预算如何运作?

谷歌的抓取是一组对每个网站递归操作的简单步骤。这是谷歌的一个图表,我们看到抓取从对 txt 机器人的命中开始,然后它在一组 URL 中分离,这些 URL 被编译在一个列表中。之后,谷歌试图获取它们,同时与它已经知道的 URL 以及它已经备份的 URL 进行比较。

其目标是详尽而精确地完成其索引。我们看到,即使网站是在 JavaScript 中,谷歌也会发送三级爬虫。您仍然应该小心 JavaScript 网站,因为它们消耗大量的机器人资源,平均每季度只发送一次。我们需要重新思考我们的方法,以便谷歌能够访问 JavaScript 导航之外的页面。

然后,谷歌将检查页面更新的状态(与之前索引的内容进行比较),以评估页面是重要还是不太重要。事实上,谷歌需要优化其抓取资源,因为它无法抓取所有网站的每个页面。这被称为页面重要性......这是一个非常重要的得分,我们将在下面详细介绍!

事实:如果谷歌进行优化,那是有原因的

抓取预算取决于:

  • 网站快速响应的能力;
  • 网站的健全性 - 4xx、5xx、3xx(当网站开始出现 404 或 500 时,抓取预算将受到影响,因为它将始终复查是否已进行修复);
  • 内容的质量 - 语义和详尽性;
  • 锚点的多样性(当一个页面收到大量链接时,它被认为是重要的);
  • 页面的受欢迎程度 - 外部和内部;
  • 可优化因素 - 简化抓取(减小图像大小、具备 css、js、gif、字体等的能力)

谷歌页面重要性的关键组成部分

页面重要性的定义与页面排名不同:

  • 页面在网站中的位置 - 抓取速率的深度;
  • 页面排名:页面的 TF/CF - Majestic;
  • 内部页面排名;
  • 文档类型:PDF、HTML、TXT(PDF 通常是最终的定性文档,因此会被大量抓取);
  • 包含在 sitemap.xml 中;
  • 内部链接的数量:
  • 锚点的质量/重要性;
  • 定性内容:字数、少量近似重复(如果页面内容过于接近,谷歌将对类似内容进行惩罚);
  • “主页”的重要性。

如何规划要抓取的重要 URL

URL 调度:谷歌想要访问哪些页面以及访问的频率是多少?

在上面的示例中(对同一网站的抓取频率的观察),谷歌在不同的组上的抓取频率不同。我们看到,当谷歌抓取网站的一部分时,排名的影响很快就会显现出来。

关于谷歌抓取预算的更多信息

  • 谷歌搜索控制台的 100%的网站都有抓取数据;
  • 我们可以通过日志分析跟踪其抓取行为,这有助于您快速检测机器人行为的异常;
  • 不良的内部结构(分页、孤立页面、蜘蛛陷阱)可能会阻止谷歌抓取正确的页面;
  • 抓取预算与排名直接相关。

页面速度优先

最重要的因素是页面的加载时间,因为它对抓取预算起着决定性的作用。确实,我们今天处于移动世界。因此,您的最佳资产是页面的加载时间,以优化您的抓取预算和 SEO。随着移动革命,加载时间是评估网站质量的一个关键因素。其快速响应的能力 - 特别是对于移动和索引移动优先。

为了优化它,我们可以使用CDN 解决方案(内容分发网络),如 Cloudflare。这些解决方案允许谷歌的机器人尽可能接近资源,并尽快加载页面。

谷歌不断测试网站的快速响应能力。架构和编码质量对谷歌的评分有很大的影响。

加载时间

这是抓取预算的第一个分配因素!

服务器方面,您需要:

  • 避免重定向;
  • 允许压缩;
  • 提高响应时间。

上面是Manageo网站的一个例子,它有一个线性的抓取预算,我们可以看到一个线性的增加。在五月,每天抓取的页面数量有所下降,因此网站的速度也发生了变化。谷歌看到网站响应速度变慢,所以将其抓取预算削减了一半。为了纠正这一切,您必须在服务器端优化您的代码,减少重定向,使用压缩等。

前端方面,您需要:

  • 操作浏览器缓存
  • 减小资源大小(图像优化,使用 CDN/延迟加载/删除阻止显示的 JS;
  • 使用异步脚本。

质量下降 = 不再受喜爱 = 不再有预算

有必要检查返回给谷歌机器人的状态代码,以确保 IS 是干净的。这是谷歌验证您的代码和架构质量干净的唯一方法。

随着时间的推移跟踪它们的演变,确保代码更新对 SEO 友好。谷歌在资源(css、img、js)上花费了很多,所以确保它们是完美的。

独特和丰富的内容

页面越重要,其文本就越丰富。如上所示,谷歌抓取和未抓取的页面数量与页面上的字数有关。因此,您的页面应尽可能经常地增强和更新。

注意规范和重复内容

当两个相似的页面未指向相同的规范 URL 时,谷歌将花费两倍的预算。因此,对于具有方面或带有查询字符串的外部链接的网站,规范管理可能变得至关重要。

在近乎重复和规范中的内容管理成为抓取预算优化的重要方面。

内部结构和 InRank 分布

产生 SEO 访问的页面被认为是活跃的。这些是网站架构顶部的页面。另一方面,我们在这里看到在第 15 页有一组页面出现。也许这些页面比您想象的更受用户搜索,需要在架构中升级以提高其排名。

正如我们所知,页面越深,谷歌访问它们的次数就越少!

我的盈利页面位置是否良好?

提示:如果您想优化某些页面组的深度,不要犹豫创建 html 站点计划,这意味着对于管理您的深度至关重要的页面。

谷歌将比较您的结构中的页面与抓取的页面与活跃的页面。也就是说,解决谷歌不必要地花费预算的孤立页面的问题,并修复网站的架构以返回指向活跃但不在结构中的页面的链接对您有利。

有时页面不再接收链接,它们被称为孤立页面。另一方面,谷歌并没有忘记它们。它将继续访问它们。它们不再接收链接,因此失去了重要性,但在右图中,一些孤立页面继续接收 SEO 访问。您需要知道的是如何快速识别它们并修复架构中的链接问题。这是优化您的抓取预算的好方法。

要避免的错误

  • Robots.txt 出现 404 错误;
  • Sitemap.xml 和 sitemap.html 过时;
  • 50x / 40x / 软 404 错误;
  • 存在链式重定向;
  • 规范错误;
  • 重复内容(页脚)/ 近似重复 / HTTP 与 HTTPS;
  • 响应时间过长;
  • 页面重量过重;
  • AMP/错误。此协议被谷歌广泛使用,特别是对于电子商务网站(不仅仅是媒体网站);
  • 不良的内部链接 + Rel=nofollow;
  • 在没有其他选择的情况下使用 JS。

结论

要优化您的抓取预算,您需要:

  • 了解您的盈利页面并了解谷歌的反应;
  • 提高加载时间;
  • 优化您的内部链接:将您所有的盈利页面放在架构的顶部;
  • 修复您的孤立页面;
  • 为您的盈利页面添加文本;
  • 尽可能充分地更新您的盈利页面 - 新鲜度;
  • 减少您的劣质内容和