为什么要控制Googlebot抓取速度？__wordpress教程

有时会很高兴地看到，Google几乎是在瞬间抓取您的网站。但这对于大多数网站来说不是必需的，因为内容可能每天更新一次，甚至更长的时间间隔。在内容没有更新的这种情况下，搜索引擎爬虫或机器人继续在网站上寻找更新是没有意义的。

在本文中，我们将了解您为什么要控制Googlebot以及如何控制Googlebot和其他搜索引擎爬虫的抓取速度。

为什么要控制Googlebot抓取速度？

当您有多个站点或更大的站点时，搜索引擎机器人的持续爬取将对服务器性能产生不利影响。因此，有必要控制爬取您网站的机器人的爬取速率，而Googlebot是您在许多情况下应该控制的第一个。

无论是搜索引擎机器人还是真实用户，都会使用您的服务器资源。
高爬取率将导致高CPU利用率，最终可能需要为额外资源支付更多费用。在共享托管环境中，您的主机可能会停止服务以保护托管在同一服务器上的其他站点。
当Googlebot抓取网站时，网站上的真实用户可能会感到缓慢。特别是当您拥有电子商务网站时，必须控制Googlebot和其他经常抓取的机器人。

如果您的网站较小且流量有限，您可能不会看到机器人有任何问题。当您有多个站点每天吸引成千上万的访问者时，您会注意到由于爬虫的活动导致CPU使用率猛增。当CPU利用率很高时，您可能会收到来自托管公司的警告消息，或者您的帐户将被暂停，要求您采取必要的措施。

如何监控Googlebot？

有两种方法可以监控Googlebot的抓取活动。一种是从您的Google Search Console中进行检查，另一种是从您的托管帐户进行监控。

登录到您的Google Search Console帐户并导航到“设置”，然后抓取>抓取统计信息>打开报告。在这里，您可以查看过去90天时间范围内的Googlebot活动。您将看到三个图表——每天抓取的页面、每天下载的千字节以及下载页面所花费的时间（以毫秒为单位）。这些图表将让您全面了解Googlebot在您的网站上所做的事情。

Googlebot在您的网站上抓取数据统计

第二种也是最有效的方法是通过您的主机帐户监控服务器上的活动。登录到您的托管帐户并查找其中一种统计报告工具。在这种情况下，我们使用几乎所有共享托管服务提供商（如Bluehost、SiteGround等）提供的Awstats进行解释。

打开Awstats应用程序并选择您的站点以查看统计信息。在“Robots / Spider visitors”部分查看最活跃的机器人列表。

从Awstats监控机器人

您还可以使用WordFence等插件来监控实时流量和Googlebot活动。

当然，我们的蜘蛛分析插件也可以实现爬虫统计及行为分析，安装启用插件后，当然是统计了一段时间的数据，点击蜘蛛分析>蜘蛛概况，然后选择最近30天，在趋势图下列菜单选择为Googlebot，即可查看Googlebot最近30天URL爬取的数量。

如何控制Googlebot的抓取速度？

当您注意到Googlebot正在抓取您的网站并消耗大量带宽时，就该控制抓取速度了。一些托管公司通过在robots.txt文件中添加条目来自动控制抓取延迟。您可以从Google Search Console手动控制Googlebot的抓取速度。登录到您的Search Console帐户后，打开您的资源的抓取速度设置页面，选择您需要设置谷歌蜘蛛爬取速度的网站。

在Google Search Console中访问抓取控制设置

您将在“抓取速度”部分看到两个选项。

Googlebot抓取速度控制

让Google优化我的网站（推荐）
限制Google的最大抓取速度

选择第二个单选按钮并将进度条向下拖动到任何所需的速率。这将设置每秒的请求数和抓取请求之间的秒数。

注：除非谷歌爬取导致您的网站性能下降严重，否则完全没必要修改谷歌爬虫的爬取速度，这一块的控制，谷歌做得相当优秀。

新的抓取速度设置将在90天内有效，并在到期后自动重置为第一个选项“让Google为我的网站进行优化”。

必应呢？

与Googlebot类似，您也可以在Bing Webmaster Tools下限制Bingbot。登录到您的帐户后，导航到“配置 > 爬网控件”，即可进行相关的设置。

必应网站管理员工具中的抓取控制

通过选择图表上的蓝色框来调整抓取速度。

其他搜索引擎爬虫

除了Google和Bing，还有许多其他机器人可以抓取您的网站。您可以使用通用.htaccess指令阻止所有其他机器人。在您的.htaccess文件中添加以下代码以阻止除Google、Bing、MSN、MSR、Yandex和Twitter之外的所有机器人。所有其他机器人将被重定向到本地主机IP地址 127.0.0.1。

#Disable bad bots
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} ^$ [OR]
RewriteCond %{HTTP_USER_AGENT} (bot|crawl|robot)
RewriteCond %{HTTP_USER_AGENT} !(bing|Google|msn|MSR|Twitter|Yandex) [NC]
RewriteRule ^/?.*$ "http\:\/\/127\.0\.0\.1" [R,L]

您还可以通过IP地址拦截方式部分蜘蛛的访问和爬取拒绝。