谷歌的网蜘蛛,谷歌,不断地抓取网页,并将它们添加到谷歌的索引中。当它抓取您的站点时,它会注册相当多关于您的站点如何工作的信息。

但是你也可以通过跟踪你网站上Googlebot的活动来了解很多信息。

看看谷歌看到的东西不是很有用吗?毕竟,作为一个SEO,你的目标之一就是遵循谷歌设定的指导方针,如果你能了解谷歌如何理解你的网站,你就可以相应地调整你的策略。

好消息:你可以。分析机器人的活动要获得内部查看搜索引擎关于您的网页 - 并沿途揭示讨厌的垃圾邮件机器人。许多SEO不进行日志文件分析,这限制了它们从接受他们无法找到的有价值的见解,以便使用常规站点爬网。

在这篇文章中,我要告诉你如何您可以分析服务器日志文件以收集这些重要的见解和改善搜索性能。首先,让我们涵盖基础知识......

什么是日志文件分析?

服务器日志文件是从web服务器输出的文件,其中包含“点击”,或服务器收到的所有请求的记录。从本质上讲,日志文件分析是您的工具带中的一个潜在工具,它允许您深入了解谷歌正在爬行的站点上的哪些页面/内容片段。

日志文件中包含的信息包括:

  • 时间和日期
  • 请求IP地址
  • 响应代码
  • 介绍人
  • 用户机构
  • 请求的文件

下面是一个服务器日志文件的示例(使用虚拟信息):

127.0.0.1用户标识符弗兰克[10/10月/ 2000:13:55:36 -0700]“Get / Apache _PB.gif HTTP / 1.0”200 2326

因为服务器日志文件是来自Googlebot(和其他搜索引擎爬虫)的真实信息,所以对日志文件的分析可以回答以下问题:

  • 是我的爬行预算有效地花了吗?
  • 爬行过程中遇到了哪些可访问性错误?
  • 爬网缺乏的领域在哪里?
  • 哪个是我最活跃的页面?
  • 谷歌不了解哪些页面?

这些只是您可以通过日志文件分析发现的一些见解的例子。

虽然有方法可以向Google发出信号,但它们应该如何抓取网站(例如XML网站地图,robot.txts等)找到这些问题的答案可能会很大程度上有利于调整您的策略来提醒GoogleBot到最重要的页面。

笔记:当Googlebot抓取你的网站时,它只查看HTML,而不是javascript。

日志文件分析的挑战

有一些具有日志分析的固有障碍。对于一个,可能很难让手放在机器人日志文件上,如果您是企业公司,您最有可能在您的网站上有数百个页面。这是收集和消化的很多信息。

由于日志文件分析通常与SEO报告分开,因此您必须手动连接点。虽然有可能这样做,但没有理由应该这样做。数据太多了。如果您在Excel中手动执行此操作,您只会看到日志文件数据一天,而不是整体趋势。更不用说浪费时间试图过滤,段和组织数据的时间。

您需要一个平台将此数据拉到一起,因为真的,它必须被汇总为有意义。

让我用一个例子来说明这一点。如果一个网站每天有5,000名访客,每个人都转到10页,那么服务器将创建日志文件条目50,000条记录。手动通过该数据是一个令人难以置信的繁琐的过程。

通过将您的bot日志文件与其余的SEO报告使用相同的工具,您开始更容易地连接这些点,并找出这些信息告诉您什么。那么这个过程是怎样的呢?

如何使用seoclarity分析日志文件

通过将bot日志文件与SEO报告的其余部分放在同一工具中,您可以开始更容易地连接点。事实上,seoClarity是唯一一个提供强大的搜索引擎优化平台强大的日志文件分析解决方案作为其主要产品的一部分。

在seoClarity,你客户经理成功帮助您设置所有相应的文件 - 基本上,您将文件放入,我们进入将其拉动。将文件上传到平台时,可以使用BOT Clarity,我们的集成日志文件分析仪,以了解机器人如何访问您的网站,以及他们可能遇到的任何问题以及如何花费爬网预算。

我们做了沉重的提升,所以你留下了有意义的信息。

机器人清晰度

我们的日志文件分析工具查看日志文件,允许BOTS,排名和分析之间的相关性。要发现这些见解,导航到机器人清晰度在平台的可用性选项卡中。

Botclarityoverview.

(Seoclarity平台内的机器人清晰度。)

在这里,您可以发现机器人请求,请求状态以及找到爬行您网站的机器人数量。

由于我们主要关注GoogleBot,让我们通过BOT组过滤结果,更深入地了解它如何爬行并理解网站。

看看谷歌的不同分支(例如谷歌Desktop vs.谷歌Mobile)是如何爬行和理解你的网站也是很有趣的。

BotGroupGoogle

(过滤以查看特定机器人的信息。)

接下来,我们分析了Googlebot正在爬行的URL,以及多久。既然我们知道谷歌的网站页面是什么,我们可以下载该数据在手头上。然后,查找您的XML网站地图。您的XML SiteMap上的页面是谷歌正在爬行的相同页面吗?Google爬网的页面不在网站地图上,谷歌可能会浪费时间?

Botclarityurl.

(弄清楚Googlebot正在爬行,以及频率。)

但是日志文件分析提供更多的见解,而不是看到Googlebot爬行的页面。让我们来看看可以应用其他用例的东西......

日志文件分析的其他见解

日志数据可以跨各种用例使用。分析机器人日志文件可以让你看到你的网站如何搜索引擎看到它,这意味着你可以发现潜在的错误,并修复他们的网站更新为下一次机器人出现。

欺骗机器人活动

欺骗活动是指来自逐步宣布为主要搜索引擎的机器人的爬网请求,但其IP与搜索引擎的IP不匹配。我们的工具轻松标记假装是Googlebot的爬行者,并正在爬行您的网站并使用高贵的资源。如果您找到垃圾邮件机器人,可以清理它们,以便优化爬网预算,您的网站加载更快。

BotclaritySpofeDactivity.

(在机器人清晰度的验证与欺骗活动。)

响应代码

还要检查您网站的HTTP状态。知道哪些URL正在正常工作,并且正在响应页面错误。2xx响应代码意味着正确接收并接受请求,但某些响应代码表示错误。

但是3xx, 4xx和5xx响应码应该被处理。例如,虽然一个301重定向(表明页面被永久移动了)不是问题,但多个重定向会造成麻烦。

由于有些响应代码是正的,您可以过滤结果以指定您想要看到的响应代码。在这里,我过滤了结果,显示了3xx和4xx响应代码。

响应

(不同站点URL的响应代码。)

另外,随着时间的推移,还清了您的GoogleBot爬网率,以及如何与响应时间和服务错误页面相关联。

新内容发现

使用日志文件分析器,您可以通过分段对网站组分组新页面,并何时爬出这些特定页面。在几天之内,您可以100%确定谷歌发现了这种新的战略内容。

用户代理过滤器

使用用户代理过滤器选择要分析的文件,或按名称搜索它们。过滤特定的用户代理基于以下条件:是,不包含,不包含,以结尾或正则表达式模式。这允许您缩小并发现搜索机器人在您的网站上具有最高级别的活动。过滤到您要分析的特定也允许您了解搜索机器人是否与您想要排名的搜索引擎。

顶级爬行页面

正如我们所看到的,日志文件分析允许您查看机器人爬行的页面,哪个是顶级爬行的页面。这允许您验证页面与网站最重要的页面逐渐蔓延。您不希望爬行预算浪费在较低影响的页面上 - 确保Google爬行的页面是最高级的页面,具有最多的产品,并导致您和您组织最多的销售。

Googlebot IP.

最后,发现GoogleBot使用的IP地址用于爬网。验证GoogleBot是否正确访问了每种情况下的相关页面和资源。

结论

Bot日志文件可能需要从正确的团队收集数据,但一旦你将它们导入seoClarity,并将它们与你的其他SEO指标进行比较,你就离理解谷歌以及它如何理解你的站点又近了一步。