现场审计是SEO的重要组成部分。定期抓取和检查你的网站,以确保它是可访问的,可索引的,并已正确执行所有的SEO元素,可以在提高用户体验和排名方面有很长的路要走。

然而,高效、高效地爬行企业网站一直是一个挑战。其目的是运行在合理时间内完成的爬行,而不会对站点的性能产生负面影响。

推荐阅读:最佳搜索引擎优化审计清单模板,以提高搜索能见度和排名

抓取企业网站的挑战

企业网站正在不断更新。要跟上这些站点的变化,您需要定期对站点进行审计。网站审计有助于识别网站的问题,定期运行它们有助于拍摄网站的快照,这些快照随着时间的推移会变得越来越流行。

但是在企业网站上运行爬行可能会很困难。毕竟,它有许多内在的困难:数百万的url,时间和资源可能会受到限制,爬行结果过时(例如,如果爬行需要很长时间运行,那么在它完成时事情可能已经改变了),等等。然而,这些挑战不应该阻止您定期爬行您的网站。它们只是你可以学习和优化的障碍。

事实上,你需要爬网的原因有很多:

  • 确保所有SEO技术要素的正确实施。拥有一个爬虫程序,它不仅可以抓取您的站点,而且还可以为您提供页面上和页面外问题的列表,这是至关重要的。
  • 可以像谷歌机器人一样抓取网站的爬虫程序。这有助于您预先了解您的站点如何显示给搜索引擎。
  • 运行爬行前后迁移是一个伟大的方式,以确保网站变化不影响搜索引擎的能见度。
  • 审核网站的特定元素,如图片、链接、视频等,以确保网站上的信息是相关的。
  • Hreflang,如果你的网站是全球性的,确保你的网站的正确版本和语言显示基于用户访问它的地方。
  • 规范审计,以确保您的网站首选页面是可索引的,并可访问的搜索引擎和用户。

推荐阅读:SEO爬虫性问题和如何找到它们

爬行企业网站时要注意什么

在你跑爬泳之前,你需要问自己一些问题,这样你才能克服上面列出的挑战。也就是说,爬行不会干扰您的站点的操作,并提取所有您需要的与您相关的信息。

#1.我应该运行JavaScript爬行还是标准爬行?

在设置爬行时,有两种选择来确定爬行类型:标准爬行或JavaScript爬行。

标准爬行只爬行页面的源代码,这意味着只爬行页面上的HTML。这种类型的爬行速度很快,并且是推荐的方法,特别是当页面上的链接不是动态生成的时候。

另一方面,JavaScript爬行会像在浏览器中一样等待呈现页面。它们比常规爬行慢得多,所以应该有选择地使用。但这些年来,越来越多的网站开始使用JavaScript,所以JavaScript爬行可能是必要的。

谷歌从2008年开始抓取JavaScript,所以谷歌能够抓取这些页面并不是什么新鲜事。然而,问题是谷歌无法从JavaScript页面收集大量信息,这限制了页面在HTML网站上呈现和查找的能力。然而,现在谷歌已经进化了。在过去的一年中,使用JavaScript的站点开始看到更多的页面被抓取和索引,这显然意味着谷歌正在改进它对这种语言的支持。

确定爬行的类型是需要考虑的最重要的事情之一。

如果您不确定在您的站点上运行哪种类型的爬行,您可以禁用JavaScript并尝试导航站点及其链接。注意:有时JavaScript仅限于内容而不是链接,所以在这种情况下,可以设置一个常规的爬行。

您还可以检查源代码,并将其与呈现页面上的链接进行比较,在Chrome中检查站点,或运行测试爬行,以确定哪种类型的爬行最适合您的站点。

# 2。我应该爬多快?

通常,爬行速度是以每秒爬行页面数来衡量的,它是对站点的同时请求数。

我们推荐快速爬行——爬行的时间越长,爬行结束时的结果就越老。(记住爬行企业SEO网站的挑战之一就是爬行的陈腐性。)你应该在网站允许的范围内尽可能快地爬行。也可以使用分布式爬行(即使用多个节点和独立的IP对你的站点运行多个并行请求的爬行)。

但是,了解站点基础设施的功能是很重要的。

爬行速度过快会对站点的性能产生负面影响。但也要记住,没有必要抓取你网站上的所有内容——下面会有更多内容。

# 3。我什么时候该爬?

虽然你可以在任何时间进行爬泳,但最好是在非高峰时间或几天内进行。计划您的爬行是特别有用的,因为您可以设置爬行自动运行在这些时间。当网站的流量较低时对网站进行爬行,意味着爬行减慢网站基础设施速度的可能性更小。如果在高流量时发生爬行,如果站点受到负面影响,网络团队可能会对爬行程序进行限速。

您还能够识别问题并报告定期重复爬行的长期成功。

推荐阅读:什么是最好的网站审计和爬虫工具?

# 4。我的网站是否阻止或限制外部爬虫程序?

许多企业网站会屏蔽所有外部的爬虫程序,所以您必须在爬虫之前消除任何潜在的限制。您需要确保您的爬虫程序可以访问您的站点。

在seoClarity,我们运行了一个完全托管的爬行——对于爬行的速度和深度没有限制,所以我们建议使用白名单。我们看到爬行失败的首要原因是爬行器没有列入白名单。

# 5。我应该爬什么?

重要的是要知道,没有必要浏览每一页。

动态生成的页面变化非常频繁,以至于在爬行完成时,发现的内容可能已经过时了。

我们建议运行样本抓取。跨越不同类型页面的示例爬行通常足以识别站点上的模式和问题。您可以通过子文件夹、子域、URL参数、URL模式等来限制它。您还可以自定义抓取页面的深度和计数。在seoClarity中,我们设置了4个级别作为默认深度。

你也可以实现分段爬行。这涉及到将站点分解为代表整个站点的小部分。这提供了数据完整性和时效性之间的权衡。

通常不需要每次运行爬行程序时都抓取站点的每个页面。完整的站点抓取需要很长时间才能完成,并且可能对您试图实现的目标没有帮助。当然,在某些情况下,您确实希望爬行整个站点,但这取决于您的特定用例。

# 6。那么URL参数呢?

这是一个常见的问题,特别是如果您的站点有分面导航(即根据产品属性过滤和排序结果)——建议删除导致重复爬行的参数。

URL参数是传递给URL的单击信息,以便它知道如何操作。它们通常用于过滤、组织、跟踪和显示内容,但不是所有参数在爬行中都有用。它们可以成倍地增加爬行大小,所以在设置爬行时应该对它们进行优化。虽然您可以在爬行时删除所有URL参数,但不建议这样做,因为您可能会关心一些参数。

您可能已经将想要抓取或忽略的参数加载到搜索控制台。如果设置了这些信息,您可以发送给我们,我们也可以设置爬行。

seoClarity如何解决这个问题?

正如你所看到的,设置一个爬行器需要很多东西。你需要调整它,这样你就能得到需要⁠-将对你的搜索引擎优化工作有影响的信息。

幸运的是,seoClarity提供了我们的网站审计工具,清晰的审计,也就是完全成功的爬

我们与客户合作,并支持他们基于他们的用例设置爬行,以获得他们想要的最终结果。

“清晰审计”通过超过100个技术健康检查来运行每个爬行页面,更好的是,没有人为限制爬行。您可以完全控制爬行设置的每个方面,包括爬行内容、爬行类型(标准或JavaScript⁠)、爬行深度和爬行速度。我们帮助您优化和审计您的网站,从而有助于网站的整体可用性。

ClarityAudits -

我们的客户成功的经理还要确保你有你所有的SEO需求,所以当你设置爬行,任何潜在的问题或障碍被识别和处理。把你的客户成功经理作为你在seoClarity的主要联系人。

想要执行一个完整的技术现场审核,但不确定从哪里开始?使用这个免费现场审核清单来指导你完成这个过程的每一步,包括这篇文章所涵盖的信息。

结论

根据您的具体情况定制爬行非常重要,这样您就可以从您关心的页面获得您想要的数据。毕竟,大多数企业网站都太大了,所以只有在与您相关的网站上爬行才有意义。保持积极主动的爬行设置可以让您获得重要的见解,同时确保您在整个过程中节省时间和资源。seoClarity可以轻松更改爬行设置,使爬行与您独特的用例对齐。