成功抓取企业站点指南

现场审计是SEO的重要组成部分。定期抓取和检查你的网站，以确保它是可访问的，可索引的，并已正确执行所有的SEO元素，可以在提高用户体验和排名方面有很长的路要走。

然而，高效、高效地爬行企业网站一直是一个挑战。其目的是运行在合理时间内完成的爬行，而不会对站点的性能产生负面影响。

抓取企业网站的挑战

企业网站正在不断更新。要跟上这些站点的变化，您需要定期对站点进行审计。网站审计有助于识别网站的问题，定期运行它们有助于拍摄网站的快照，这些快照随着时间的推移会变得越来越流行。

但是在企业网站上运行爬行可能会很困难。毕竟，它有许多内在的困难:数百万的url，时间和资源可能会受到限制，爬行结果过时(例如，如果爬行需要很长时间运行，那么在它完成时事情可能已经改变了)，等等。然而，这些挑战不应该阻止您定期爬行您的网站。它们只是你可以学习和优化的障碍。

事实上，你需要爬网的原因有很多:

确保所有SEO技术要素的正确实施。拥有一个爬虫程序，它不仅可以抓取您的站点，而且还可以为您提供页面上和页面外问题的列表，这是至关重要的。
可以像谷歌机器人一样抓取网站的爬虫程序。这有助于您预先了解您的站点如何显示给搜索引擎。
运行爬行前后迁移是一个伟大的方式，以确保网站变化不影响搜索引擎的能见度。
审核网站的特定元素，如图片、链接、视频等，以确保网站上的信息是相关的。
Hreflang，如果你的网站是全球性的，确保你的网站的正确版本和语言显示基于用户访问它的地方。
规范审计，以确保您的网站首选页面是可索引的，并可访问的搜索引擎和用户。

推荐阅读:SEO爬虫性问题和如何找到它们

爬行企业网站时要注意什么

在你跑爬泳之前，你需要问自己一些问题，这样你才能克服上面列出的挑战。也就是说，爬行不会干扰您的站点的操作，并提取所有您需要的与您相关的信息。

＃1.我应该运行JavaScript爬行还是标准爬行?

在设置爬行时，有两种选择来确定爬行类型:标准爬行或JavaScript爬行。

标准爬行只爬行页面的源代码，这意味着只爬行页面上的HTML。这种类型的爬行速度很快，并且是推荐的方法，特别是当页面上的链接不是动态生成的时候。

另一方面，JavaScript爬行会像在浏览器中一样等待呈现页面。它们比常规爬行慢得多，所以应该有选择地使用。但这些年来，越来越多的网站开始使用JavaScript，所以JavaScript爬行可能是必要的。

谷歌从2008年开始抓取JavaScript，所以谷歌能够抓取这些页面并不是什么新鲜事。然而，问题是谷歌无法从JavaScript页面收集大量信息，这限制了页面在HTML网站上呈现和查找的能力。然而，现在谷歌已经进化了。在过去的一年中，使用JavaScript的站点开始看到更多的页面被抓取和索引，这显然意味着谷歌正在改进它对这种语言的支持。

确定爬行的类型是需要考虑的最重要的事情之一。

如果您不确定在您的站点上运行哪种类型的爬行，您可以禁用JavaScript并尝试导航站点及其链接。注意:有时JavaScript仅限于内容而不是链接，所以在这种情况下，可以设置一个常规的爬行。

您还可以检查源代码，并将其与呈现页面上的链接进行比较，在Chrome中检查站点，或运行测试爬行，以确定哪种类型的爬行最适合您的站点。

# 2。我应该爬多快?

通常，爬行速度是以每秒爬行页面数来衡量的，它是对站点的同时请求数。

我们推荐快速爬行——爬行的时间越长，爬行结束时的结果就越老。(记住爬行企业SEO网站的挑战之一就是爬行的陈腐性。)你应该在网站允许的范围内尽可能快地爬行。也可以使用分布式爬行(即使用多个节点和独立的IP对你的站点运行多个并行请求的爬行)。

但是，了解站点基础设施的功能是很重要的。

爬行速度过快会对站点的性能产生负面影响。但也要记住，没有必要抓取你网站上的所有内容——下面会有更多内容。

# 3。我什么时候该爬?

虽然你可以在任何时间进行爬泳，但最好是在非高峰时间或几天内进行。计划您的爬行是特别有用的，因为您可以设置爬行自动运行在这些时间。当网站的流量较低时对网站进行爬行，意味着爬行减慢网站基础设施速度的可能性更小。如果在高流量时发生爬行，如果站点受到负面影响，网络团队可能会对爬行程序进行限速。

您还能够识别问题并报告定期重复爬行的长期成功。

推荐阅读:什么是最好的网站审计和爬虫工具?

# 4。我的网站是否阻止或限制外部爬虫程序?

许多企业网站会屏蔽所有外部的爬虫程序，所以您必须在爬虫之前消除任何潜在的限制。您需要确保您的爬虫程序可以访问您的站点。

在seoClarity，我们运行了一个完全托管的爬行——对于爬行的速度和深度没有限制，所以我们建议使用白名单。我们看到爬行失败的首要原因是爬行器没有列入白名单。

# 5。我应该爬什么?

重要的是要知道，没有必要浏览每一页。

动态生成的页面变化非常频繁，以至于在爬行完成时，发现的内容可能已经过时了。

我们建议运行样本抓取。跨越不同类型页面的示例爬行通常足以识别站点上的模式和问题。您可以通过子文件夹、子域、URL参数、URL模式等来限制它。您还可以自定义抓取页面的深度和计数。在seoClarity中，我们设置了4个级别作为默认深度。

你也可以实现分段爬行。这涉及到将站点分解为代表整个站点的小部分。这提供了数据完整性和时效性之间的权衡。

通常不需要每次运行爬行程序时都抓取站点的每个页面。完整的站点抓取需要很长时间才能完成，并且可能对您试图实现的目标没有帮助。当然，在某些情况下，您确实希望爬行整个站点，但这取决于您的特定用例。

# 6。那么URL参数呢?

这是一个常见的问题，特别是如果您的站点有分面导航(即根据产品属性过滤和排序结果)——建议删除导致重复爬行的参数。

URL参数是传递给URL的单击信息，以便它知道如何操作。它们通常用于过滤、组织、跟踪和显示内容，但不是所有参数在爬行中都有用。它们可以成倍地增加爬行大小，所以在设置爬行时应该对它们进行优化。虽然您可以在爬行时删除所有URL参数，但不建议这样做，因为您可能会关心一些参数。

您可能已经将想要抓取或忽略的参数加载到搜索控制台。如果设置了这些信息，您可以发送给我们，我们也可以设置爬行。

seoClarity如何解决这个问题?

正如你所看到的，设置一个爬行器需要很多东西。你需要调整它，这样你就能得到你需要⁠-将对你的搜索引擎优化工作有影响的信息。

幸运的是，seoClarity提供了我们的网站审计工具，清晰的审计，也就是完全成功的爬．

我们与客户合作，并支持他们基于他们的用例设置爬行，以获得他们想要的最终结果。

“清晰审计”通过超过100个技术健康检查来运行每个爬行页面，更好的是，没有人为限制爬行。您可以完全控制爬行设置的每个方面，包括爬行内容、爬行类型(标准或JavaScript⁠)、爬行深度和爬行速度。我们帮助您优化和审计您的网站，从而有助于网站的整体可用性。

ClarityAudits -

我们的客户成功的经理还要确保你有你所有的SEO需求，所以当你设置爬行，任何潜在的问题或障碍被识别和处理。把你的客户成功经理作为你在seoClarity的主要联系人。

想要执行一个完整的技术现场审核，但不确定从哪里开始?使用这个免费现场审核清单来指导你完成这个过程的每一步，包括这篇文章所涵盖的信息。

结论

根据您的具体情况定制爬行非常重要，这样您就可以从您关心的页面获得您想要的数据。毕竟，大多数企业网站都太大了，所以只有在与您相关的网站上爬行才有意义。保持积极主动的爬行设置可以让您获得重要的见解，同时确保您在整个过程中节省时间和资源。seoClarity可以轻松更改爬行设置，使爬行与您独特的用例对齐。

全企业平台+支持

排名

关键字研究

内容营销

搜索引擎优化报告

搜索引擎优化技术

竞争对手的见解