几年前,我拜访了一个客户,帮助他们解决一个恼人的SEO技术问题。

但正如我们开始通过问题的那样,我意识到他们有一个更大的挑战。

在会议期间,我注意到每个人都回到他们的Excel数据进行答案。因此,我估计了,我们必须浪费至少三分之一的时间只是试图找到信息。

那是很久以前的事了。

但对我的恐怖,我最近经历了相同的情况。这次,和另一家公司一起。

什么令人震惊了?这些SEO手动管理网址列表和相应的问题。今天。在软件和人工智能可以从背后负担的日子里。

但我想我理解为什么。这是无法为其需求选择合适的网站履带。在市场上有这么多解决方案,您如何知道哪一个可以提供您必须拥有的见解。

所以,在这篇文章中,我决定概述最关键的特征企业级网履带

让我们从顶部开始。

# 1。爬趋势数据

一个单一的网站抓取可以揭示难以置信的洞察力,以帮助提高你的搜索可见性。

当然,如果您定期运行网站审核,您会获得更好的结果。

但是当您开始比较爬网时,您会注意到有爬虫工具的充分利益。因为只有通过这样做,您可以跟踪您的网站如何随时间执行。

因此,Web履带者应该提供三件事的能力:

  • 定期报告。
  • 爬的比较数据。
  • 创建一个爬行计划(例如,每周,每月,等等)

Clarity_Audit_Report2-1

(在Seoclarity中爬网错误趋势报告)

#2。能够优化爬行速度和限制

履带审计网站需要的时间取决于爬行速度。但一见钟情,这似乎看起来像你没有控制的东西。

不对。

高级Web爬网允许您设置爬网速度并影响他们每秒检索的页数。

当您运行可能过载服务器的快速爬网时,该选项会有所帮助。

类似地,要提取更精确的信息,还应该能够指定爬行限制。

这个特性对企业站点特别有用。它允许你限制爬行每天访问1000个页面。这样做,可以防止它耗尽可用的服务器资源。

限制爬行的另一个原因是防止爬行程序访问它实际上不需要爬行的页面。限制其访问确保您不会浪费时间抓取对您不重要的url。

最后,我们的履带允许您暂停爬网,如果您注意到它会产生负面影响。

以下是这些控件在Seoclarity中的样子:

限制

请注意,爬虫程序允许我指定速度和定义爬行限制或审计之间的延迟。

#3。评估互连问题

具有强大内部链接结构的好处是无可辩驳的。

搜索引擎机器人使用内部链接来发现所有URL。更重要的是,清除网站架构可帮助用户找到更快的信息。

但是内部链接很容易出错。随着网站的成熟和发展,许多内部链接会断开。首先,您可能更改了一些url。甚至完全删除这些页面。其结果是一个令人困惑的体系结构,其中有许多死胡同。

稳固的抓取物将允许您监控和审核内部链接。它会报告破损的链接或不必要的重定向。它将帮助识别带有太多链接的页面。并建议那些互相控制的人。

内部链接分析(1)

内部链接分析

(Seoclarity中的交互报告)

# 4。报告影响搜索性能的SEO问题

为了实现其在搜索中的全部潜力,您想要等级的每个页面必须符合某些标准。

它需要有一个原始的元标题标记,包括目标关键字。您必须编写一个接合元描述,并将关键字添加到H1标题。同样,您必须优化页面的URL,添加相关内容,等等。

但是让我们面对它,有数千页来管理,很容易忽视其中一些问题。

所以,你需要一个可以为你识别它们的爬虫。

例如,seoClarity网站审计技术可以对页面进行40多个技术运行状况检查。然后,让你们确切地知道你们应该对它们分别做什么。

onpageissuesslist.

(Clarity Audit报告的一些问题。)

# 5。JavaScript爬行

通过这么多脚本,今天为网络提供推动,您也至关重要,以至于将页面完全作为搜索引擎分析。

例如,越来越多的网站依赖JavaScript来显示内容。结果,搜索引擎改善了他们的页面呈现。

对您来说,这意味着您使用的爬虫程序也必须爬行JS文件。毕竟,您必须能够判断谷歌是否能够正确地爬行和索引使用JS呈现的页面。

通过我们的爬虫,您可以评估谷歌可能遇到的JS相关问题与自己的JS履带赛。

JS.

(javascript在seoclarity中爬网设置)

事实上,在这个特性中,你可以:

  • 找出JavaScript修改的内容和链接是否正确呈现,以便搜索引擎索引。
  • 了解您的页面在启用和不启用JavaScript呈现时的可爬行性。
  • 检测JavaScript URL的变化,包括重定向,元重定向,JS位置。
  • 缓存爬行中找到的资源,以便服务器不会过载。

# 6。Hreflang审计

HReflang标记让您可以告诉一个搜索引擎,您的网站中的哪个网站基于他们的语言和位置最相关。通过这些信息,搜索引擎可以为用户提供服务的用户,以便在此语言中搜索信息。

您的爬网程序必须能够在每个页面上捕获Hreflang注释,然后验证它们是否正确并且不包含错误。

在我们的一个测试中,我们发现没有实现的HReflang标签的网站有较低的排名和较差的搜索能见度。

我们还注意到谷歌列出了错误货币的产品页面给我们客户。这是最有可能导致用户体验差,比这些页面的常见反弹率高。

一些HREFLANG相关问题包括:

  • hreflang标注的ISO代码不正确
  • 没有返回密钥标签或自我参考
  • hreflang指向相对网址
  • 结合Hreflang SiteMaps和Page标记方法
  • 缺少或错误的x-default
  • 向无索引页面添加Hreflang标记
  • 没有所需的语言代码,使用国家代码

#7。分页审计

分页有助于提高用户体验。它使浏览长产品类别更容易。它还简化了阅读长形文章。这些只是其中一些好处。

但演奏页面有时会出错。例如,您可以从任何后续页面指向串联中的第一页的rel = canonical标记。

在此实例中使用rel = consonical将导致页面2上的内容及其完全没有索引。

Seoclarity允​​许进行专用的分页爬网并验证用rel = prev / next指令发现的URL。

Pagination-1

(seoClarity中的分页抓取设置)

#8。爬行深度

您并不总是需要爬行整个网站。

您可能希望仅在特定级别上分析页面。或仅评估与特定类别相关联的页面

但是,对于此,您需要能够控制爬行深度。

使用此功能,您可以指定网站的深度应该是多么深。

例如,选择1将仅分析起始URL上的链接。指定深度一个级别更高会告诉爬虫还可以在1级等中找到审计链接。

类似地,您还可以将爬虫程序设置为仅访问站点地图中的url,或者甚至手工指定要爬行的内容。

深度

(在seoClarity中设置爬行深度)

#9。机器人活动

您可以仅根据机器人的活动来做出如此多的决定,这是正确的。服务器日志分析可以揭示网站的许多潜在问题,并发现机器人、排名和数据之间的相关性。

但如果您在欺骗机器人的活动中基于欺骗机器人,您的行为会产生不利影响。

这就是为什么,作为其现场审核的一部分,您的遗失者还应分析服务器日志,如果只是从报告中删除欺骗机器人。

例如,Bot Clarity让您识别搜索引擎爬行的错误和问题。除此之外,Bot Clarity报告还能让你识别出最受欢迎的页面,并将其与爬行率结合起来,从而优化你的爬行权益。

bot_clarity.

# 10。清除仪表板,让您立即对数据采取行动

坚固的Web履带器能够提供令人难以置信的信息。但是有一个抓住。

要采取行动,您需要快速访问该信息。否则,您可能会回到广场,必须通过无数数据筛选,以提取您寻求的洞察力。

这是清晰,可定制的仪表板派上用场的地方。

例如,清晰度审计,在单个仪表板中显示所有问题。通过这样做,让您立即开始在洞察力上行事,而不是必须浪费时间访问和分析它。

# 11。爬的比较

如果您管理企业级别站点,则最有可能运行大量爬网。要简单地监控爬网结果,您的工具应允许您将爬网报告并排进行比较。

执行此操作允许您确认在应用正确的优化后,确认您的问题计数正在减少。它还可以确认编辑元素,如您的标题标记和元描述,没有错误。

A.爬的比较报告让您保证您所做的工作实际上是有所作为,并在网站上登陆。

爬网比较用例 -  11月05-2020-10-56 -20-5-56
(并行两次爬行检测到的问题计数。)

结论

对于企业网站来说,能够进行高级的爬虫是不必要的。只有从技术的角度对站点有一个完整的看法,您才能在成千上万的页面中发现可能丢失的问题。

为此,您需要一个高级Web爬网程序,能够分析企业级别站点的问题。


编者按:这篇文章最初发布于2018年10月,并已更新准确性和全面性。