伤害SEO的8个爬行性问题

您已研究高价值目标关键字并创建相关内容，但您的网站没有流量。怎么了？

它甚至可能不是内容本身，而是网站的技术可用性因素。的最常见的技术SEO问题搜索引擎蜘蛛遇到涉及爬行该网站。

爬联性问题可以汇总任何SEO努力 - Googlebot需要正确爬网并索引您的网页，以便您的网页毕竟在搜索结果中排名。

除了你的网站不会被搜索引擎抓取之外，这些技术性的SEO问题可能也会影响用户体验。例如，如果蜘蛛不能跟踪你的网站路径，你的用户也不是．

更不用说，重要的是你的网站可以有效地爬行优化爬行预算．

如何检查一个网站是否可爬行

爬虫可以检测潜在的爬虫性问题，让你提前他们，所以没有问题的搜索引擎阅读和索引你的内容。我们建议您运行两种类型的爬行使用爬虫工具：

1.从主页开始的站点爬行。让爬虫在网站上模拟谷歌的网络爬虫(Googlebot)。

2.SEO的着陆页面爬行，理想地与XML站点对齐。

来自这些爬行的数据将有所帮助诊断爬行问题并提示你你的页面是否可以爬行。

更多的洞察力将来自更多的爬虫，进一步的变量，例如将用户代理设置为GoogleBot，是一个移动设备，以查看移动体验，呈现JavaScript而不是仅仅是HTML。

（您可以通过保存这些设置和调度将来来节省时间，重复爬网。）

跟随我们的企业网站爬行指南，或者请求一个免费的网站审核来检查你的网站的技术完整性。

如何检查爬网错误

来自企业级站点的抓取报告可以返回大量数据。这些网站可能包含数千甚至数百万个页面!

不过，并非所有的爬行错误都有同样的分量。我们将抓取问题分为三类(高、中、低优先级)，这样您就可以按照优先级排序(并解决)影响站点可抓取性的问题。

高优先级的爬行问题

＃1。由robots.txt阻止的URL

机器人在你的网站上寻找的第一件事就是你的robots.txt文件．您可以通过指定“禁止”您不希望它们爬网的页面指定GoogleBot。

用户代理：GoogleBot

禁止：/例如/

这通常是导致站点可爬性问题的原因。这个文件中的指令可能会阻止谷歌抓取最重要的页面，反之亦然。

怎么找：

谷歌Search Console -谷歌Search Console blocked resource report显示了一个主机列表，它提供了被robots.txt规则阻止的站点上的资源。
抓取-分析上面列出的抓取输出。通过robots.txt文件识别标记为被阻止的页面。

这些可能会源于正则表达式代码或拼写错误的错误。

＃2。服务器（5xx），未找到（404）错误

就像被阻塞一样，如果谷歌到达页面并遇到这些错误，这将是一个大问题。网络爬虫通过跟随链接在网络中旅行。一旦爬虫进入404或500错误页面，机器人就会进入死胡同。当机器人遇到大量错误页面时，它最终会放弃爬行页面和站点。

怎么找：

谷歌搜索控制台-谷歌搜索控制台报告它遇到的服务器错误和404(也就是坏链接)。获取和渲染工具也可以作为一个有用的点解决方案。
分析定期的服务器错误抓取的输出。还要注意一些问题，比如重定向循环和元刷新，以及最终谷歌无法访问页面的所有其他情况。

＃3。SEO标签错误

寻找与谷歌指令的标签的问题：规范或hreflang来命名几个。这些标签可能会丢失，不正确或重复，可能会令人困惑的爬虫。

怎么找：

谷歌搜索控制台-这些问题可能会出现在谷歌搜索控制台，但不会被解释为错误。例如，如果一个网站因为缺少一个规范的标签而有重复的内容，搜索引擎将尝试对这些页面建立索引。在GSC中，“索引的页面数量”将会上升，这本身并不是一个“错误”。标签问题通常出现在GSC的“HTML改进”和国际部分。
分析任何缺失或不正确的爬网输出。特别注意SEO的主要着陆页。为每个页面的关键元素记录（例如“noindex”等指令）您希望看到。

注意:平台用户可以设置规则，在“高优先级”规则(如“检测到Noindex”)标记的元素中提取更改，这些元素不应该有更改，并可能对站点产生重大影响。这是站点审计技术如何扩展SEO任务的一个很好的例子。

推荐阅读:SEO中的爬行深度:如何提高爬行效率

Mid-Priority爬行问题

# 4。呈现的问题

谷歌呈现JavaScript的能力正在提高，尽管渐进增强仍然是推荐的方法(所有内容都将出现在HTML源代码中)，但当需要体验搜索者在页面上找到的内容时，谷歌现在所做的完全呈现页面的方式是有用的。

怎么找：

谷歌搜索控制台-获取和渲染工具。如果“呈现的”版本不包含页面上的重要内容，那么可能有一个问题需要解决。这也应该与页面的缓存版本相匹配。
分析JS渲染爬网的结果 - 可能会有概述的爬网概念（缺少内容，破坏链接等）。这是一个很好的文章，有关更多关于优化SEO的JavaScript．

# 5。技术问题的重复内容(蜘蛛陷阱)

某些问题源于谷歌或其他搜索引擎，而不是由于编码设置而不知道索引的内容的内容。示例包括URL，会话ID，冗余内容元素和分页中具有许多参数的页面。

怎么找：

Google Search Console - 有时会有一些警报“太多的URL”或类似语言，当谷歌相信它遇到更多的URL和内容而不是它应该是。检查消息并确保您也将它们作为电子邮件。
爬行结果-网络爬行将通过几种方式识别这些结果。最明显的是在标题标签或标题标签等区域中重复或丢失值——可能是内部搜索页面或产品类别过滤器没有更新元标签。看起来无法识别的url(例如带有参数或额外字符)也可能是一个问题。这些页面可能会产生问题，因为它们创建的工作超过了谷歌访问和索引优先级页面所需的工作量。

在您的网站上找到这些实例，查找要删除页面的创建的方法，调整Google的访问权限，或检查它们是否具有正确的标记，例如规范，NoIndex，Nofollow以确保它们不会干扰您的目标着陆页面。

推荐阅读:技术SEO:优化SEO任务的最佳实践

低优先级爬行问题

＃6。站点结构和内部链接

一个网站如何在相关的文章之间相互链接对于索引是很重要的。一个页面是一个清晰的网站结构的一部分，并且在内容内是相互链接的，对索引没有什么障碍。

怎么找：

分析——检查你的网站的分析，以确定用户是如何通过网站的。通过链接相关内容，找到吸引他们的方法。留意那些跳出率高的页面，这些页面可能需要更清晰地推送更多内容。
分析先进的抓取功能，显示多少内部链接，一个单独的页面已经指向它。查看表现最好的页面，了解网站链接到这些页面的方式。

在这个步骤中要注意最佳实践元素，比如没有内部301重定向、正确的分页和完整的站点地图。

推荐阅读:如何创建站点地图并提交到谷歌

# 7。手机可用性

移动可用性是SEO的关键优先级区域，其中谷歌的移动第一索引的推出。如果该站点被视为移动设备无法使用，谷歌可能会在SERP中删除它们，这将导致流量丢失。

怎么找：

Google Tools - 在Google移动友好测试仪工具中测试您的钥匙登陆页，并监控Google搜索控制台中的移动问题。
分析移动爬网关系 - 查看爬网ran作为移动设备的输出，并确保出现网站的内容。如果您希望发现的内容丢失，则应在此出现移动导航或可用性的任何问题。

＃8。薄的内容

如果确认你的网站没有上面提到的问题，但仍然没有索引，你可能有“瘦内容”。谷歌知道这些页面，它只是认为它们不值得索引。这些页面上的内容可能是样板文件或在你的网站上的其他地方，或者只是不够独特，或者看不到来自新闻网站或其他行业网站的外部信号来验证内容的价值或权威，即没有链接到它。

怎么找：

分析网站没有谷歌索引的内容(可以通过目标登陆页面没有收到流量来代理)，并查看该页面的目标查询。基于关键词研究刷新内容或创建新内容，以提供更好的价值。

结论

一个没有爬虫问题的网站是一个很好的地方。实现这一目标的网站可以从谷歌和其他搜索引擎获得相关流量，专注于改善搜索体验，而不是修复问题。这并不容易，特别是当您有有限的时间用于处理这些可爬虫性问题时。发现和解决这些问题需要很多人的努力——从一个网页设计团队，到开发人员，内容作者和其他利益相关者。这就是为什么找出影响你表现的最重要的问题并制定计划和标准来抑制未来的任何问题是很重要的。

了解更多关于清晰审计，我们的现场审计技术其中包括内置的JS和HTML爬虫，以及它如何执行识别您网站的智能问题和技术健康检查，以确保完整的网站优化。

编者按:这篇文章最初发表于2018年5月，并已更新准确性和全面性。

全企业平台+支持

排名

关键字研究

内容营销

搜索引擎优化报告

技术SEO

竞争对手的见解

伤害SEO的8个爬行性问题

如何检查一个网站是否可爬行

如何检查爬网错误

高优先级的爬行问题

＃1。由robots.txt阻止的URL

＃2。服务器（5xx），未找到（404）错误

＃3。SEO标签错误

Mid-Priority爬行问题

# 4。呈现的问题

# 5。技术问题的重复内容(蜘蛛陷阱)

低优先级爬行问题

＃6。站点结构和内部链接

# 7。手机可用性

＃8。薄的内容

结论

喜欢你读到的东西吗?

获得最新的搜索引擎优化趋势，新闻和建议，就在你的收件箱

评论