什么是robots.txt?
robots.txt是一个文本文件该网站管理员在他们的网站上创建和实施,通知搜索引擎爬虫(也称为机器人),网站上的网站上的页面或文件可以或无法爬网。
robots.txt文件是不是一种完全将网页脱离Google索引的方法。(如果这是您的目标,请使用NoIndex指令。)
该文件是REP或机器人排除协议的一部分。这些协议确定机器人在互联网爬网和索引内容中的方式。
robots.txt.xt.
例1
用户代理: *
允许:/
网站地图:http://www.example.com/sitemap.xml.
在上面的示例中,所有用户代理商都可以全部访问该站点。
例2.
用户代理: *
不允许: /
在上面的示例中,所有用户代理商不能访问网站。
其他例子
您可以在下面查看robots.txt文件的各种示例由谷歌解释。
如何查看robots.txt文件
大多数robots.txt文件可以通过去www.yoursite.com/robots.txt来查看。
这是一种查找Seoclarity域的方式:
![](http://www.hkyoyo.com/hubfs/Google%20Drive%20Integration/Robots.Txt%20Knowledge%20Base.png)
robots.txt文件指南
有各种各样的规范到robots.txt文件你应该知道。知道这将有助于您更好地了解robots.txt文件的创建。
格式和位置
使用您的文本编辑器创建文件时(不是文字处理器),请确保它能够创建UTF-8文本文件。
然后,跟随这些建议书因此,您可以正确实现您的文件:
- 文件名必须是“robots.txt” - 这也是敏感的
- 每个网站只允许一个robots.txt文件
- 文件必须位于网站主机的根目录
- 该文件可以应用于子域和非标准端口
- 使用HashTag Mark(即#)表示评论
- 包括在文件底部的站点地图的位置
句法
在开始之前创建robots.txt文件之前,您需要熟悉一些术语。
- 用户代理:您要抓取指令的特定Web爬网程序(通常是搜索引擎)。
- 禁止:用于告诉用户代理的命令不抓取特定的URL。每个URL只允许一个“禁止:”行。
- 允许:此规则(仅适用于GoogleBot)告诉Google的遗留程序,即使可能不允许其父页面或父子文件夹,我可以访问页面或子文件夹。
- 网站地图:这用于调用与URL关联的任何XML站点地图的位置。支持此命令的搜索引擎是谷歌,ask,bing和雅虎!
robots.txt文件的常见错误
虽然它们是非常有帮助的文件,但有一些可以逐渐变为困难的常见元素。
我们编制了一份名单普通robots.txt问题为了帮助您更好地了解文件的细微差别并防止任何可避免的错误。