摘要:Robots.txt是一个文本文件,作用是禁止或允许搜索引擎收录或不收录部分你指定的内容。 使用方法:新建文本文档命名为Robots.txt ,放在网站根目录即可。
1)什么是Robots.txt?
Robots.txt是一个文本文件,作用是禁止或允许搜索引擎收录或不收录部分你指定的内容。
2)Robots.txt如何起作用?
前面提到过搜索引擎的自动提取信息会遵循一定的算法,但是,无论算法如何,第一步都是在寻找这个文件。其含义是,“贵站对我们这些Robots有什么限制?”所谓的Robots就是搜索引擎派出的蜘蛛或者机器人。如果没有得到回应(没有找到这个文件),代表没有什么限制,尽管来抓取吧。如果真的有这个文件,机器人会读来看看,如果自己被拒绝就会停止抓取过程了。
使用方法:新建文本文档命名为Robots.txt
,放在网站根目录即可。
3)“Robots.txt”文件内容
1)禁止所有搜索引擎访问网站的任何内容
User-agent: *
Disallow: /
2)允许所有的robot访问(允许所有搜索引擎收录)
User-agent: *
Disallow:
3)禁止某个搜索引擎的访问(如禁止百度收录)
User-agent: baiduspider
Disallow: /
4)只允许某个搜索引擎的访问(如允许百度收录)
User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
5)只禁止搜索引擎访问某些目录
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /images/
注意:所有语句都是单规则的,即每行仅声明一条规则,比如例五中三个目录必须分三行列出来。
更多资料请访问:
http://www.robotstxt.org/wc/robots.html
原创文章,作者:极云坊,如若转载,请注明出处:《【教程】使用Robots.txt禁止搜索引擎收录》https://www.jyf.me/teach_robots.html