Robots.txt是放一些网站上不想让搜索引擎抓取收录的文件,需要我们自己知道网站哪些文件是不想被收录的,比如一般网站的后台就没有必要收录以及会员信息页面等。小编通过以下五点来和大家分享是的Robots搜索引擎协议写法和注意事项。
一,什么是Robots协议?
1>网站和搜索引擎的协议文件
2>蜘蛛爬行网站的第一个要访问的文件
二.Robots有什么作用?
1>屏蔽网站内的死链接。
3>屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。
3>阻止搜索引擎索引网站隐私性的内容
三.Robots语法:
1>User-agent定义搜索引擎类型:
(1)百度蜘蛛:Baiduspider
(2)谷歌蜘蛛:Googelebot
(3)360蜘蛛:360Spider
(4)Soso蜘蛛:Sosospider
(5)有道蜘蛛:YoudaoBot
(6)搜狗蜘蛛:SohpiNews Spider 等
2>Disallow禁止抓取收录地址:
(1)禁止整站:写法 User-agent: Baiduspider Disallow: /
(2)禁止一个文件夹:写法 User-agent: Baiduspider Disallow: /data
(3)禁止文件:写法 User-agent: Baiduspider Disallow: /jianzhan/list_1.html
(4)禁止动态路径: 本来是动态路径,后面又修改成静态路径,导致两个不同路径同时能访问一个页面,我们可以把动态路径禁止,动态链接的一个标准符号就是“?”因此禁抓动态Url命令写作:Disallow: /*?*
3>Allow定义抓取收录地址:写法 Allow: /data/common.inc.php
4>语法符合:
(1)/单个符合搜索引擎认为是根目录:写法:Disallow: /*.php$
(2)*能匹配0或者所有英文字符:自由主题
(3)$结束符
四.什么情况下用Robots
1>统一路径,动态和静态 www.wglseo.com/
2>搜索链接
3>标签链接
4>中文链接
5>根据情况,不想让网站收录的文件,隐私文件,会员注册等
五.使用Robots注意事项
1>符合使用的细节[/ : 空格 大小写]
2>生效时间[几天或者两个月以内]
3>不要随便屏蔽整站