\r\n

烟台网站建设

详解Robots文件的妙用

robots.txt是一个纯文本文件,我们用 来告诉各个搜索引擎网站中不想被蜘蛛抓取或访问的部分,当蜘蛛 访问一个站点时,它会先 检查该站点是否有robots. txt文件

robots.txt是一个纯文本文件,我们用 来告诉各个搜索引擎网站中不想被蜘蛛抓取或访问的部分,当蜘蛛 访问一个站点时,它会先 检查该站点是否有robots. txt文件,一般我 们放在根目录下,如果找到,蜘蛛就 会根据文件中的内容来确定要抓取的范围,如果这个文件不存在,那么蜘 蛛就会继续沿着链接去抓取,也就是 只有要禁止抓取某些内容时,写robots文件才有意义。


robots.txt通常我 们放在站点的根目录,我们应 该都知道根目录是什么意思,这里不多做解释,文件名要全部小写,如果你想查看网站的robots协议,直接在域名后面加上robots.txt回车即可,下面介绍robots的语法。

(1) User-agent

指定robots.txt中的规 则针对哪个搜索引擎蜘蛛,如果针 对所有搜索引擎蜘蛛的写法是 User-agent:*,通配符*代表所有搜索引擎。如果只是百度蜘蛛,那么正确写法是 User-agent::Baiduspider,不同的 搜索引擎蜘蛛的名称也不相同。


(2) Allow

允许蜘 蛛抓取某些文件,比如允 许蜘蛛访问网站中的news目录,正确写法是:Allow:/news/。

$:表示匹配URL结尾的字符,比如允许蜘蛛抓取以.html为后缀的URL,写法是:Allow:html$。


(3) Disallow

告诉搜 索引擎蜘蛛不要抓取这些文件或目录,比如禁止蜘蛛抓取/admin/目录的写法是:Disallow:/admin/。


对于搜索引擎来说,爬行和 抓取一个网站的内容时,首先会 优先的爬行和读取网站robots文件,搜索引擎根据robots文件进 行判断哪些文件是可以抓取的,哪些文 件是不可以抓取的。如果一个网站的robots文件在 一段时间内反反复复的添加和修改里面的文件和目录,搜索引 擎每次来抓取网站内容时,网站的robots文件规则都不一样,搜索引 擎则会陷入迷茫,网站已 经的收录的内容现在又要禁止收录,一些禁 止收录的网站内容,现在又要进行收录,导致搜 索引擎又要重新放弃已经收录的网站内容来重新收录网站之前被禁止的内容。这样做 的结果直接导致一个网站被搜索引擎收录或禁止爬行抓取网站的内容不明确,搜索引 擎视为不信任的站点将进行直接降权处理。
烟台新 概念网络专注全屏自适应HTML5响应式 网站建设与互联网品牌整体解决方案 咨询电话:13305454474
标签:烟台网站优化 烟台维护推广
友情链接:    鐪熶汉妫嬬墝鍦ㄧ嚎娓告垙骞冲彴-瀹樼綉骞冲彴鎵嬫満app     浜戦紟妫嬬墝浠g悊