网站robots.txt写法及限制指令设置方法

原创 长街seo博客  2019-01-03 19:34:53  阅读 337 次 评论 0 条

Robots.txt文件是网站seo优化中非常重要的一个文件,当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。熟练运用robots文件可以帮助我们做好seo优化,下面长街seo博客就给大家介绍一下网站robots.txt写法及限制指令设置方法。

网站robots.txt写法及限制指令设置方法

一、什么是robots.txt文件

用于指令搜索引擎禁止抓取网站某些内容或者指定抓取网站某些内容的。

只有需要在禁止抓取某些内容时,robots.txt文件才有意义。robots.txt不存在或者是一个空文件意味着允许抓取网站上的所有内容。

注意:有些因服务器设置的问题,robots.txt文件不存在时会返回状态码“200”,而不是“404”状态码。这可能导致搜索引擎错误解读robots文件。因此为了避免此类情况的发生,即使你允许抓取网站上所有的内容,也要在网站根目录下放一个空的robots.txt文件。

二、robots.txt文件对网站有什么优点

1、疾速增加网站权重和拜访量;

2、制止某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;

3、为查找引擎供给一个简洁明了的索引环境

三、robots.txt文件由记录组成,记录之间以空行分开。

格式:<域>:<可选空格><域值><可选空格>

注意:记录之间应以空行分开。

四、robots.txt基本语法:

User-agent:指定规则适用于哪个蜘蛛(如:如百度是Baiduspider,谷歌是Googlebot或是其他搜索引擎)

Allow:允许抓取什么URL路径

Disallow:不允许抓取什么URL路径

通配符*代表所有搜索引擎

结束符$:表示以前面字符结束的u

注意:允许或禁止的目录或文件必须分开写,每个一行

五、实例分析

(1) 禁止所有搜索引擎抓取任何页面

User-agent: *

Disallow: /

(2)允许所有的搜索引擎访问网站的任何部分

User-agent: *

allow: /

(3)仅禁止Googlebot访问您的网站

User-agent: Googlebot

Disallow: /

也可换为其他搜索引擎

(4) 仅允许Googlebot访问您的网站

User-agent: Googlebot

allow: /

也可换为其他搜索引擎

(5)禁止spider访问特定目录

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

注意事项:1)目录要分别写。2)请注意最后要带斜杠。3)带斜杠与不带斜杠的区别。

(6)允许访问特定目录中的部分url:如:不抓取/ab/目录下的其他目录和文件,但允许抓取其中/cd/目录下的内容

User-agent: *

Disallow: /ab/

Allow: /ab/cd/

注:允许收录优先级要高于禁止收录。

(7) 禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

(8)禁止搜索引擎抓取网站上所有图片

User-agent: *

Disallow: /*.jpg$

Disallow: /*.jpeg$

Disallow: /*.gif$

Disallow: /*.png$

Disallow: /*.bmp$

(9)允许抓取以.htm为后缀的URL

User-agent: *

Allow: /.htm$

(10)禁止抓取所有htm文件

User-agent: *

Disallow: /*.htm

六、特殊情况

被robots文件禁止抓取的URL还是可能被索引并出现在搜索结果中。只要有导入链接指向这个URL,就会被搜索引擎搜索引擎识别出来有这个URL的存在,虽然不会抓取页面内容,但是索引库中会有这个URL的页面信息存在。通常以下面四种情况呈现出来。

(1)只显示URL,没有标题和描述

(2)显示开放目录或雅虎等重要目录收录的标题和描述

(3)导入链接的锚文字显示为标题和描述

(4)搜索引擎从其他地方获得的信息显示为标题和描述

其实很多情况呢,要具体分析,只有掌握了robots文件基本语法,才能合理正确的设置robots.txt文件。

robots.txt还可以让搜索机器人爬行时,不要浪费了服务器资源,增加了服务器的压力,因此我们可以用robots.txt告诉机器人集中注意力去收录我们的文章页面。增强用户体验。

本文地址:http://www.changjieseo.com/173.html
版权声明:本文为原创文章,版权归 长街seo博客 所有,欢迎分享本文,转载请保留出处!

发表评论


表情

还没有留言,还不快点抢沙发?