全站搜索 客户案例 新闻中心 未分类

网站SEO中robots文件的写法需要注意哪些内容

技术服务 网站SEO 网站SEO8020

搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。今天就给大家讲一讲比较实用的SEO技巧之robots.txt文件。

网站所有者使用/robots.txt文件向网络机器人提供有关其网站的说明; 这被称为机器人排除协议

工作原理

机器人想要访问网站,比如http://www.youngzi.cn。

在此之前,它首先检查http://www.youngzi.cn/robots.txt,robots.txt文件信息。

存在:搜索机器人就会按照该文件中的内容来确定访问的范围

不存在:搜索机器人就沿着链接抓取。

首先,在我们写robots之前,我们必须要知道,我们为什么要写它,这才是问题的核心,千万不要因为别人也写了你就也去效仿。robots,人称“君子协议”,是网站和搜索引擎之间的协议,搜索引擎在爬行到你网站时会第一时间爬行到这个文件,然后会根据你写的协议进行爬行和抓取。

robots文件写作步骤

在写文件之前,我们需要有以下的权限,可以上传文件到网站根目录,因为robots是放在网站根目录的。确认好我们有权限之后,先可以开始写了。首先创建一个TXT文件,命名为robots.txt。

打开文件第一步要写的就是User-agent:,这代表的是你需要什么搜索引擎抓取你的网站,例如User-agent:*,代表的需要所有搜索引擎、User-agent:Baiduspider,代表的百度可以抓。

那么怎么禁止所有搜索引擎抓取呢?这设计要后面的知识,这里先写出来,但不进行解释。User-agent:* Disallow:/。一般来说我们都是允许所有的抓取,如有特殊需要可以自己去斟酌。

在写好User-agent之后就是写具体的规则了,主要有两种:一种是allow和disallow也就是允许和不允许的意思。这个大家都能理解,我们的网站资源有限,有些东西没必要抓取的就是不用浪费带宽,例如JS和CSS文件,还有出于安全考虑,网站后台目录也是不允许被抓取的。disallow写法规则,禁止抓取某个目录 disallow:/目录/ 禁止抓取特定的文件 disallow:.php(.css .js) 禁止抓取图片 disallow:.jpg(图片格式)$。。。还有很多钟用法。在这里我们说明的是。并不是写的越多越好,要根据实际情况去写。

常用关键字段

User-Agent: 以下规则适用的机器人(例如“Googlebot”等)

Disallow: 您希望阻止机器人访问的页面(根据需要,禁止多行)

Allow: 不需要阻止机器人访问的页面

Noindex: 希望搜索引擎阻止和不要索引的页面(如果先前已建立索引,则将其解除索引)

细节注意事项

机器人可以忽略你的/robots.txt。特别是在网络上扫描安全漏洞的恶意软件机器人以及垃圾邮件发送者使用的电子邮件地址收集器将不予理睬。

/robots.txt文件是一个公开可用的文件。任何人都可以看到您不希望机器人使用的服务器部分。

robots.txt必须放置在一个站点的根目录下(后面说),而且文件名必须全部小写。

如果”robots.txt”是一个空文件,则对于所有的搜索引擎robot,该网站都是开放的。

第一个英文要大写,冒号是英文状态下,冒号后面有一个空格

如果“/”后面多了一个空格,则屏蔽整个网站

行前不能有空格,如 [空格][空格][空格] User-agent: *

禁止把命令放在一行,像这样:User-agent: * Disallow:/

生效时间为几天~几个月

该文件放在那里

简单说,只需要放置在web服务器顶级目录中。

当机器人查找URL的“/robots.txt”文件时,它会从URL中剥离路径组件(来自第一个单斜杠的所有内容),并将“/robots.txt”放在其位置。

例如,对于“ http://www.baidu.com/shop/index.html” ,它将删除 /shop/index.html “,并将其替换为” /robots.txt “,最终将以“http://www.baidu.com/robots.txt”。

因此,需要将其放在Web服务器上的正确位置,以便生成该URL。通常,这是您放置网站主要“ index.html ”欢迎页面的位置。究竟是什么,以及如何将文件放在那里,取决于Web服务器软件。

注意:使用全文小写作为文件名:“ robots.txt ”,而不是“ Robots.TXT。

最后就还有一个小技巧了,那就是写入sitemap地址。我们都知道百度不会给小站开通sitemap权限,所以我们可以在这里写上。一般我们在根目录存放好sitemap,格式一般都是XML也有TXT的,写法如下:Sitemap:http://www.jxfzseo.com/(网站名)sitemap.xml.

上一篇: 下一篇:

相关推荐

您好!请登录

点击取消回复
    展开更多
    0

    客官请稍后,玩命加载中!