关注我们

【达州seo】网站为什么要设置robots协议?

河北SEO河北SEO SEO技术 2018-05-29 816 0

  【达州seo】网站为什么要设置robots协议?我们知道一般在网站的根目录下会设置robots.txt这样一个文件,其实robots.txt算是互联网上的一个协议,robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。

  robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(robots Exclusion Protocol),网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。

【达州seo】网站为什么要设置robots协议?

  当然我们看到并不是所有的网站都存在robots协议,所以robots协议是可有可无的,这么说来是不是并不是很重要呢?其实并不是这样的。

  其实robots协议在最开始设立的时候最主要的就是为了保护网站内部的信息,保护服务器流量的平衡。这也是因为在互联网发展早期,搜索引擎还没有为网站带来明显的商业价值,搜索引擎爬虫也没有受到网站的普遍欢迎,这是为什么呢?其实也是有着以下几个原因:

  一、快速抓取导致网站过载,影响网站正常运行;

  二、重复抓取相同的文件,抓取层级很深的虚拟树状目录,浪费服务器资源;

  三、抓取网站管理后台等内部敏感信息,或抓取临时文件等对用户没有价值的信息;

  四、抓取会对投票等CGI脚本造成负面影响,可能出现虚假的投票结果。

  robots协议正是针对搜索引擎爬虫的这些弊端而设计的约束措施。对于网站来说,设置robots协议主要有三个目的:

  一、首先是保护网站内部信息不被搜索引擎爬虫抓取;

  二、引导爬虫不要抓取对用户没有价值的信息;

  三、为了保护中小网站的流量平衡,避免爬虫快速抓取给网站服务器带来过大压力。

  PS:当然一般的来说网站中会不然搜索引擎抓取到重要的文件或资料就会通过robots协议来判断,但是我们之前就说到有的网站并没有设置robots协议,这也是因为这些网站希望自己的网站内容能够更快、更全面地被搜索引擎收录,并展现在搜索结果的前列。


版权声明

1,本站转载作品(包括论坛内容)出于传递更多信息之目的,不承担任何法律责任,如有侵权请联系管理员删除。
2,本站原创作品转载须注明“稿件来源”否则禁止转载!

喜欢0发布评论

评论列表

发表评论

  • 昵称(必填)
  • 邮箱
  • 网址
  • 验证码(必填)