【SEO教程】robots.txt蜘蛛协议的正确写法(实战应用)

  Robots协议通常被用来告知搜索引擎蜘蛛网站上哪些内容允许被爬行抓取,哪些文件不允许抓取和收录;因此Robots协议可以用来屏蔽掉网站的死链接和一些网站中占用资源比较大的文件,如:图片,音频,视频等等,可以有效的节省服务器带宽和帮助蜘蛛合理分配抓取配额,方便搜索引擎抓取网站内容;此外,在robots.txt中设置网站地图连接,也可以方便引导蜘蛛在各个页面之间的爬行和抓取。

  

  文件写法:

  User-agent: *     这里的*代表的所有的搜索引擎种类,*是一个通配符

  Disallow:           不允许抓取

  Allow:                允许抓取

                        目录

  Sitemap:网站地图   告诉爬虫这个页面是网站地图

  

  举例:

  User-agent: *                    此协议适用于所有搜索引擎

  User-agent: Baiduspider  此协议仅针对百度搜索引擎

  User-agent: Googlebot    此协议仅针对谷歌搜索引擎

  

  Disallow: /ABC/               这里定义是禁止爬取ABC目录下面的目录

  Disallow: /ABC/*.htm       禁止访问/ABC/目录下的所有以".htm"为后缀的URL(包含子目录)。

  Disallow: /*?*                   禁止访问网站中所有包含问号 (?) 的网址

  Disallow: /.jpg$                禁止抓取网页所有的.jpg格式的图片

  Disallow:/ab/adc.html       禁止爬取ab文件夹下面的adc.html文件。

  

  Allow: /ABC/                这里定义是允许爬取ABC目录下面的目录

  Allow: /ABC                    这里定义是允许爬取ABC的整个目录

  Allow: .htm$                   允许抓取以".htm"为后缀的文件。

  Allow: .gif$                     允许抓取gif格式图片

  

  注意:

  Disallow:   等同于 Allow:/  可以理解为:不允许抓取的内容为空 等同于 允许抓取根目录下的所有文件

  Allow:    等同于 Disallow:/ 可以理解为:允许抓取的内容为空 等同于 不允许抓取根目录下的所有文件

内容版权声明:除非注明,否则皆为SEO博客原创文章。

姜成SEO技术交流群

转载注明出处:https://www.seoblogs.cn/seojc/2018662.html

跟大家分享一下你的看法吧!
  • 全部评论(0
    还没有评论,快来抢沙发吧!