【SEO教程】robots.txt蜘蛛协议的正确写法(实战应用)

搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。robots.txt对于任何一个从事SEO研究工作的人都是至关重要的,因为透过 robots.txt 我们可以直接与搜索引擎蜘蛛进行对话,告诉他们哪些可以抓取,哪些不可以抓取。

您可以在您的网站中创建一个纯文本文件robots.txt,robots是站点与spider沟通的重要渠道,站点通过robots文件声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

robots.txt文件放在哪里?

robots.txt文件应该放置在网站根目录下。

该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:

User-agent:

该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的 Disallow和Allow行的限制。

Disallow:

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。

如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

Allow:

该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

在robots.txt文件中设置网站地图

你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。

Sitemap: 网站地图地址/sitemap.xml

Robots.txt的顺序

蜘蛛协议中,Disallow 与 Allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。

引擎蜘蛛程序会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL,一个例子可以让你更清楚明白:

1.User-agent: *
2.Allow: /seoblogs/bbs
3.Disallow: /seoblogs/

这个情况下,蜘蛛seoblogs/bbs目录可以正常抓取,但seoblogs目录的其他文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分url。

我们对调下位置观察一下:

1.User-agent: *
2.Disallow: /seoblogs/
3.Allow: /seoblogs/bbs  

seoblogs目录出现在第二行,禁止抓取目录下的所有文件,那么第三行的Allow就无效,因为第一行中已经禁止抓取seoblogs目录下的所有文件,而 bbs目录正好位于seoblogs目录下,因此匹配不成功。

内容版权声明:除非注明,否则皆为SEO博客原创文章。

姜成SEO技术交流群

转载注明出处:https://www.seoblogs.cn/seojc/2018662.html

跟大家分享一下你的看法吧!
  • 全部评论(0
    还没有评论,快来抢沙发吧!