百度爬虫robots.txt文件规范[通俗易懂]

百度爬虫robots.txt文件规范[通俗易懂]robots.txt文件的格式 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:    “:” 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情

大家好,又见面了,我是你们的朋友全栈君。robots.txt文件的格式

 robots文件往往放置于根目录下,包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
        “<field>:<optional space><value><optionalspace>”

 在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干DisallowAllow,详细情况如下:
        User-agent:该项的值用于描述搜索引擎robot的名字。在“robots.txt”文件中,如果有多条User-agent记录说明有多个robot会受到“robots.txt”的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在“robots.txt”文件中,“User-agent:*”这样的记录只能有一条。如果在“robots.txt”文件中,加入“User-agent:SomeBot”和若干DisallowAllow行,那么名为“SomeBot”只受到“User-agent:SomeBot”后面的 DisallowAllow行的限制。

        Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。例如“Disallow:/help”禁止robot访问/help.html/helpabc.html/help/index.html,而“Disallow:/help/”则允许robot访问/help.html/helpabc.html,不能访问/help/index.html“Disallow:”说明允许robot访问该网站的所有url,在“/robots.txt”文件中,至少要有一条Disallow记录。如果“/robots.txt”不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

        Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL 是允许robot访问的。例如“Allow:/hibaidu”允许robot访问/hibaidu.htm/hibaiducom.html/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

        使用“*”and”$”
Baiduspider支持使用通配符“*”“$”来模糊匹配url
        “*” 匹配0或多个任意字符
         “$” 匹配行结束符。

最后需要说明的是:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

原文更详细

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/134590.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • YUV420 YUV420sp 图像格式「建议收藏」

    YUV定义:分为三个分量,“Y”表示明亮度(Luminance或Luma),也就是灰度值;而“U”和“V”表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。YUV格式:有两大类:planar和packed。YUV格式通常有两大类:打包(packed)格式和平面(planar)格式。对于planar的YUV格式,先连续存储所有…

  • linux redis端口修改端口,linux–redis的安装和配置和开启多个端口「建议收藏」

    linux redis端口修改端口,linux–redis的安装和配置和开启多个端口「建议收藏」在workerman开发过程中需要安装redis来存储用户ip、端口等信息首先UBUNTU中安装redis:apt-update//更新apt包源apt-getinstallredis-server//安装redis-server安装完毕后可以直接启动redis:redis-server因为后面没有加启动哪个配置文件,所以redis会自启动默认的配置文件然后我们来看下redis的文件分布…

  • pycharm如何打开终端_mac怎么打开终端窗口

    pycharm如何打开终端_mac怎么打开终端窗口Pycharm内打开终端

  • JAVA reference_Java instanceof

    JAVA reference_Java instanceof本文介绍对象的强、软、弱和虚引用的概念、应用。1.对象的强、软、弱和虚引用  在JDK1.2以前的版本中,若一个对象不被任何变量引用,那么程序就无法再使用这个对象。也就是说,只有对象处于可触及(reachable)状态,程序才能使用它。从JDK1.2版本开始,把对象的引用分为4种级别,从而使程序能更加灵活地控制对象的生命周期。这4种级别由高到低依次为:强引用、软引用、弱引用和虚引用。

  • 性别在数据库中的数据类型_mysql常用的数据类型有哪些

    性别在数据库中的数据类型_mysql常用的数据类型有哪些一:引擎引擎决定数据库存取数据的方式==>不同的特点==>不同的用户体验前提是:引擎是建表时规定,提供给表使用的,不是数据库二:创建表完整语法三:数据库模式sql_mode:反映

  • FPS游戏:实现GDI方框透视「建议收藏」

    FPS游戏:实现GDI方框透视「建议收藏」FPS游戏可以说一直都比较热门,典型的代表有反恐精英,穿越火线,绝地求生等,基本上只要是FPS游戏都会有透视挂的存在,而透视挂还分为很多种类型,常见的有D3D透视,方框透视,还有一些比较高端的显卡透视

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号