scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则

scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:setting文件中配置:#Obeyrobots.txtrules#默认是True,遵守robots.txt文件中的协议,遵守允许爬取的范围。#设置为False,是不遵守robo协议文件。。。ROBOTSTXT_OBEY=True观察代码可以发现,默认为True,就是要遵守rob…

大家好,又见面了,我是你们的朋友全栈君。

在scrapy中创建项目以后,在settings文件中有这样的一条默认开启的语句:

setting文件中配置:

# Obey robots.txt rules

#默认是True,遵守robots.txt文件中的协议,遵守允许爬取的范围。
#设置为False,是不遵守robo协议文件。。。
ROBOTSTXT_OBEY = True

观察代码可以发现,默认为True,就是要遵守robots.txt 的规则,那么 robots.txt 是个什么东西呢?

通俗来说, robots.txt 是遵循 Robot协议 的一个文件,它保存在网站的服务器中,它的作用是,告诉搜索引擎爬虫,本网站哪些目录下的网页 不希望 你进行爬取收录。在Scrapy启动后,会在第一时间访问网站的 robots.txt 文件,然后决定该网站的爬取范围。

当然,我们并不是在做搜索引擎,而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以,某些时候,我们就要将此配置项设置为 False ,拒绝遵守 Robot协议 !

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/131859.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Android service ( 一 ) 三种开启服务方法

    Android service ( 一 ) 三种开启服务方法一、Service简介Service是android系统中的四大组件之一(Activity、Service、BroadcastReceiver、ContentProvider),它跟Activ

  • 海思35xx实现GT911触摸屏功能「建议收藏」

    海思35xx实现GT911触摸屏功能「建议收藏」海思35xx通过gpio模拟i2c实现GT911触摸功能1.遇到的问题地址选配后一直不对,首先检测硬件问题,然后通过调试驱动部分,打印调试从设备给的ack(没有逻辑分析仪);发现寄存器地址一直为FF或00,检查发现GT911地址均为16bit,而读写i2c接口是8位的;成功后点击触摸板点击位置与实际不一致;可以进行坐标转换;2.网上下载GT91xx编程指南文件电容触摸芯片GT911Datasheet文件3.Datasheet分析(1)gpio模拟时,可能需要注意这个延时时间;

  • java中文乱码终极解决方案

    java中文乱码终极解决方案转载自这篇文章简单描述:1、get方式乱码:tomcat的server.xml中加URIEncoding="UTF-8"2、post方式乱码:使用过滤器即可解决3、log4j在linux下显示乱码解决方法:log4j配置文件中加一句话即可解决:log4j.appender.logfile.encoding=UTF-8字符集的详细分解:1.概述本文主要包括以下几个方面:编码基本知识,jav…

  • 有序的四字成语_LinkedHashMap

    有序的四字成语_LinkedHashMapHashMap是无序的,HashMap在put的时候是根据key的hashcode进行hash然后放入对应的地方。所以在按照一定顺序put进HashMap中,然后遍历出HashMap的顺序跟put的顺序不同(除非在put的时候key已经按照hashcode排序号了,这种几率非常小)单纯的HashMap是无法实现排序的,这的排序是指,我们将键值对按照一定的顺序put进HashMap里,然后在进行

  • insert into select 和 insert into values区别「建议收藏」

    insert into select 和 insert into values区别「建议收藏」INSERTINTOSELECT语句:从一个表复制数据,然后把数据插入到一个已存在的表中。将一个table1的数据的部分字段复制到table2中,或者将整个table1复制到table2中,这时候我们就要使用SELECTINTO 和 INSERTINTOSELECT 表复制语句了。1.INSERTINTOSELECT语句语句形式为:InsertintoTable2(field1,…

  • Java中的this关键字(三种用法)

    Java中的this关键字(三种用法)this关键字的三种用法:通过this关键字可以明确的访问一个类的成员变量,解决与局部变量名称冲突问题通过this关键字调用成员方法在构造方法中访问构造方法使用this([参数1,参数2,…])

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号