scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则

全栈程序员-用户IM • 2022年6月11日下午7:16 • 未分类

scrapy中ROBOTSTXT_OBEY = False,不遵守Robot协议文件的规则在scrapy中创建项目以后，在settings文件中有这样的一条默认开启的语句：setting文件中配置：#Obeyrobots.txtrules#默认是True，遵守robots.txt文件中的协议，遵守允许爬取的范围。#设置为False，是不遵守robo协议文件。。。ROBOTSTXT_OBEY=True观察代码可以发现，默认为True，就是要遵守rob…

大家好，又见面了，我是你们的朋友全栈君。

在scrapy中创建项目以后，在settings文件中有这样的一条默认开启的语句：

setting文件中配置：

# Obey robots.txt rules

#默认是True，遵守robots.txt文件中的协议，遵守允许爬取的范围。
#设置为False，是不遵守robo协议文件。。。
ROBOTSTXT_OBEY = True

观察代码可以发现，默认为True，就是要遵守robots.txt 的规则，那么 robots.txt 是个什么东西呢？

通俗来说， robots.txt 是遵循 Robot协议的一个文件，它保存在网站的服务器中，它的作用是，告诉搜索引擎爬虫，本网站哪些目录下的网页不希望你进行爬取收录。在Scrapy启动后，会在第一时间访问网站的 robots.txt 文件，然后决定该网站的爬取范围。

当然，我们并不是在做搜索引擎，而且在某些情况下我们想要获取的内容恰恰是被 robots.txt 所禁止访问的。所以，某些时候，我们就要将此配置项设置为 False ，拒绝遵守 Robot协议！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/131859.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

ds1302实时时钟lcd1602显示_电子时钟单片机

ds1302实时时钟lcd1602显示_电子时钟单片机DS1302时钟模块LCD1602显示DS1302时钟模块相关介绍基本介绍时序图DS1302时钟模块相关介绍基本介绍DS1302可慢速充电实时时钟芯片包含实时时钟/日历和31字节的非易失性静态RAM。它经过一个简单的串行接口与微处理器通信。实时时钟/日历可对秒，分，时，日，周，月，和年进行计数，对于小于31天的月，月末的日期自动进行调整，还具有闰年校正的功能。时钟可以采用24小时格式或带AM（上午）/PM（下午）的12小时格式。31字节的==RAM==可以用来临时保存一

全栈程序员-用户IM
2022年10月26日
使用CCUserDefault 推断用户是否是第一次登陆系统及UserDefault全路径的获取「建议收藏」

使用CCUserDefault 推断用户是否是第一次登陆系统及UserDefault全路径的获取

全栈程序员-用户IM
2022年2月1日
Java的递归算法

Java的递归算法

全栈程序员-用户IM
2021年12月10日
ubuntu20.04安装opencv_opencv安装教程vs2019

ubuntu20.04安装opencv_opencv安装教程vs2019更新源 sudo apt update 安装相关包 sudo apt-get install build-essential cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev libjasper 报错：无法定位到 libj…

全栈程序员-用户IM
2022年8月18日
fastJson注解@JSONField 的作用及其效果「建议收藏」

【基于fastjson】如果你想让一个实体类里面的某些属性不参与转换成为json字符串，那么使用@JSONField就很舒服。废话不多说，我们看代码！！！！如：User实体类，我在age属性上面使用了这个注解@JSONFieldimportcom.alibaba.fastjson.annotation.JSONField;importjava.io.S…

全栈程序员-用户IM
2022年4月16日
URL Escape Codes 方便日后查询

URL Escape Codes 方便日后查询

全栈程序员-用户IM
2021年5月9日

发表回复

关注全栈程序员社区公众号