ROBOTSTXT_OBEY[通俗易懂]

ROBOTSTXT_OBEY[通俗易懂]爬虫协议,即robots协议,也叫机器人协议它用来限定爬虫程序可以爬取的内容范围通常写在robots.txt文件中该文件保存在网站的服务器上爬虫程序访问网站时首先查看此文件在scrapy项目的settings.py文件中默认ROBOTSTXT_OBEY=True,即遵守此协议当爬取内容不符合该协议且仍要爬取时设置ROBOTSTXT_OBEY=False,不遵守此协议…

大家好,又见面了,我是你们的朋友全栈君。

爬虫协议,即 robots 协议,也叫机器人协议

它用来限定爬虫程序可以爬取的内容范围
通常写在 robots.txt 文件中
该文件保存在网站的服务器上
爬虫程序访问网站时首先查看此文件
在 scrapy 项目的 settings.py 文件中
默认 ROBOTSTXT_OBEY = True ,即遵守此协议
当爬取内容不符合该协议且仍要爬取时
设置 ROBOTSTXT_OBEY = False ,不遵守此协议

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/130067.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号