如何通过 User-Agent 识别百度蜘蛛

如何通过 User-Agent 识别百度蜘蛛如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baiduspider)。搜索引擎蜘蛛、用户访

大家好,又见面了,我是你们的朋友全栈君。

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移动蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度视频搜索 User-Agent:

    Baiduspider-video

  • 百度新闻搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度联盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商务搜索 User-Agent:

    Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:

1、爬虫识别 – 百度蜘蛛

2、站长平台 – 常见问题解答

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/155758.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Java命令行运行错误: 找不到或无法加载主类

    Java命令行运行错误: 找不到或无法加载主类前言:虽然学习Java语言约有两年多,但在最近需要使用命令行工具编译并运行Java程序时,还是报错了。花费了一些时间,解决了该问题,发现解决方法在初学Java时使用过。一则,为了避免以后再出现同样的问题而浪费不必要的时间;二则,作为使用该语言的程序员,对于该语言的一些基本问题,应该有清晰的理解和认识;三则,网上的一些解决方案,不够完备。有的没有解释问题原因,直接给出答案;有的,未列举出某些常见情况的解决方案。因此,写此文章,让读者可以举一反三,深入理解问题。一、问题分析找不到或无法加载主类,主要原因有

  • mit6.033_mit6.830

    mit6.033_mit6.8301. CPU设计权衡2. 处理器性能3. 提示:Beta指令集4. 方法:提升特性5. 多端口寄存器文件6. 寄存器文件时序7. ALU指令8. 指令获取/解码9. ALUOP数据路径110. ALUOP数据路径211. ALU操作(带有常量)112. ALU操作(带有常量)213. load指令114. load指令215. store指令116. store指令217. JMP指令118. JMP指令219. BEQ/BNE

  • ElasticSearch 2.0以后的改动导致旧的资料和书籍需要订正的部分

    ElasticSearch 2.0以后的改动导致旧的资料和书籍需要订正的部分

  • django自定义用户认证_为什么需要自定义类加载器

    django自定义用户认证_为什么需要自定义类加载器前言如果我们不用使用drf那套认证规则,我们想自定义认证类,那么我们首先要知道,drf本身是如何定义认证规则的,也就是要查看它的源码是如何写的源码分析源码的入口在APIView.py文件下的di

  • Fibers_fiber bundle

    Fibers_fiber bundle要理解Fibers首先需要对抢占式多任务和协作式多任务有所了解抢占式多任务抢占式是指暂停或中断正在执行的计算任务,而不是与其合作。中断后再继续恢复该任务的执行,这种改变又称为上下文切换。其缺点在于操作系统可能会在一个不适当的时间进行上下文切换。例如:Linux的调度程序特权任务Scheduler采用的就是取消进程任务,而不是与其合作。协作式多任务早期的多任务处理系…

    2022年10月22日
  • SSM整合,非常详细的SSM整合[通俗易懂]

    SSM整合,非常详细的SSM整合[通俗易懂]对于ssm框架网上有很多,这里只是自己为大家提供的一个ssm整合框架参考分享,这个前提是基于maven的管理工具写的,如果觉得写得不好,博主这边已经把代码上传了:不妨可以参考代码再理解学习:https://download.csdn.net/download/qq_30764991/11012764如果觉得文章不错,对你有帮助,请作者喝杯咖啡,谢谢!如果对您有帮助,请多多支持.多少都…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号