如何通过 User-Agent 识别百度蜘蛛

如何通过 User-Agent 识别百度蜘蛛如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baiduspider)。搜索引擎蜘蛛、用户访

大家好,又见面了,我是你们的朋友全栈君。

如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。

如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。

我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。

百度 User-Agent 主要有以下几个:

  • 百度 PC 蜘蛛 User-Agent 是:

    Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html

  • 百度移动蜘蛛 User-Agent 是:

    Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

  • 还有一个是 Baiduspider-render/2.0 User-Agent 是:

    Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。

Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。

还有其他的百度产品的 User-Agent:

  • 百度图片搜索 User-Agent:

    Baiduspider-image+(+http://www.baidu.com/search/spider.htm)

  • 百度视频搜索 User-Agent:

    Baiduspider-video

  • 百度新闻搜索 User-Agent:

    Baiduspider-news

  • 百度搜藏 User-Agent:

    Baiduspider-favo

  • 百度联盟 User-Agent:

    Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)

  • 商务搜索 User-Agent:

    Baiduspider-ads

以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造

如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。

参考资料:

1、爬虫识别 – 百度蜘蛛

2、站长平台 – 常见问题解答

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/155758.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • linux 移动 文件,linux移动文件命令[通俗易懂]

    linux 移动 文件,linux移动文件命令[通俗易懂]linux移动文件命令mv命令功能:为文件或目录改名或将文件由一个目录移入另一个目录中。该命令如同DOS下的ren和move的组合。语法:mv[选项]源文件或目录目标文件或目录说明:视mv命令中第二个参数类型的不同(是目标文件还是目标目录),mv命令将文件重命名或将其移至一个新的目录中。当第二个参数类型是文件时,mv命令完成文件重命名,此时,源文件只能有一个(也可以是源目录名),它将所给的源…

  • jmeter正则提取器用法_jmeter字符串截取

    jmeter正则提取器用法_jmeter字符串截取JMeter正则表达式提取器 转自:http://desert3.iteye.com/blog/1394934//提取HTML中隐藏域的值^(.*)$ //提取整个response返回提取MyLabel关联的input的值MyLabel”(.+:create:.+?)”  //提取下面link的href的值JSESSIONI

  • 树的高度和深度 | 结点的高度和深度「建议收藏」

    树的高度和深度 | 结点的高度和深度「建议收藏」有个缺点,看到什么东西不管是不是重点只要说不通总是爱钻牛角尖。对于树的高度和深度(以及结点的高度和深度)看了几本不同的书,都有各自的说法,多方查证吧,花了很多时间,最后归纳一个能说服我的说法吧。(´。•ᵕ•。`)♡树的高度和深度深度是从上往下定义的,从根结点开始数,高度是从下往上定义的,从叶子结点开始数。这个涉及到结点的层数,有的教材规定根结点在第0层,有的则规定根结点在第一层。…

  • c#byte数组转换成字符串_字符串数组怎么定义

    c#byte数组转换成字符串_字符串数组怎么定义将一个包含ASCII编码字符的Byte数组转化为一个完整的String,可以使用如下的方法:usingSystem;usingSystem.Text;publicstaticstringFromASCIIByteArray(byte[]characters){ASCIIEncodingencoding=newASCIIEncoding();

  • 如何求最长回文子串

    如何求最长回文子串回文字符串,就是像“12321”这种轴对称形式的字符串,系不系很简单呀(狗头)。但并不是所有的字符串都是这种整个串都是回文串的。有些计算机问题就是在一个字符串中找出一段最长的回文字符子串,这个时候时候,我们会很自然的想到一种暴力的方法来解决。1975年,一位叫Manacher的人发明了一个算法,这个算法是用来查找一个字符串的最长回文子串的方法。…

  • mnist数据集百度云链接「建议收藏」

    因为下载这个mnist实在是慢,所以我直接附上下载好的百度云链接包括下图中的内容mnist_data.rarmnist_test.csvmnist_test_10.csvmnist_train.csvmnist_train_100.csv链接:链接:https://pan.baidu.com/s/1V0WzUYvObLRU2wv8fYEwAg提取码:z9bh复制这段内容后打开…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号