Python爬虫实战之爬取网站全部图片(一)

全栈程序员-用户IM • 2022年5月1日上午11:40 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

Python爬虫实战之爬取网站全部图片(二)

Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三)

一.获得图片地址和图片名称

Python爬虫实战之爬取网站全部图片(一) 1.进入网址之后

按F12 打开开发人员工具点击elemnts

Python爬虫实战之爬取网站全部图片(一)

2.点击下图的小箭头选择主图中的任意一个图片那我们这里点击第一个图片

Python爬虫实战之爬取网站全部图片(一)

3.显示控制台为了验证xpath是否正确

Python爬虫实战之爬取网站全部图片(一)

4.通过xpath获得a的href 和 title.

Python爬虫实战之爬取网站全部图片(一)

(请放大看)我们看到他提示的是有10个我们回到网站中看一下在主页上数一下他确实是10个也就是说我们获得的href 和title是没有任何问题的那么留着为我们后面使用.

5.我们还需要访问这个链接的请求头的信息以备后面操作的时候来使用

Python爬虫实战之爬取网站全部图片(一)

这里可以看到没有什么特别的请求头

6.获得每套图里的所有图片.这也是我们的目的所在不然前面那么多工序不是浪费吗。

Python爬虫实战之爬取网站全部图片(一)

可以看到我们获得了11个链接地址不要被源码中的文字所迷惑

7.获得相应的请求头

Python爬虫实战之爬取网站全部图片(一)

可以发现需要注意的只有一个字段Referer 这里的地址就是我们访问这个页面进来的时候的那个地址只要把那个地址给上就行了

8.对于404的处理如果出现了404那就只有重新请求了

二.编写python代码实现爬取.

1.需要用到的库有:

Requests lxml

2.IDE : pycharm

3.python 版本: 2.7.15

下载地址: https://download.csdn.net/download/qq_33958297/12195656

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/132928.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

Python爬虫实战之爬取网站全部图片(一)

一.获得图片地址 和 图片名称

2.点击下图的小箭头 选择主图中的任意一个图片 那我们这里点击第一个 图片

3.显示控制台 为了验证xpath是否正确

4.通过xpath获得a的href 和 title.

5.我们还需要访问这个链接的请求头的信息 以备后面操作的时候来使用

6.获得每套图里的 所有图片.这也是我们的目的所在 不然前面那么多工序不是浪费吗。

7.获得相应的请求头

8.对于404的处理 如果出现了404那就只有重新请求了

二.编写python代码实现爬取.

1.需要用到的库有:

2.IDE : pycharm

3.python 版本: 2.7.15

相关推荐

开发工具-Java SDK下载地址「建议收藏」

linux 如何编译安装软件

python进阶（8）多进程「建议收藏」

navicat连接MySQL失败,cmd也不能登录MySQL_远程连接mysql

Intellij IDEA优化配置(1)——Darcula主题的选择以及字体和颜色配置（基于Intellij IDEA 2019.1）

C#中IntPtr类型

发表回复

一.获得图片地址和图片名称

2.点击下图的小箭头选择主图中的任意一个图片那我们这里点击第一个图片

3.显示控制台为了验证xpath是否正确

5.我们还需要访问这个链接的请求头的信息以备后面操作的时候来使用

6.获得每套图里的所有图片.这也是我们的目的所在不然前面那么多工序不是浪费吗。

8.对于404的处理如果出现了404那就只有重新请求了