福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图疲惫的生活里总要有些温柔梦想吧目标URL:http://www.win4000.com/meinvtag4_1.html爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图一、网页分析翻页查看URL变化规律:http://www.win4000.com/meinvtag4_1.htmlhttp://www.win4000.com/meinvtag4_2.htmlhttp://www.win4000.com/meinvtag4_3.htmlhttp:

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

疲惫的生活里总要有些温柔梦想吧

福利来了!手把手教你Python爬取女神套图

目标URL:http://www.win4000.com/meinvtag4_1.html

爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图

一、网页分析

福利来了!手把手教你Python爬取女神套图

翻页查看 URL 变化规律:

http://www.win4000.com/meinvtag4_1.html

http://www.win4000.com/meinvtag4_2.html

http://www.win4000.com/meinvtag4_3.html

http://www.win4000.com/meinvtag4_4.html

http://www.win4000.com/meinvtag4_5.html

页面里看到的每张图片点击进去有详情页,里面是套图

福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图

详情页里套图URL变化规律:

http://www.win4000.com/meinv216987_1.html

http://www.win4000.com/meinv216987_2.html

http://www.win4000.com/meinv216987_3.html

福利来了!手把手教你Python爬取女神套图

在网页源代码中也可以直接找到数据:

福利来了!手把手教你Python爬取女神套图

图片名称  下载链接

性感美女肌肤雪白撩人写真图片

http://pic1.win4000.com/pic/8/e0/24b989d57c.jpg

二、爬虫基本思路

福利来了!手把手教你Python爬取女神套图

1. 获取5页的套图的URL

def get_taotu_url():

 for i in range(1, 6):

        url = f'http://www.win4000.com/meinvtag4_{i}.html'

        headers = {

 'User-Agent': choice(user_agent)

        }

        # 发送请求  获取响应

        rep = requests.get(url, headers=headers)

        # print(rep.status_code)    状态码  200

        # print(rep.text)

        html = etree.HTML(rep.text)

        taotu_url = html.xpath('//div[@class="tab_tj"]/div/div/ul/li/a/@href')

        # 过滤掉无效的url

        taotu_url = [item for item in taotu_url if len(item) == 39]

        # 一个页面有24个图片

 print(taotu_url, len(taotu_url), sep='\n')

福利来了!手把手教你Python爬取女神套图

2. 进入套图详情页爬取图片

def get_img(url):

    headers = {

 'User-Agent': choice(user_agent)

    }

    # 发送请求  获取响应

    rep = requests.get(url, headers=headers)

    # 解析响应

    html = etree.HTML(rep.text)

    # 获取套图名称   最大页数

    name = html.xpath('//div[@class="ptitle"]/h1/text()')[0]

    os.mkdir(r'./女神套图/{}'.format(name))

    max_page = html.xpath('//div[@class="ptitle"]/em/text()')

    # 字符串替换  便于之后构造url请求

    url1 = url.replace('.html', '_{}.html')

 for i in range(1, int(max_page[0]) + 1):

        url2 = url1.format(i)

        sleep(randint(1, 3))

        reps = requests.get(url2, headers=headers)

        dom = etree.HTML(reps.text)

        src = dom.xpath('//div[@class="main-wrap"]/div[1]/a/img/@data-original')[0]

        file_name = name + f'第{i}张.jpg'

        img = requests.get(src, headers=headers).content

        with open(r'./女神套图/{}/{}'.format(name, file_name), 'wb') as f:

            f.write(img)

 print(f'成功下载图片:{file_name}')
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/193887.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • mac goland激活码[最新免费获取]

    (mac goland激活码)JetBrains旗下有多款编译器工具(如:IntelliJ、WebStorm、PyCharm等)在各编程领域几乎都占据了垄断地位。建立在开源IntelliJ平台之上,过去15年以来,JetBrains一直在不断发展和完善这个平台。这个平台可以针对您的开发工作流进行微调并且能够提供…

  • typedef int ElemType

    typedef int ElemType1  typedefintElemType;为什么呀,我倒是知道后面用ElemType定义别的数据类型,看起来是把ElemType和int一样啦,那直接用int不用行了,为什么要用ElemType.这是定义一个线性表元素类型的最佳答案定义不同的数据类型名称是为了程序的可读性.而且一旦你需要将类型变换比如使用double型的了,只要写:typedefd

  • Promise用法详解(一)

    Promise用法详解(一)Promise基本概念Promise是一个构造函数,所以可以new出一个Promise的实例在Promise上有两个函数resolve(成功之后的回调函数)和reject(失败后的回调函数)在Promise构造函数的prototype属性上,有一个.then()方法。所以只要是Promise构造函数创建的实例,都可以访问到.then()方法Promise表示一个一…

  • 静态路由命令配置_配置静态路由的命令格式为

    静态路由命令配置_配置静态路由的命令格式为前话之前发表了相关路由协议简单配置命令,RIP、OSPF等都是动态路由协议。这次我简单写一下静态理由简单配置命令,的确很简单一行命令就可以了。静态路由介绍静态路由是指由用户或网络管理员手工配

  • EM算法定义及推导

    EM算法是一种迭代算法,传说中的上帝算法,俗人可望不可及。用以含有隐变量的概率模型参数的极大似然估计,或极大后验概率估计EM算法定义输入:观测变量数据X,隐变量数据Z,联合分布$P(X,Z|\th

    2021年12月30日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号