福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图疲惫的生活里总要有些温柔梦想吧目标URL:http://www.win4000.com/meinvtag4_1.html爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图一、网页分析翻页查看URL变化规律:http://www.win4000.com/meinvtag4_1.htmlhttp://www.win4000.com/meinvtag4_2.htmlhttp://www.win4000.com/meinvtag4_3.htmlhttp:

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

疲惫的生活里总要有些温柔梦想吧

福利来了!手把手教你Python爬取女神套图

目标URL:http://www.win4000.com/meinvtag4_1.html

爬取美桌网某个标签下的美女壁纸,点进详情页可以发现,里面是一组套图

一、网页分析

福利来了!手把手教你Python爬取女神套图

翻页查看 URL 变化规律:

http://www.win4000.com/meinvtag4_1.html

http://www.win4000.com/meinvtag4_2.html

http://www.win4000.com/meinvtag4_3.html

http://www.win4000.com/meinvtag4_4.html

http://www.win4000.com/meinvtag4_5.html

页面里看到的每张图片点击进去有详情页,里面是套图

福利来了!手把手教你Python爬取女神套图

福利来了!手把手教你Python爬取女神套图

详情页里套图URL变化规律:

http://www.win4000.com/meinv216987_1.html

http://www.win4000.com/meinv216987_2.html

http://www.win4000.com/meinv216987_3.html

福利来了!手把手教你Python爬取女神套图

在网页源代码中也可以直接找到数据:

福利来了!手把手教你Python爬取女神套图

图片名称  下载链接

性感美女肌肤雪白撩人写真图片

http://pic1.win4000.com/pic/8/e0/24b989d57c.jpg

二、爬虫基本思路

福利来了!手把手教你Python爬取女神套图

1. 获取5页的套图的URL

def get_taotu_url():

 for i in range(1, 6):

        url = f'http://www.win4000.com/meinvtag4_{i}.html'

        headers = {

 'User-Agent': choice(user_agent)

        }

        # 发送请求  获取响应

        rep = requests.get(url, headers=headers)

        # print(rep.status_code)    状态码  200

        # print(rep.text)

        html = etree.HTML(rep.text)

        taotu_url = html.xpath('//div[@class="tab_tj"]/div/div/ul/li/a/@href')

        # 过滤掉无效的url

        taotu_url = [item for item in taotu_url if len(item) == 39]

        # 一个页面有24个图片

 print(taotu_url, len(taotu_url), sep='\n')

福利来了!手把手教你Python爬取女神套图

2. 进入套图详情页爬取图片

def get_img(url):

    headers = {

 'User-Agent': choice(user_agent)

    }

    # 发送请求  获取响应

    rep = requests.get(url, headers=headers)

    # 解析响应

    html = etree.HTML(rep.text)

    # 获取套图名称   最大页数

    name = html.xpath('//div[@class="ptitle"]/h1/text()')[0]

    os.mkdir(r'./女神套图/{}'.format(name))

    max_page = html.xpath('//div[@class="ptitle"]/em/text()')

    # 字符串替换  便于之后构造url请求

    url1 = url.replace('.html', '_{}.html')

 for i in range(1, int(max_page[0]) + 1):

        url2 = url1.format(i)

        sleep(randint(1, 3))

        reps = requests.get(url2, headers=headers)

        dom = etree.HTML(reps.text)

        src = dom.xpath('//div[@class="main-wrap"]/div[1]/a/img/@data-original')[0]

        file_name = name + f'第{i}张.jpg'

        img = requests.get(src, headers=headers).content

        with open(r'./女神套图/{}/{}'.format(name, file_name), 'wb') as f:

            f.write(img)

 print(f'成功下载图片:{file_name}')
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/193887.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • verycd下载办法_无损音乐 MKV 下载

    verycd下载办法_无损音乐 MKV 下载自2012年8月30日之后,verycd上所有资源的ed2k下载链接均被隐藏。没有登录的会员会显示“该资源为版权方声明保护内容,VeryCD不提供其下载”的字样现在电驴也不让下载了,和以前的狗狗一样,资源都屏蔽了,今天无意得到了一个可以下载电驴上的资源的方法,很简单,应该是漏洞,不知道能用多久,但是目前至少可以用。自2012年8月30日之后,verycd上所有资源的ed2k下载链接均被隐藏。没有登

  • 现代文译为古文(形容环境幽静雅致的古诗)

    现代文译为古文(形容环境幽静雅致的古诗)1.今文:身不由己古译:向来心是看客心,奈何人是剧中人。2.今文:我们越来越陌生了古译:相達何必曾相识,再看君卿已陌路。3.今文:我也不想你,你也就别想我了,古译:我断不思量,你莫思量我。4.今文:物是人非,我们回不去了,古译:柳絮随风各西东,人事无非已不同。5.今文:每时每刻都在想你古译:思君如流水,何有穷已时。6.今文:再看熟悉的地方,一切物是人非古译:青瓦长忆旧时雨,朱伞深巷无故人…

  • 【json】Jackson的使用

    【json】Jackson的使用

  • ExtJs自学教程(1):一切从API開始

    ExtJs自学教程(1):一切从API開始

  • win8最流畅的设置方法_Windows 12

    win8最流畅的设置方法_Windows 12indowsXP终极优化设置(精心整理篇)◆一、系统优化设置◆1、系统常规优化1)关闭系统属性中的特效,这可是简单有效的提速良方。点击开始→控制面板→系统→高级→性能→设置→在视觉效果中,设置为调整为最佳性能→确定即可。2)“我的电脑”-“属性”-“高级”-“错误报告”-选择“禁用错误汇报”。3)再点“启动和故障恢复”-“设置”,将“将事件写入系统日志”、“发送管理警报”、“自动重新启动”这三项

    2022年10月21日
  • C#中File和FileStream的用法

    C#中File和FileStream的用法在近期的工作过程中发现自己的基础比较薄弱,所以最近在恶补基础知识。下面就对我所学习的File类和FileStream进行简单的总结。1.首先先介绍File类和FileStream文件流1.1File类,是一个静态类,支持对文件的基本操作,包括创建,拷贝,移动,删除和打开一个文件。File类方法的参量很多时候都是路径path。主要提供有关文件的各种操作,在使用时需要引用System.IO命名…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号