Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」

Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」咳咳直接上代码#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2020/12/1519:10#@Author:huni#@File:图库大全1000.py#@Software:PyCharmimportrequestsfromlxmlimportetreeimportosif__name__==’__main__’:headers={‘User-A

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

咳咳直接上代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2021/01/04 18:10
# @Author : 志伟
# @File : 图库大全1000.py
# @Software: PyCharm
import requests
from lxml import etree
import os

if __name__ == '__main__':
    headers = { 
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
    }
    m_path = './1000图库'
    if not os.path.exists(m_path):
        os.mkdir(m_path)
    for i in range(1, 2):
        url = f'https://www.1000tuku.com/guoneimeinv/list_5_{i}.html'
        resp = requests.get(url=url, headers=headers).text
        tree = etree.HTML(resp)
        href_list = tree.xpath('/html/body/div[4]/ul//@href')
        for href in href_list:
            resp1 = requests.get(url=href, headers=headers)
            # 处理中文乱码问题
            resp1_text = resp1.text.encode('ISO-8859-1').decode('GB18030')
            tree1 = etree.HTML(resp1_text)
            page_num = int(tree1.xpath('//*[@id="content"]/div[1]/div[2]/ul/li[1]/a/text()')[0][1:3])
            title = tree1.xpath('/html/head/title/text()')[0]
            title_path = m_path + f'/{title}'
            if not os.path.exists(title_path):
                os.mkdir(title_path)
            for j in range(1, page_num + 1):
                if j == 1:
                    every_herf = href
                else:
                    every_herf = href.replace('.html', f'_{j}.html')
                resp2 = requests.get(url=every_herf, headers=headers).text
                tree2 = etree.HTML(resp2)
                src_list = tree2.xpath('//*[@id="content"]/div[1]/div[1]//@src')
                for src in src_list:
                    jpg_data = requests.get(url=src, headers=headers).content
                    jpg_name = src.split('/')[-1]
                    jpg_path = title_path + f'/{jpg_name}'
                    with open(jpg_path, 'wb') as fp:
                        fp.write(jpg_data)
                        print(jpg_name, '下载完成')

咳咳,看看效果

在这里插入图片描述

放学啦,回家吃饭去吧

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/194038.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • asp.net core中使用log4net

    asp.net core中使用log4net和之前的ASP.NETMVC中的使用LOG4NET的方法有些不同,这里先记录一下,使用步骤如下:1.建立ASP.NETCORE项目中,NUGET中搜索log4net后下载安装2.根目录建立log4net.config文件,内容如下:<?xmlversion="1.0"encoding="utf-8"?><configuration> <!–T…

  • 使用jxls导出报错:Connot load XLS transformer please make sure a Transformer implementation is in classpath

    使用jxls导出报错:Connot load XLS transformer please make sure a Transformer implementation is in classpath使用jxls导出是报错:java.lang.IllegalStateException:CannotloadXLStransformer.PleasemakesureaTransformerimplementationisinclasspath仔细排查,是因为批注的问题:是因为批注放到第二个单元格去了,扫描不到区域,把批注改到第一个单元格就行了。如果表格中写入数据为空,也是因为批注放到第二个单元格去了,所以最后导出个空文件。以上是博主遇到的问题,可..

  • @helper的使用

    @helper的使用、前言最近翻到一篇Scott的旧文,觉得挺不错的,就试着翻译了一下,文章主要是说如何在Razor中使用@helper语法定义可复用的视图模板方法。如有疏漏,还请请各位看官指点一二~原文地址:http:

  • ReleaseMutex用法

    ReleaseMutex用法Mutex中提供了WiteOne,ReleaseMutex两个实例方法~WiteOne的作用是”阻塞当前线程,提供对该线程的原子操作”也就是说当一个线程遇到WiteOne的时候,如果在WiteOne里面没有线程在操作,则此线程进去操作而里面有线程的时候,所有到此的线程均需要排队等候里面的线程执行完毕~而控制这样操作的结束标记就是使用ReleaseMutex方法!就好比WiteO…

  • 通用数据库连接程序

    通用数据库连接程序

  • MySQL数据库基础知识点总结

    MySQL数据库基础知识点总结1数据库简介数据库(Database)就是按照数据结构来组织,存储和管理数据的仓库专业的数据库是专门对数据进行创建,访问,管理,搜索等操作的软件,比起我们自己用文件读写的方式对象数据进行管理更加的方便,快速,安全1.1作用对数据进行持久化的保存方便数据的存储和查询,速度快,安全,方便可以处理并发访问更加安全的权限管理访问机制1.2数据库类型1.3常见的数据库类型常见数据库类型分两大类,一类是关系型数据库。另一类是非关系型数据库。关系型数据库:MySQL,Oracle,P

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号