Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」

Python爬虫_宅男福利?妹纸勿点__一蓑烟雨任平生「建议收藏」咳咳直接上代码#!/usr/bin/envpython#-*-coding:utf-8-*-#@Time:2020/12/1519:10#@Author:huni#@File:图库大全1000.py#@Software:PyCharmimportrequestsfromlxmlimportetreeimportosif__name__==’__main__’:headers={‘User-A

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

咳咳直接上代码

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Time : 2021/01/04 18:10
# @Author : 志伟
# @File : 图库大全1000.py
# @Software: PyCharm
import requests
from lxml import etree
import os
if __name__ == '__main__':
headers = { 

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
}
m_path = './1000图库'
if not os.path.exists(m_path):
os.mkdir(m_path)
for i in range(1, 2):
url = f'https://www.1000tuku.com/guoneimeinv/list_5_{i}.html'
resp = requests.get(url=url, headers=headers).text
tree = etree.HTML(resp)
href_list = tree.xpath('/html/body/div[4]/ul//@href')
for href in href_list:
resp1 = requests.get(url=href, headers=headers)
# 处理中文乱码问题
resp1_text = resp1.text.encode('ISO-8859-1').decode('GB18030')
tree1 = etree.HTML(resp1_text)
page_num = int(tree1.xpath('//*[@id="content"]/div[1]/div[2]/ul/li[1]/a/text()')[0][1:3])
title = tree1.xpath('/html/head/title/text()')[0]
title_path = m_path + f'/{title}'
if not os.path.exists(title_path):
os.mkdir(title_path)
for j in range(1, page_num + 1):
if j == 1:
every_herf = href
else:
every_herf = href.replace('.html', f'_{j}.html')
resp2 = requests.get(url=every_herf, headers=headers).text
tree2 = etree.HTML(resp2)
src_list = tree2.xpath('//*[@id="content"]/div[1]/div[1]//@src')
for src in src_list:
jpg_data = requests.get(url=src, headers=headers).content
jpg_name = src.split('/')[-1]
jpg_path = title_path + f'/{jpg_name}'
with open(jpg_path, 'wb') as fp:
fp.write(jpg_data)
print(jpg_name, '下载完成')

咳咳,看看效果

在这里插入图片描述

放学啦,回家吃饭去吧

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/194038.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • emexecexe_alg是什么进程

    emexecexe_alg是什么进程 今天天气不错,早上做完志愿者时也比较顺利,特别是遇到了一些好牛X的老太太/老头,高兴。于是,啃完饭后就直奔B218,准备看看好久之前就说好要看的STL,可是…… 不一会儿就看烦了,玩了局句CS,接着就在那里无所事事的翻机房电脑(顺便说一下,我今天才发现,原理咱机房电脑是双核(pentium3G*2+1GDDR2,怪不得跑CS比我那神舟顺多了).翻着翻着,看见一个OS

  • CIDR的特殊性

    CIDR的特殊性

  • Java 验证码识别(Tess4J初体验)「建议收藏」

    Java 验证码识别(Tess4J初体验)「建议收藏」Tess4J官方描述:AJavaJNAwrapperforTesseractOCRAPI.demo下载1.先去官网下载:http://tess4j.sourceforge.net/2.将下载的文件解压后把下面几个文件夹(图片中选中的)复制到新建的项目中3.将lib下的jar包加到buildpath中。注意:lib里面除了jar包还有别的。4.根据官网的样例在刚建的项目中使用一下:…

  • MyBatis 所有的 jdbcType类型

    MyBatis 所有的 jdbcType类型MyBatis处理MySQL字段类型date与datetime1)DATETIME显示格式:yyyy-MM-ddHH:mm:ss时间范围:[‘1000-01-0100:00:00’到’9999-12-3123:59:59’]2)DATE显示格式:yyyy-MM-dd时间范围:[‘1000-01-01’到’9999-12-31’]3)TIMESTAMP显示格式:yyyy-MM-ddHH:mm:ss时间范围:[‘1970-01-0100:00:00’到’2037-12-

    2022年10月20日
  • hdu 3081 hdu 3277 hdu 3416 Marriage Match II III IV //灵活运用最大流量

    hdu 3081 hdu 3277 hdu 3416 Marriage Match II III IV //灵活运用最大流量

  • React项目的国际化

     最近做的react项目需要支持国际化,网上查了一下,发现一款很好的插件“react-intl-universal”,由阿里巴巴团队开发,这款插件是原先的国际化插件“react-intl”的升级版,“react-intl”因为一些“致命”缺陷现已被其取代,npm官网有罗列原因,有兴趣的可以去了解一下。下面具体介绍一下这款插件的使用方法。1.安装npminstallreact-i…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号