海贼王最新漫画图片_海贼王漫画52pk

海贼王最新漫画图片_海贼王漫画52pk制作工具模块-隐藏身份信息的User-Agent模块;对象服务器识别不了身份信息。importrandomuser_agent_data=[{“User-Agent”:”Mozilla/5.0(WindowsNT10.0;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/65.0.3314.0Safari/537.36SE2.XMetaSr1.0″},{“Use

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

制作工具模块

  1. -隐藏身份信息的User-Agent模块;对象服务器识别不了身份信息。
import random
user_agent_data = [
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36 QIHU 360SE"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.162 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3722.400 QQBrowser/10.5.3751.400"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3765.400 QQBrowser/10.6.4153.400"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3765.400 QQBrowser/10.6.4153.400"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.204 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; ServiceUI 14) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18362"},
{ 

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"},
{ 
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; …) Gecko/20100101 Firefox/77.0"},
]
def get_headers():
"""随机获取报头"""
index = random.randint(0,len(user_agent_data)-1)
# print("下标值:",index)
return user_agent_data[index]
if __name__ == '__main__':
headers = get_headers()
print("随机获取UA值:",headers)
  1. 制作一个动态的IP代理池;防止IP被封;可以用的ip代理已存进ippool.json
import json
import random
def get_proxies():
"""随机获取代理池"""
#读取文件
rfile = open("./ipfile/ippool.json","r",encoding="utf-8")
proxy_lists = json.load(rfile)
rfile.close()
# print(len(proxy_lists))
#随机数
index = random.randint(0,len(proxy_lists)-1)
return proxy_lists[index]
if __name__ == '__main__':
proxies = get_proxies()
print("随机获取ip代理:",proxies)

爬取漫画首页的数据内容

1.http://kanbook.net/328
2.爬取字段标题、页数、herf后缀 并存进到json
在这里插入图片描述
在这里插入图片描述

import requests
import useragenttool
import proxytool
from lxml import etree
import json
import os
class OnePieceSpider(object):
def __init__(self):
# 初始化
self.url = "http://kanbook.net/328"
self.html_data = None
self.one_piece_data_list = []
def get_url_html(self):
"""解析获得网址源代码"""
headers = useragenttool.get_headers()
# 添加报头,隐藏身份
headers["Accept-Encoding"] = "deflate, sdch, br"
headers["Content-Type"] = "text/html; charset=UTF-8"
headers["Referer"] = "https://kanbook.net/328/3/1/1"#参考点
# print(headers)
# 请求响应
response = requests.get(url=self.url,
headers=headers,
proxies=proxytool.get_proxies())
html_content = response.content.decode("utf-8")
self.html_data = html_content
# print(html_content)
def catch_html_data(self):
"""抓取网址源代码的数据"""
# 获得etree对象
data_parse = etree.HTML(self.html_data)
# print(data_parse)
li_list = data_parse.xpath("//div[@aria-labelledby='3-tab']/ol/li")
# print(li_list)
# 遍历处理,列表倒置
for li_element in li_list[::-1]:
# print(li_element)
# 提取后的链接
h_name = li_element.xpath("./a/@href")[0]
# print(h_name)
title = li_element.xpath("./a/@title")[0]
# 提取标题
# print(title)
# 提取页数
page = int(li_element.xpath("./a/span/text()")[0][1:4])
# print(page)
# 放进字典中
one_piece_item = { 

"title": title,
"postfix": h_name,
"page": page
}
# print(one_piece_item)
self.one_piece_data_list.append(one_piece_item)
print("添加成功!")
def save_data_file(self):
"""保存信息"""
path = "./image_url"
if not os.path.exists(path):
os.mkdir(path)
file = open(path + "/one_piece_data.json", "w", encoding="utf-8")
json.dump(self.one_piece_data_list, file, ensure_ascii=False, indent=2)
file.close()
print("数据保存成功!")
def run(self):
# 启动程序
self.get_url_html()
# print(html_content)
self.catch_html_data()
self.save_data_file()
# print(self.one_piece_data_list)
def main():
spider = OnePieceSpider()
spider.run()

开始爬取海贼王全部的全彩漫画图片

-注意点:报头要添加referer参考页,选择漫画本站
此外循环(while True)为了让全部卷图片都能下载成功,成功下载就跳出循环

import requests
import useragenttool
import proxytool
import time
import random
import json
import os
import re
import urllib3
urllib3.disable_warnings()
class OnePieceImageSpider(object):
def __init__(self):
# 初始化
self.url = ""
def set_url(self, out_url):
"""设置网络地址"""
self.url = out_url
def get_url_list(self, num):
"""获取num页网址"""
url_list = []
# 拼接网址,获得列表
for page in range(1, num+1):
new_url = self.url.format(page)
url_list.append(new_url)
return url_list
def get_url_html(self, inner_url):
"""解析获得网址源代码"""
headers = useragenttool.get_headers()
headers["Accept-Encoding"] = "deflate, sdch, br"
headers["Content-Type"] = "text/html; charset=UTF-8"
headers["Referer"] = "https://kanbook.net/328/3/6"#参照页
# print(headers)
response = requests.get(url=inner_url,
headers=headers,
proxies=proxytool.get_proxies(),
timeout=30,
verify=False)
# 动态限制爬取网页源代码时间
wait_time = random.randint(1, 6)
time.sleep(wait_time)
html_content = response.content
# print(html_content)
return html_content
def __download_image(self, image_url, name, index):
""" 下载图片 :param image_url: 图片地址 :param name: 文件名字 :param index: 图片数字 :return: """
while True:
try:
if len(image_url) == 0:
break
content = self.get_url_html(image_url)
path = "./onepieceimage/%s" % name
if not os.path.exists(path):
os.mkdir(path)
with open(path + "/%d.jpg" % index, "wb") as wfile:
wfile.write(content)
break
except Exception as msg:
print("出现异常,错误信息为", msg)
# 启动程序
def run(self,url_list, title):
# print(url_list)
# 遍历处理,获得html
index = 2
for url in url_list:
while True:
try:
# print(url)
data = self.get_url_html(url).decode("utf-8")
# print(data)
regex = r"""var img_list=(\[.+])"""
result = re.findall(regex, data)
# print(type(result[0]))
# 转换列表
lists = json.loads(result[0])
# print(lists)
img_url = lists[0]
print(img_url)
break
except Exception as msg:
print("错误信息:",msg)
self.__download_image(img_url, title, index)
print("第%d张下载" % index)
index += 1
print("所有图片下载成功")
def main():
# 提取文件
read_file = open("./image_url/one_piece_data.json","r",encoding="utf-8")
one_piece_data = json.load(read_file)
read_file.close()
# 遍历处理,提取字典数据
for element in one_piece_data:
# print(element)
# 海贼王地址、页数、标题
href_name = element["postfix"]
number = element["page"]
name = element["title"]
# 拼接网址
http_url = "http://kanbook.net"+href_name+"/{}"
# print(http_url)
onepieceimgspider = OnePieceImageSpider()
onepieceimgspider.set_url(http_url)
print("%s开始下载!" % name)
url_list = onepiecespider.get_url_list(number)
# print(url_list)
# 获得每页的url列表
onepieceimgspider.run(url_list, name)
if __name__ == '__main__':
main()

保存的格式:
在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/172277.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • Typora中文版,文本编辑器Typora下载

    Typora中文版,文本编辑器Typora下载Typoraformac是Macos平台上的一款帮助用户编辑文本的Mac软件,没有其他编辑软件那么麻烦,这款软件可以直观的看到源部分和预览部分,非常的方便。Typora不止拥有上面提到的功能,还拥有很多其他优秀的特性。带有书签的PDF可以通过typora生成。通过Pandoc的集成,可以导出或导入更多格式,包括docx,Openoffice,LaTeX,MediaWiki,Epub等。字数查看文档以单词,字符,行或阅读分钟为单位的大小。对焦模式和TypeWriter模式对焦模式可帮助您仅通过

  • oracle <&gt_oracle asm

    oracle <&gt_oracle asm=>是Oracle中调用存储过程的时候,指定参数名进行调用.一般是,某些参数有默认值的时候,你需要跳过某些参数来进行调用。下面是具体的例子。参数的默认值SQL>CREATE

  • phpstorm激活码2022(注册激活)

    (phpstorm激活码2022)本文适用于JetBrains家族所有ide,包括IntelliJidea,phpstorm,webstorm,pycharm,datagrip等。IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.cn/100143.html…

  • python3——unboundlocalerror报错原因

    python3——unboundlocalerror报错原因出现此错误,一般是因为,在调用的函数内,使用了外部变量造成的。这里先姑且不管你的目的是什么(可能是你想对这个外部变量进行一些赋值操作;也可能是你只是想创建一个本地变量,但是你不小心弄成和外部变量重名了)报错原因0.首先必须假设你没有在调用函数内部开头使用globalExternal_variable#外部变量或者nonlocalExternal_variable#外部变量(因为…

  • 13个免费资源网站,你想要的全都有!【各类宝藏资源,建议收藏】

    13个免费资源网站,你想要的全都有!【各类宝藏资源,建议收藏】前言前段时间,博主写了一篇文章关于如何用Python自制一款音乐播放器,有不少粉丝私信我说,这些高颜值UI设计模板都是从哪里找的,可以把网址分享出来嘛~当然没问题,今天就把多年收藏整理的各类资源网站全都分享出来,都是完全免费的“资源”网站,质量非常高,一起来看看吧!1.虫部落网址:https://search.chongbuluo.com功能特点:聚合搜索平台,集成了100多个搜索引擎,包含了搜问题、找图片、听音乐、下文档资料、查代码等等,各种需要这个网站都有。其中还包含了学术搜索引擎,非常适

  • yum彻底卸载软件包(包含依赖)

    yum彻底卸载软件包(包含依赖)概述yum命令安装软件包会同时安装需要的依赖包,但yumremove却只卸载这个文件包本身,如果需要删除安装时附加的依赖包,则可以使用yumhistory的相关操作实现回滚。具体操作查看yum操作(事务)历史[root@localhost~]#yumhistorylist或yumhistoryLoading”fastestmirror”pluginConfigtime:0.007Yumversion:3.4.3ID|Loginuser

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号