爬取7160美女图片

爬取7160美女图片#coding=utf-8importurllib.requestfrombs4importBeautifulSoupfromurllibimporterrorimportrels=[‘zhenrenxiu’,’meinv’,"lianglichemo",’rentiyishu’,’xiaohua’]defvalidateTitle(title):rstr=r"…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

#coding=utf-8

import urllib.request
from bs4 import BeautifulSoup
from urllib import error
import re
ls = ['zhenrenxiu','meinv',"lianglichemo",'rentiyishu','xiaohua']
def validateTitle(title):
rstr = r"[\/\\\:\*\?\"\<\>\|]" # '/ \ : * ? " < > |'
new_title = re.sub(rstr, "_", title) # 替换为下划线
return new_title

for j in range(1,60000):
url_origin = "http://www.7160.com/xiaohua/"+str(j)
try:
page_obj = urllib.request.urlopen(url_origin)
page_soup = BeautifulSoup(page_obj,'lxml')
total_page_obj = page_soup.find(text=re.compile('共')).string
pattern = re.compile(r'\d+')
match = pattern.search(total_page_obj)

if match == None:
total_page = 0;
else:
total_page = match.group();

for i in range(1,int(total_page)):
if i == 1 :
url = url_origin+"/index.html"
else:
url = url_origin+"/index_"+str(i)+".html"
request = urllib.request.Request(url)
try:
res = urllib.request.urlopen(request)

soup = BeautifulSoup(res,'lxml')
title_obj = soup.find(attrs={"class":"picmainer"})

if title_obj is not None:
print(url)
title = title_obj.h1.string
content = soup.find('img')
src = content.get("src")

file_name = validateTitle(title)+".jpg"
urllib.request.urlretrieve(src, "D://img2/"+file_name)
print(file_name+"保存成功")
except Exception as e:
print("异常"+str(j))
except Exception as e:
print("异常"+str(j))

Jetbrains全家桶1年46,售后保障稳定

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/207160.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 华为外网可以访问OJ平台了 — 采坑

    华为外网可以访问OJ平台了 — 采坑http://rnd-oj.huawei.com/exam/HomePage

  • mycat实现读写分离_mybatis读写分离实现

    mycat实现读写分离_mybatis读写分离实现环境:四台主机,两台mysql做主从:master和slave一台mysql做测试,ip:10.30.162.142一台mycat做读写分离,ip:192.168.122.230客户端访问mycat端的虚拟数据库mycat端虚拟数据库设定如下:user:adminpassword:redhatmycat通过一个真实数据库授过权的用户来对数据库端进行数据的操作,在这个实验中这个用户为m…

    2022年10月13日
  • js字符串拼接的几种方式是_js字符串常用方法

    js字符串拼接的几种方式是_js字符串常用方法在JavaScript中,使用字符串连接有几种方式:连接符(+)、反引号(`)、join()、concat()。

    2022年10月24日
  • AWC / Advanced SystemCare Pro(专业版)V3.7.0+有效注册码

    AWC / Advanced SystemCare Pro(专业版)V3.7.0+有效注册码AdvancedSystemCare一直以来都是以突破系统瓶颈为噱头,号称对系统能够进行其他优化软件所没有的更彻底的优化和清理,具体是否如此,相信你使用过后自然会明了,事实上,它的清理效果绝对能让你大吃一惊(这一点可以先用你认为的最好的清理工具对系统进行一次清理,然后再用它清理一遍就能体现出来了),我曾推荐过其3.3和3.4版的专业版(付费版本),而现在,其最新版已是3.5版了,除支持Windows7外,还新增TurboBoost加速功能,日志视图功能以及先进的卸载程序。    Advanc

    2022年10月20日
  • 《Java核心技术 卷1》「建议收藏」

    《Java核心技术 卷1》「建议收藏」<1>静态字段和静态方法classEmployee{privatestaticintnextId=1;privateintid;….}每一个Employee对象都有一个自己的id字段,但是这个类的所有实例将共享一个nextId字段,换句话说,如果有1000个Employee类对象,则有1000个实例字段id,分别对应一个对象,但是只有一个静态字段nextId,即使没有Employee对象,静态字段nextId也存在,它属于类,…

  • python,pandas_python常用的科学计算库

    python,pandas_python常用的科学计算库[python][科学计算][pandas]使用指南

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号