堆糖网热门图片下载[通俗易懂]

堆糖网热门图片下载[通俗易懂]下载目标是堆糖网热门图片,打开网页并下拉发现图片是通过ajax加载的,按F12打开开发者工具选择nerwork并筛选xhr,继续下拉网页找到ajax请求的api,如下图所示然后就可以构造请求获取包含

大家好,又见面了,我是你们的朋友全栈君。

下载目标是堆糖网热门图片,打开网页并下拉发现图片是通过ajax加载的,按F12打开开发者工具选择nerwork并筛选xhr,继续下拉网页找到ajax请求的api,如下图所示

 

堆糖网热门图片下载[通俗易懂]

然后就可以构造请求获取包含图片url的json数据,对于网络请求等IO密集型任务,开启进程池可以提高下载速度

代码如下:

import requests
from requests import exceptions
import re
from multiprocessing import Pool
import os

def get_pic_info():
    url = 'https://www.duitang.com/napi/index/hot/?'
    for i in range(1000):
        params = {
            'include_fields': 'top_comments,is_root,source_link,item,buyable,root_id,status,like_count,sender,album',
            'limit': '24',
            'start': 24 * i,
        }
        response = requests.get(url, params=params)
        json_data = response.json()
        pic_list = json_data['data']['object_list']
        for pic_ in pic_list:
            image = {}
            pic_info = pic_['album']
            pic_url = pic_info['covers'][0]
            image['pic_name'] = re.sub(r'[\\/:*?"<>|\r\n。,.? ]+', '', pic_info['name']) + '.' + pic_url.split('.')[-1]
            image['pic_url'] = pic_url
            yield image

def download_pic(image):
    if not os.path.exists(f'./img/{image["pic_name"]}'):
        try:
            resp = requests.get(image['pic_url'])
            if resp.status_code == 200:
                    with open(f'./img/{image["pic_name"]}', 'wb') as f:
                        f.write(resp.content)
        except exceptions:
            return None
    else:
        print(image['pic_name'] + ' has already downloaded')

if __name__ == '__main__':
    if not os.path.exists('./img'):
        os.mkdir('./img')
    pool = Pool()
    pool.map(download_pic, get_pic_info())
    pool.close()
    pool.join()

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/155277.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 抖音推荐算法总结[通俗易懂]

    抖音推荐算法究竟如何是做抖音短视频运营的同学非常关心的问题,抖音官方并没有披露正式的算法,但凭借着民间的智慧和官方披露的部分信息中,网友已经总结出抖音推荐算法的秘密。这里整理资料如下:1.发布后的推荐流程第0步:双重审核在抖音,每天有数量庞大的新作品上传,纯靠机器审核容易被钻空子,纯靠人工审核又不太现实。因此,双重审核成为抖音算法筛选视频内容的第一道门槛。机器审核(检测是否违…

  • linux find命令详解_mount命令详解

    linux find命令详解_mount命令详解find命令格式:findpath-option[-print][-exec-okcommand]{}\;find命令的参数:path:要查找的目录路径。~表示$HO

  • IDEA使用ideaVim, 配置自定义vim快捷键[通俗易懂]

    IDEA使用ideaVim, 配置自定义vim快捷键[通俗易懂]C:\Users\Administrator文件夹下创建_ideavimrc,我这里用的是win系统需要安装ideaVim插件letmapleader=”sethlsearchsetincsearchsetignorecasesetsmartcasesetshowmodesetnumbersetrelativenumbersetscrolloff=…

  • Mybatis学习地址总结整理-持续更新……「建议收藏」

    MyBatis 是支持定制化 SQL、存储过程以及高级映射的优秀的持久层框架。MyBatis 避免了几乎所有的 JDBC 代码和手动设置参数以及获取结果集。MyBatis 可以对配置和原生Map使用简单的 XML 或注解,将接口和 Java 的 POJOs(Plain Old Java Objects,普通的 Java对象)映射成数据库中的记录。

  • http_build_query()函数使用方法

    http_build_query()函数使用方法

  • Matlab中meshgrid的用法简介

    Matlab中meshgrid的用法简介meshgrid:网格1、主要使用的函数为[X,Y]=meshgrid(xgv,ygv);meshgrid函数生成的X,Y是大小相等的矩阵,xgv,ygv是两个网格矢量,xgv,ygv都是行向量。X:通过将xgv复制length(ygv)行(严格意义上是length(ygv)-1行)得到Y:首先对ygv进行转置得到ygv’,将ygv’复制(length(xgv)-1)次得到。…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号