b站动漫_python爬b站视频

b站动漫_python爬b站视频。。闲来无事,爬了一下我最爱的B站~~~卒首先进入B站的番剧索引页ps:以前经常浏览这个索引页找动漫看,所以熟练的操作~滑稽翻页发现url链接并没有改变,用谷歌开发者工具network发现加载了XHR文件并返回json格式的响应要对其进行翻页处理,观察一下querystring的规律,发现那么多个参数只有page这个参数是变化的所以接下来都很好做了~嘻嘻items.pyimp…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

。。。闲来无事,爬了一下我最爱的B站~~~卒
首先进入B站的番剧索引页
ps:以前经常浏览这个索引页找动漫看,所以熟练的操作~滑稽
在这里插入图片描述
翻页发现url链接并没有改变,用谷歌开发者工具network发现加载了XHR文件并返回json格式的响应
在这里插入图片描述
放到atom里看下数据是咋样的
在这里插入图片描述
要对其进行翻页处理,观察一下query string的规律,发现那么多个参数只有page这个参数是变化的
在这里插入图片描述
所以接下来都很好做了~嘻嘻
items.py

import scrapy
from scrapy import Field

class BilibiliItem(scrapy.Item):

    title = Field()
    cover = Field()
    sum_index = Field()
    is_finish = Field()
    link = Field()
    follow = Field()
    plays = Field()
    score = Field()
    _id = Field()
    

bzhan.py

import scrapy
import demjson #这个库要pip一哈
from scrapy.selector import Selector
from bilibili.items import BilibiliItem
from random import randint
class BzhanSpider(scrapy.Spider):
name = 'bzhan'
allowed_domains = ['bilibili.com']
start_urls = ['https://bangumi.bilibili.com/media/web_api/search/result?season_version=-1&area=-1&is_finish=-1&copyright=-1&season_status=-1&season_month=-1&pub_date=-1&style_id=-1&order=3&st=1&sort=0&page=1&season_type=1&pagesize=20']
def parse(self, response):
json_content = demjson.decode(response.body)
datas = json_content["result"]["data"]
item = BilibiliItem()
for data in datas:
cover = data['cover']
sum_index = data['index_show']
is_finish = data['is_finish']
is_finish = '已完结' if is_finish == 1 else '未完结'
link = data['link']
follow = data['order']['follow']
plays = data['order']['play']
try:
score = data['order']['score']
except:
score = '未知'
title = data['title']
item['_id'] = title
item['cover'] = cover
item['sum_index'] = sum_index
item['is_finish'] = is_finish
item['link'] = link
item['follow'] = follow
item['plays'] = plays
item['score'] = score
item['title'] = title
yield item
urls = ['https://bangumi.bilibili.com/media/web_api/search/result?season_version=-1&area=-1&is_finish=-1&copyright=-1&season_status=-1&season_month=-1&pub_date=-1&style_id=-1&order=3&st=1&sort=0&page={0}&season_type=1&pagesize=20'.format(k) for k in range(2,156)]
for url in urls:
request = scrapy.Request(url,callback=self.parse)
yield request

利用python对象字典的方式进行解析。。不难

piplines.py

import pymongo
class BilibiliPipeline(object):
def process_item(self, item, spider):
client = pymongo.MongoClient('localhost', 27017)
mydb = client['mydb']
bilibili = mydb['bilibili']
bilibili.insert_one(item)
print(item)
return item

settings.py略。。。。。。

结果可以爬取到三千多个数据
在这里插入图片描述
心疼我的b站一秒。。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/172278.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • for while循环语句举例python_for循环语句python

    for while循环语句举例python_for循环语句python程序在一般情况下是按顺序执行的。编程语言提供了各种控制结构,允许更复杂的执行路径。循环语句允许我们执行一个语句或语句组多次,下面是在大多数编程语言中的循环语句的一般形式1.循环控制语句在了解循环语句的使用方法之前,我们先来了解几个循环控制语句:1)…

  • vimrc配置[通俗易懂]

    vimrc配置[通俗易懂]插件管理gitclonehttps://github.com/VundleVim/Vundle.vim.git~/.vim/bundle/Vundle.vim主题monokaihttps://github.com/sickill/vim-monokaivimrcbashrctmuxzsh/oh-my-zshz

  • 一款非常好看的客服系统源码[通俗易懂]

    一款非常好看的客服系统源码[通俗易懂]客服系统源码开源,对二次开发没有限制,开发者更改或者定制功能都非常方便,高稳定性基于ThinkPhp6+Swoole+LayUi+PHP8开发,智优客服系统具有超高稳定性,得到越来越多的客户喜爱源码下载地址:下载地址源码仅供用于学习和交流,请遵循相关法律法规.禁止使用违法用途!…

  • 多因子权重优化方法比较研究_权重因子是什么意思

    多因子权重优化方法比较研究_权重因子是什么意思https://www.ricequant.com/community/topic/4559在多因子量化投资体系中,具有稳定的预期收益,可解释的经济驱动理论,与其他因子的低相关性是选择alpha因子的关键指标。本篇文章中,我们以此为因子选取标准,简单地构建了自己的因子库,总共包括八个大类因子,每个大类因子中包含四到五个子类细分因子。为了比较不同的权重优化方法的优劣,本文首先采取不同的方法对各个大类…

  • 连接失败连接区间变量

    连接失败连接区间变量

  • Java多线程编程:Callable、Future和FutureTask浅析(多线程编程之四)「建议收藏」

    Java多线程编程:Callable、Future和FutureTask浅析(多线程编程之四)「建议收藏」通过前面几篇的学习,我们知道创建线程的方式有两种,一种是实现Runnable接口,另一种是继承Thread,但是这两种方式都有个缺点,那就是在任务执行完成之后无法获取返回结果,那如果我们想要获取返回结果该如何实现呢?还记上一篇Executor框架结构中提到的Callable接口和Future接口吗?,是的,从JAVASE5.0开始引入了Callable和Future,通过它们构建的线程,在

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号