用python爬虫爬取网页信息_爬虫python

用python爬虫爬取网页信息_爬虫python【一、项目背景】[蜜柑计划-MikanProject]:新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放网站,为大家第一时间分享最新动漫资源,每日精选最优质的动漫推荐。【二、项目目标】实现获取动漫种子链接,并下载保存在文档。【三、涉及的库和网站】1、网址如下:https://mikanani.me/Home/Classic/{}2、涉及的库:reques**ts、lxml、fake_useragent**3、软件:PyCharm【四、项目分析】…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

【一、项目背景】

[蜜柑计划 – Mikan Project] :新一代的动漫下载站。是一个专门为喜欢动漫的小伙伴们打造的动漫视频在线播放网站,为大家第一时间分享最新动漫资源,每日精选最优质的动漫推荐。

用python爬虫爬取网页信息_爬虫python

【二、项目目标】

   实现获取动漫种子链接,并下载保存在文档。

【三、涉及的库和网站】

1、网址如下:

https://mikanani.me/Home/Classic/{}

2、涉及的库:reques**ts、lxml、fake_useragent**

3、软件:PyCharm

【四、项目分析】

   首先需要解决如何对下一页的网址进行请求的问题。可以点击下一页的按钮,观察到网站的变化分别如下所示:

https://mikanani.me/Home/Classic/1

https://mikanani.me/Home/Classic/2

https://mikanani.me/Home/Classic/3

   点击下一页时,每增加一页Classic/()自增加1,用{}代替变换的变量,再用for循环遍历这网址,实现多个网址请求。

【五、反爬措施】

1、获取正常的 http请求头,并在requests请求时设置这些常规的http请求头。

2、使用 fake_useragent ,产生随机的UserAgent进行访问。

【六、项目实施】

1、我们定义一个class类继承object,然后定义init方法继承self,再定义一个主函数main继承self。导入需要的库和网址。

import requests
from lxml import etree
from fake_useragent import UserAgent

class  Mikan(object):
    def __init__(self):
      self.url = "https://mikanani.me/Home/Classic/{}"

    def main(self):
        pass

if __name__ == '__main__':
    Siper = Mikan()
    Siper.main()

2、主方法(main):for循环实现多个网页请求。

stat = int(input("start :"))
end = int(input(" end:"))
for page in range(stat, end + 1):
    url = self.url.format(page)
    print(url)

3、 随机产生UserAgent。

for i in range(1, 50):
            self.headers = {
                'User-Agent': ua.random,
            }

4、发送请求  获取响应, 页面回调,方便下次请求。

def get_page(self, url):
    res = requests.get(url=url, headers=self.headers)
    html = res.content.decode("utf-8")
    return html

5、xpath解析一级页面数据,for循环遍历补全网址,获取二级页面网址。

parse_html = etree.HTML(html)
one = parse_html.xpath('//tbody//tr//td[3]/a/@href')
for li in one:
    yr = "https://mikanani.me" + li

6、二级页面请求 ,先找到页面父节点,for循环遍历,再用path获取到种子的下载地址。补全种子链接地址。

tow = parse_html2.xpath('//body')
for i in tow:
    four = i.xpath('.//p[@class="episode-title"]//text()')[0].strip()
    fif = i.xpath('.//div[@class="leftbar-nav"]/a[1]/@href')[0].strip()
    # print(four)
    t = "https://mikanani.me" + fif
    print(t)

7、保存在word文档 。

 dirname = "./种子/" + four[:15] + four[-20:] + '.torrent'
  # print(dirname)
  html3 = requests.get(url=t, headers=self.headers).content
  with open(dirname, 'wb') as f:
      f.write(html3)
      print("\n%s下载成功" % four)

8、调用方法,实现功能。

 html = self.get_page(url)
 self.parse_page(html)

【七、效果展示】

1、运行程序,在控制台输入起始页,终止页,如下图所示。

用python爬虫爬取网页信息_爬虫python

2、将下载成功的图片信息显示在控制台,如下图所示。

用python爬虫爬取网页信息_爬虫python

3、保存.torrent文档。

用python爬虫爬取网页信息_爬虫python

4、如何打开种子文件?先上传到百度云盘,如下图所示。

用python爬虫爬取网页信息_爬虫python

5、双击解析下载,如下图所示。

用python爬虫爬取网页信息_爬虫python

【八、总结】

1、不建议抓取太多数据,容易对服务器造成负载,浅尝辄止即可。

2、本文章就python爬取Mikan Project,在下载种子的难点和重点,以及如何防止反爬,做出了相对于的解决方案。

3、介绍了如何去拼接字符串,以及列表如何进行类型的转换。

4、欢迎大家积极尝试,有时候看到别人实现起来很简单,但是到自己动手实现的时候,总会有各种各样的问题,切勿眼高手低,勤动手,才可以理解的更加深刻。

5、Mikan Project还提供了星期的专栏。每一天都可以看到好看的动漫。专门为喜欢动漫的小伙伴们打造的动漫视频。

6、需要本文源码的小伙伴,后台回复“动漫资源”四个字,即可获取。

看完本文有收获?请转发分享给更多的人

IT共享之家

入群请在微信后台回复【入群】

用python爬虫爬取网页信息_爬虫python 想学习更多Python网络爬虫与数据挖掘知识,可前往专业网站:http://pdcfighting.com/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/179479.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 验证市场可行性(PMF)的5个步骤[通俗易懂]

    验证市场可行性(PMF)的5个步骤[通俗易懂]在增长黑客的理念中,一切的“猜想”和“创意”都是需要经过验证的,用事实来证明猜想和创意是否可行,这其实也是增长黑客的特质之一,将所有不可量化的东西转化为可量化的评估标准。比如如何证明你的创意能够成功呢?验证PMF的其中一个标准是调研你的用户,如果40%的核心用户认为缺了你的产品会很遗憾,而不是可有可无,那么这就说明找到了P/MF;PMF到底是什么呢?你可以理解为一个指标,例如40%的用户认为没…

  • 执行力与领导力

    执行力与领导力

  • Android UI设计

    Android UI设计UI概述1、在Android应用中,UI(UserInterface)界面是人与手机之间数据传递、交互信息的重要媒介和对话接中。2、Android程序开发最重要的一个环节就是界面处理,界面的美观度直接影响用户的第一印象,因此,开发一个整齐、美观的界面是至关重要的。3、Android应用的界面是由View和ViewGroup对象构建而成的。View类是Android系统平台上用户界面表示的基本单元,View的一些子类被统称为Widgets(工具),它们提供了诸如文本输入框和按钮之类的UI对象

  • 微信小程序:微信登陆(ThinkPHP作后台)

    微信小程序:微信登陆(ThinkPHP作后台)

    2021年10月14日
  • stm32 st_基于STM32

    stm32 st_基于STM32用了不少芯片,就只有51有位操作,这个特性很喜欢,赋值简单、效率又高且节省内存,不必为了一个bool去分配一个uint8.发现stm32有Bit-Banding,就试了一下,用MDK-ARM环境下的汇编代码做了一些比较。操作,清零USART1的SR寄存器的TC位:方法一://利用USART_TypeDef这个结构寻到SR的地址,再赋值USART1->SR&amp…

    2022年10月13日
  • ps批量磨皮滤镜插件ArcSoft Portrait3+ 中文版瘦脸自动识别人脸win/mac支持2018「建议收藏」

    ps批量磨皮滤镜插件ArcSoft Portrait3+ 中文版瘦脸自动识别人脸win/mac支持2018「建议收藏」【系统支持】win系统(win10系统PS不能使用插件版,但是可以使用独立版)mac苹果系统只能使用插件版,不能使用独立版【支持PS】支持CS6-CC2108也可以独立使用苹果系统不能独立使用ArcSoftPortrait+是一款智能化的人像磨皮软件,采用世界上最尖端的人脸检测技术,能够自动检测人像脸部进行磨皮。ArcSoftPortrait+还支持批量处理功能,能同时处理上千张…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号