【Python爬虫Scrapy框架】一、Scrapy爬虫框架的入门案例「建议收藏」

【Python爬虫Scrapy框架】一、Scrapy爬虫框架的入门案例「建议收藏」Scrapy爬虫框架的入门案例,感受一下Scrapy的强大之处。

大家好,又见面了,我是你们的朋友全栈君。

一、安装Scrapy

  1. Anaconda安装
    如果你的python是使用anaconda安装的,可以用这种方法。
conda install Scrapy
  1. Windows安装
    如果你的python是从官网下载的,你需要先安装以下的库:
    • lxml
    • pyOpenSSL
    • Twisted
    • PyWin32

安装完上述库之后,就可以安装Scrapy了,命令如下:

pip install Scrapy

我是通过anaconda安装的python,Windows方法参考自崔庆才老师著的《Python3网络爬虫开发实战》

二、Scrapy项目生成

项目生成的位置是自己可以控制的,比如我是把项目放在了D盘的scrapy_test这个文件夹。

操作如下:

  1. win+R
    在这里插入图片描述
  2. 点击确定,打开cmd
  3. 依次输入以下命令,便可以切换到自己想要的路径(需要根据自己的情况进行更改)
d:  # 切换到D盘

cd scrapy_test  # 切换到D盘的scrapy_test文件夹

在这里插入图片描述

  1. 输入命令scrapy startproject 项目名,创建项目文件夹
    示例如下:
scrapy startproject firstpro

在这里插入图片描述

  1. 切换到新创建的文件夹
cd firstpro
  1. 输入命令scrapy genspider 爬虫名 爬取网址的域名 ,创建爬虫项目
    示例如下:
scrapy genspider scenery pic.netbian.com

在这里插入图片描述

  1. 至此,一个scrapy项目创建完毕。
    在这里插入图片描述

三、爬取壁纸图片链接

1、修改settings文件

打开settings.py

  • 修改第20行的机器人协议
  • 修改第28行的下载间隙(默认是注释掉的,取消注释是3秒,太长了,改成1秒)
  • 修改第40行,增加一个请求头
  • 修改第66行,打开一个管道

详细修改内容如下:

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 1

DEFAULT_REQUEST_HEADERS = { 
   
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36'
}

ITEM_PIPELINES = { 
   
   'firstpro.pipelines.FirstproPipeline': 300,
}

2、写item文件

打开items.py

我准备爬取的内容为每张图片的名称和链接,于是我就创建了name和link这两个变量。
Field()方法实际上就是创建了一个字典。

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class FirstproItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    name = scrapy.Field()
    link = scrapy.Field()
    pass

3、写爬虫文件

打开scenery.py(打开自己的爬虫文件,这里以我的为例)

import scrapy
from ..items import FirstproItem


class ScenerySpider(scrapy.Spider):
    name = 'scenery'
    allowed_domains = ['pic.netbian.com']
    start_urls = ['https://pic.netbian.com/4kfengjing/']  # 起始url
    page = 1

    def parse(self, response):
        items = FirstproItem()
        lists = response.css('.clearfix li')
        for list in lists:
            items['name'] = list.css('a img::attr(alt)').extract_first()  # 获取图片名
            items['link'] = list.css('a img::attr(src)').extract_first()  # 获取图片链接

            yield items

        if self.page < 10:  # 爬取10页内容
            self.page += 1
            url = f'https://pic.netbian.com/4kfengjing/index_{str(self.page)}.html'  # 构建url

            yield scrapy.Request(url=url, callback=self.parse)  # 使用callback进行回调

        pass

  • 构建url
    第二页链接:https://pic.netbian.com/4kfengjing/index_2.html
    第三页链接:https://pic.netbian.com/4kfengjing/index_3.html
    根据第二第三页的链接,可以很容易的看出来,变量只能index_处的数字,且变化是逐次加1的规律。

  • css选择器
    scrapy的选择器对接了css选择器,因此定位元素,我选择了css选择器。::attr()是获取属性;extract_first()是提取列表的第一个元素。

4、写pipelines文件

打开pipelines.py
在pipeline,我们可以处理提取的数据。为了方便,我选择直接打印。

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter


class FirstproPipeline:
    def process_item(self, item, spider):
        print(item)
        return item

5、执行爬虫项目

在cmd(好久没用了,应该没关掉吧)中输入命令scrapy crawl 爬虫名
以我的作为示例:

scrapy crawl scenery

这样是不是有点麻烦,而且生成的结果在cmd中,观感很差。

优化方案

在spiders文件夹中新建run.py文件(名称随意哈),输入代码(如下),执行run.py文件即可。
在这里插入图片描述

from scrapy import cmdline

cmdline.execute('scrapy crawl scenery'.split())  # 记得爬虫名改成自己的

输出结果:
在这里插入图片描述
咱就是这观感,是不是比在cmd中好得不要太多。

四、未来可期

文章到这里就要结束了,但故事还没有结局

如果本文对你有帮助,记得点个赞?哟,也是对作者最大的鼓励?‍♂️。

如有不足之处可以在评论区?多多指正,我会在看到的第一时间进行修正

作者:爱打瞌睡的CV君
CSDN:https://blog.csdn.net/qq_44921056
本文仅用于交流学习,未经作者允许,禁止转载,更勿做其他用途,违者必究。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/153112.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • [CTO札记]BlogBus机房搬迁居然在白天,而且要1天!

    [CTO札记]BlogBus机房搬迁居然在白天,而且要1天!

  • 为何你会被强插广告/盗号?谈HTTPS连接的那些事

    为何你会被强插广告/盗号?谈HTTPS连接的那些事相信很多朋友都遇到过网页被强插广告的情况,好端端一个干净的页面,动不动就被插了个屠龙宝刀点击就送的小窗口,看着就心烦。这种网页劫持强插广告的现象,在中国非常常见,往往是运营商进行HTTP劫持所造成的。对付这种劫持,一个很好的解决办法就是HTTPS。网页劫持很多人都有遇到过,HTTPS可以比较好地防范这问题HTTPS能够加密网页传输内容,不仅可以防…

  • 求圆周率python_用python算圆周率的步骤

    求圆周率python_用python算圆周率的步骤Python你知道多少?教你玩转Python变量与常量!变量与常量变量:在程序运行过程中,值会发生变化的量常量:在程序运行过程中,值不会发生变化的量无论是变量还是常量,在创建时都会在内存中开辟一块空间,用于保存它的值。这里有一点需要注意的是,在python中是不需要声明类型的。这是根据Python的动态语言特性而来。变量可以直接使用,而不需要提…文章诸葛青云h2019-04-28997浏览量蒙…

  • Python基础知识点梳理

    Python基础知识点梳理python常见知识点梳理摘要:本文主要介绍一些平时经常会用到的python基础知识点,用于加深印象。python的详细语法介绍可以查看官方编程手册,也有一些在线网站对python语法进行了比较全面的介绍,比如菜鸟教程:python3教程|菜鸟教程本文主要是介绍基础语法,操作实例在另一篇博客中单独介绍:python语言介绍python是一门解释型语言,python的设计目标:一门…

  • smalldatetime mysql_SQL数据表中有savetime(smalldatetime类型)字段,表中有两条记录,savetime值为:2005-3-8 12:12:00和2005-6-…

    smalldatetime mysql_SQL数据表中有savetime(smalldatetime类型)字段,表中有两条记录,savetime值为:2005-3-8 12:12:00和2005-6-…SQL数据表中有savetime(smalldatetime类型)字段,表中有两条记录,savetime值为:2005-3-812:12:00和2005-6-614:02:02我用下面语句什么也搜不出来select*fromsoftwheresoft.savetimelike’%2005-3-8%’SQL帮助中说:”当搜索datetime值时,推荐使用LIKE,因为date…

  • 微型计算机的档次主要取决于,微型计算机的性能主要取决于

    微型计算机的档次主要取决于,微型计算机的性能主要取决于匿名用户1级2013-07-10回答“微型计算机的性能主要取决于什么?”主要看三大件,CPU,主板,内存。1、CPU:其功能主要是解释计算机指令以及处理计算机软件中的数据,他的速度快慢可以代表计算机处理数据的能力的高低。2、内存:它是与CPU进行沟通的桥梁,计算机中所有程序的运行都是在内存中进行的,因此内存的性能对计算机的影响非常大。3、主板:主板在整个微机系统中扮演着举足轻重的角色。主板的类型…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号