网络爬虫——scrapy案例「建议收藏」

网络爬虫——scrapy案例「建议收藏」1.创建项目打开一个终端输入(建议放到合适的路径下,默认是C盘)scrapystartprojectTXmoviescdTXmoviesscrapygenspidertxmsv.qq.com2.修改setting修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent,第四个是打开一个管道ROBOTSTXT_OBEY=FalseDOWN

大家好,又见面了,我是你们的朋友全栈君。

1.创建项目

打开一个终端输入(建议放到合适的路径下,默认是C盘)

scrapy startproject TXmovies

cd TXmovies

scrapy genspider txms v.qq.com

2.修改setting

修改三项内容,第一个是不遵循机器人协议,第二个是下载间隙,由于下面的程序要下载多个页面,所以需要给一个间隙(不给也可以,只是很容易被侦测到),第三个是请求头,添加一个User-Agent,第四个是打开一个管道

ROBOTSTXT_OBEY=False

DOWNLOAD_DELAY=1

DEFAULT_REQUEST_HEADERS={

‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,

‘Accept-Language’:’en’,

‘UserAgent’:’Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/27.0.1453.94Safari/537.36′

}

ITEM_PIPELINES={

        ‘TXmovies.pipelines.TxmoviesPipeline’:300,

}

3.确认要提取的数据,item项

item定义你要提取的内容(定义数据结构),比如我提取的内容为电影名和电影描述,我就创建两个变量。Field方法实际上的做法是创建一个字典,给字典添加一个建,暂时不赋值,等待提取数据后再赋值。下面item的结构可以表示为:{‘name’:”,’descripition’:”}。

#-*-coding:utf-8-*-

#Define here the models for your scraped items

#

#See documentation in:

#https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class TxmoviesItem (scrapy.Item):

#define the fields for your item here like:

#name=scrapy.Field()

name=scrapy.Field()

description=scrapy.Field()

4.写爬虫程序

5.交给管道输出

管道可以处理提取的数据,如存数据库。我们这里仅输出。

#-*-coding:utf-8-*-

#Define your item pipelines here

##Don’t forget to add your pipeline to the ITEM_PIPELINES setting #See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html

classTxmoviesPipeline(object):

        def process_item(self,item,spider):

                print(item)

                return item

6.run,执行项目

from scrapy import cmdline

cmdline.execute(‘scrapy crawl txms’.split()

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/153147.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • ie11安装程序遇到错误_ie11卸载不了发生错误

    ie11安装程序遇到错误_ie11卸载不了发生错误初始故障:360浏览器、ie浏览器启动后卡死,首先卸载360浏览器,出现异常,随后程序卸载中卸载ie11,重新添加时,报错0x8000ffff故障描述:无法安装ie相关内容,所有浏览器无法下载软件程序,windows搜索按钮打开无内容,所有windows组件无法添加,报错0x8000ffff,程序可选功能卸载ie11失败解决步骤:1.sfc/scannow,提示修复程序运行中,请重新启动。删除pending.xml,使用sfc/scannow扫描出错误文件,提示无法修复2.使用DISM.exe

  • Python解释器以及PyCharm的安装

    Python解释器以及PyCharm的安装通过CSDN上,大神写的教程,安装了PyCharm,现自己总结Python解释器安装以及PyCharm安装过程。一、Python解释器安装解释器(英语:Interpreter),又译为直译器,是一种电脑程序能够把高级编程语言一行一行直接转译运行。解释器不会一次把整个程序转译出来,只像一位“中间人”,每次运行程序时都要先转成另一种语言再作运行,因此解释器的程序运行速度比较缓慢。它每转译一行程序叙述就…

  • 恢复微信撤回的图片(不容root,极其简单)

    恢复微信撤回的图片(不容root,极其简单)女友最近用微信发的一些照片总是让我看一下就给撤回,作为程序员的我,当然不甘示弱,怎可以在我熟悉的领域胡作非为呢?于是上网搜了一下恢复微信撤销图片的方法,网上给出的方法各种各样,需要各种软件,还需要root,不仅晦涩难懂而且极其麻烦,一看都不适合给小白使用,作为程序员的我当然也不愿意这样,于是我就自己琢磨。首先,你要相信这样一个道理,你能看到的东西,一定会存在你手机的某个角落,如图片,声音,视频,

  • Java8高中并发

    Java8高中并发

  • MongoDB(三)——CRUD

    MongoDB(三)——CRUD

  • Supplier的使用[通俗易懂]

    Supplier的使用[通俗易懂]背景:如何将一个域关联的属性搞到一个类中,可以使用Supplier这个类publicclassSupplierTest{publicenumPersonEnum{NAME(“name”,PersonEnum::getName),AGE(“age”,PersonEnum::getAge);…

    2022年10月27日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号