网络爬虫——scrapy案例「建议收藏」

全栈程序员-用户IM • 2022年6月26日下午4:16 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

1.创建项目

打开一个终端输入（建议放到合适的路径下，默认是C盘）

scrapy startproject TXmovies

cd TXmovies

scrapy genspider txms v.qq.com

2.修改setting

修改三项内容，第一个是不遵循机器人协议，第二个是下载间隙，由于下面的程序要下载多个页面，所以需要给一个间隙（不给也可以，只是很容易被侦测到），第三个是请求头，添加一个User-Agent，第四个是打开一个管道

ROBOTSTXT_OBEY=False

DOWNLOAD_DELAY=1

DEFAULT_REQUEST_HEADERS={

‘Accept’:’text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8′,

‘Accept-Language’:’en’,

‘UserAgent’:’Mozilla/5.0(WindowsNT6.2;WOW64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/27.0.1453.94Safari/537.36′

}

ITEM_PIPELINES={

‘TXmovies.pipelines.TxmoviesPipeline’:300,

}

3.确认要提取的数据，item项

item定义你要提取的内容（定义数据结构），比如我提取的内容为电影名和电影描述，我就创建两个变量。Field方法实际上的做法是创建一个字典，给字典添加一个建，暂时不赋值，等待提取数据后再赋值。下面item的结构可以表示为：{‘name’:”,’descripition’:”}。

#-*-coding:utf-8-*-

#Define here the models for your scraped items

#See documentation in:

#https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class TxmoviesItem (scrapy.Item):

#define the fields for your item here like:

#name=scrapy.Field()

name=scrapy.Field()

description=scrapy.Field()

4.写爬虫程序

5.交给管道输出

管道可以处理提取的数据，如存数据库。我们这里仅输出。

#-*-coding:utf-8-*-

#Define your item pipelines here

##Don’t forget to add your pipeline to the ITEM_PIPELINES setting #See:https://docs.scrapy.org/en/latest/topics/item-pipeline.html

classTxmoviesPipeline(object):

def process_item(self,item,spider):

print(item)

return item

6.run，执行项目

from scrapy import cmdline

cmdline.execute(‘scrapy crawl txms’.split()

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/153147.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

网络爬虫——scrapy案例「建议收藏」

1.创建项目

2.修改setting

3.确认要提取的数据，item项

4.写爬虫程序

5.交给管道输出

6.run，执行项目

相关推荐

ie11安装程序遇到错误_ie11卸载不了发生错误

Python解释器以及PyCharm的安装

恢复微信撤回的图片（不容root，极其简单）

Java8高中并发

MongoDB(三)——CRUD

Supplier的使用[通俗易懂]

发表回复