python实例代码爬虫_python 网络爬虫实例代码

python实例代码爬虫_python 网络爬虫实例代码本节内容:python网络爬虫代码。一共两个文件,一个是toolbox_insight.py,是一个工具文件另一个是test.py,是一个用到toolbox_insight.py中工具的测试文件代码示例:#filename:toolbox_insight.pyfromsgmllibimportsgmlparserimportthreadingimporttimeimporturl…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

本节内容:

python 网络爬虫代码。

一共两个文件,一个是toolbox_insight.py,是一个工具文件另一个是test.py,是一个用到toolbox_insight.py中工具的测试文件 代码示例:

#filename: toolbox_insight.py

from sgmllib import sgmlparser

import threading

import time

import urllib2

import stringio

import gzip

import string

import os

#rewrite sgmlparser for start_a

class basegeturls(sgmlparser):   #这个basegeturls类作用是分析下载的网页,把网页中的所有链接放在self.url中。

def reset(self):

self.url = []

sgmlparser.reset(self)

def start_a(self, attrs):

href = [v for k, v in attrs if k == ‘href’]

if href:

self.url.extend(href)

#for quickly finding

class newlist(list):#这个类其实是一个添加了find方法的list。当num变量在list中,返回true,当不在list中,返回false并把num按二分法插入list中

def find(self, num):

l = len(self)

first = 0

end = l – 1

mid = 0

if l == 0:

self.insert(0,num)

return false

while first < end:

mid = (first + end)/2

if num > self[mid]:

first = mid + 1

elif num < self[mid]:

end = mid – 1

else:

break

if first == end:

if self[first] > num:

self.insert(first, num)

return false

elif self[first] < num:

self.insert(first + 1, num)

return false

else:

return true

elif first > end:

self.insert(first, num)

return false

else:

return true

#下面的reptile顾名思义是一个爬虫

class reptile(threading.thread):

#name:       是爬虫是名字,queue是任务队列,所有的爬虫共用同一个任务队列

#从中取出一个任务项进行运行,每个任务项是一个要下载网页的url

#result:     也是一个队列,将下载的网页中包含的url放入该队列中

#inittime:   在本程序中没有用,只是一个为了以后扩展用的

#downloadway:是下载的网页存放的路径

#configfile: 是配置文件,存放网页的url和下载下后的路径

#maxnum:     每个爬虫有个最大下载量,当下载了这么多网页后,爬虫dead

def __init__(self, name, queue, result, flcok, inittime = 0.00001, downloadway = ‘d:\\bbs\\’,configfile = ‘d:\\bbs\\conf.txt’, maxnum = 10000):

threading.thread.__init__(self, name = name)

self.queue = queue

self.result = result

self.flcok = flcok

self.inittime = inittime

self.mainway = downloadway

self.configfile = configfile

self.num = 0          #已下载的网页个数

self.maxnum = maxnum

os.makedirs(downloadway + self.getname())      #系统调用:在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹

self.way = downloadway + self.getname() + ‘\\’

def run(self):

opener = urllib2.build_opener()     #创建一个开启器

while true:

url = self.queue.get()          #从队列中取一个url

if url == none:                 #当取得一个none后表示爬虫结束工作,用于外部方便控制爬虫的生命期

break

parser = basegeturls()          #创建一个网页分析器

request = urllib2.request(url) #网页请求

request.add_header(‘accept-encoding’, ‘gzip’)#下载的方式是gzip压缩后的网页,gzip是大多数服务器支持的一种格式

try:                                         #这样可以减轻网络压力

page = opener.open(request)#发送请求报文

if page.code == 200:       #当请求成功

predata = page.read() #下载gzip格式的网页

pdata = stringio.stringio(predata)#下面6行是实现解压缩

gzipper = gzip.gzipfile(fileobj = pdata)

try:

data = gzipper.read()

except(ioerror):

print ‘unused gzip’

data = predata#当有的服务器不支持gzip格式,那么下载的就是网页本身

try:

parser.feed(data)#分析网页

except:

print ‘i am here’#有的网页分析不了,如整个网页就是一个图片

for item in parser.url:

self.result.put(item)#分析后的url放入队列中

way = self.way + str(self.num) + ‘.html’#下面的是网页的保存,不多说了

self.num += 1

file = open(way, ‘w’)

file.write(data)

file.close()

self.flcok.acquire()

confile = open(self.configfile, ‘a’)

confile.write( way + ‘ ‘ + url + ‘\n’)

confile.close()

self.flcok.release()

page.close()

if self.num >= self.maxnum:#达到最大量后退出

break

except:

print ‘end error’

#和爬虫一样是个线程类,作用是将爬虫中的result中存入的url加以处理。只要同一个服务器的网页

class proinsight(threading.thread):

def __init__(self, queue, list, homepage, inqueue):

threading.thread.__init__(self)

self.queue = queue#和爬虫中的result队列是同一个

self.list = list#是上面newlist的对象

self.homepage = homepage#主页

self.inqueue = inqueue#处理完后的url的去处

def run(self):

length = len(self.homepage)

while true:

item = self.queue.get()

if item == none:

break

if item[0:4] == ‘\r\n’:

item = item[4:]

if item[-1] == ‘/’:

item = item[:-1]

if len(item) >= len(‘http://’) and item[0:7] == ‘http://’:

if len(item) >= length and item[0:length] == self.homepage:

if self.list.find(item) == false:

self.inqueue.put(item)

elif item[0:5] == ‘/java’ or item[0:4] == ‘java’:

pass

else:

if item[0] != ‘/’:

item = ‘/’ + item

item = self.homepage + item

if self.list.find(item) == false:

self.inqueue.put(item)

主函数过程

我下载的网站是http://bbs.hit.edu.cn

开始网页是http://bbs.hit.edu.cn/mainpage.php 代码示例:

#filename:test

from toolbox_insight import *

from queue import queue

import threading

import sys

num = int(raw_input(‘enter the number of thread:’))

pnum = int(raw_input(‘enter the number of download pages:’))

mainpage = str(raw_input(‘the mainpage:’))

startpage = str(raw_input(‘start page:’))

queue = queue()

key = queue()

inqueue = queue()

list = newlist()

thlist = []

flock = threading.rlock()

for i in range(num):

th = reptile(‘th’ + str(i), queue, key, flock)

thlist.append(th)

pro = proinsight(key, list, mainpage, inqueue)

pro.start()

for i in thlist:

i.start()

queue.put(startpage)

for i in range(pnum):

queue.put(inqueue.get())

for i in range(num):

queue.put(none)

个人觉得用wxpython来实现用户界面和用数据库知识查找url是更好的扩展方向。

python网络爬虫采集联想词实例

python博客文章爬虫实现代码

python网页爬虫程序示例代码

python 网络爬虫(经典实用型)

Python 网易新闻小爬虫的实现代码

python网络爬虫的代码

python 实现从百度开始不断搜索的爬虫

Python实现天气预报采集器(网页爬虫)的教程

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/234970.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 字符串匹配–朴素算法

    字符串匹配–朴素算法假设有两个字符串M="abcdefabcdx";T="abcdx";想要找到T串在M串中的位置,要怎么找呢?通过画图来看比较过程:也就是说,从主串M的第一个字符开始分别与子串从开头进行比较,当发现不匹配时,主串回到这一轮开始的下一个字符,子串从头开始比较。直到子串所有的字符都匹配,返回所在主串中的下标。写出代码:#include&lt;iostream&gt;#include&lt;string…

  • 基于近邻的协同过滤算法

    基于近邻的协同过滤算法这节课我们来学习K近邻在推荐系统中的应用,你将完成本课程的第一个实战项目:基于KNN的电影推荐系统!为了使你能够顺利地完成实战内容,我们先了解一下推荐系统中的基础知识。基于近邻用户的协同过滤假定有一个场景:某个周日的下午,你感觉很无聊,然后从电脑上打开了一个视频网站,想看下最近有什么好看的电影。然而你发现网站上的热门电影基本都看过,其他的电影又太多,不知道该看什么。想使用搜索框去查一下,但是又不知道该搜什么关键词,这个时候你的内心很焦灼,总不能挨个去尝试吧,那时间成本也太大了…仔细想想还是有办法的,那

  • c语言位运算符的用法_c语言中位运算符及其含义

    c语言位运算符的用法_c语言中位运算符及其含义1;位运算;程序中的所有数在计算机内存中都是以二进制的形式储存的。位运算说穿了,就是直接对整数在内存中的二进制位进行操作。(均以二进制的补码形式)整数;及只能是带符号或者无符号的char,short,int,long类型;2;c语言中的6种位运算符;&按位与——如果两个相应的二进制位都为1,则该位的结果值为1,否则为0;|按位或——两个相应的二进制位中只要有一个为1,该位的结果值

  • 【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

    【甘道夫】Apache Hadoop 2.5.0-cdh5.2.0 HDFS Quotas 配额控制

    2021年12月16日
  • postman 导出python爬虫代码

    postman 导出python爬虫代码postman导出python爬虫代码importrequestsurl=”https://www.baidu.com/”payload={}headers={‘Connection’:’keep-alive’,’Cache-Control’:’max-age=0′,’sec-ch-ua’:'”GoogleChrome”;v=”95″,”Chromium”;v=”95″,”;NotABrand”;v=”99″‘,’sec-ch-ua-mobil

  • redis 乐观锁_redis 乐观锁

    redis 乐观锁_redis 乐观锁文章目录GeospatialHyperloglogBitmapsRedis事务悲观锁和乐观锁JedisSpringboot继承RedisGeospatial存储地理位置的数据结构应用场景朋友的定位,附近的人,打车距离计算Geospatial底层使用的是Zset127.0.0.1:6379> geoadd city 116.23 40.22 beijing 添加一个数据127.0.0.1:6379> geoadd city 121.47 31.23 shanghai 118.77

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号