大家好,又见面了,我是全栈君。
这篇博文主要讲下笔者在工作中Python多进程的实战运用和回调函数的理解和运用。
多进程实战
实战一、批量文件下载
从一个文件中按行读取 url ,根据 url 下载文件到指定位置,用多进程实现。
#!/usr/local/python27/bin/python2.7
from multiprocessing import Process,Pool
import os,time,random,sys
import urllib
# 文件下载函数
def filedown(url,file):
urllib.urlretrieve(url,file)
if __name__ == '__main__':
p = Pool(100)
count = 0
# 打开存有url的文件
f = open('11.csv','r')
while True:
count += 1
# 按行读取
url1 = f.readline()
# 当文件读取完毕时,跳出循环
if url1 == '':
break;
url = url1.strip()
file = ('/root/tuchao/d2/work/strfile/'+url.split('/')[4])
print(count)
# 使用异步多进程的方式,启动子进程,并将功能函数和参数传入.
# 注意: 这里的 args 必须传参数列表,就算是一个参数,也得写逗号结尾。
p.apply_async(filedown, args=(url,file,))
p.close()
p.join()
实战二、批量文本处理。
读取一个目录下的每个文件,过滤掉文件中的数字和中文,把每个英语单词提取出来写入 Mongodb。
使用多进程处理
#!/usr/local/python27/bin/python2.7
import re
import sys
import os
import pymongo
from multiprocessing import Process,Pool
import time
# Mongodb 连接,验证身份
conn = pymongo.MongoClient('localhost',27017)
conn.words.authenticate('words_user','woiu32k32x01')
db = conn.words
# 单词处理函数
def wordsevent(filename,mongo_insert):
with open(filename) as f:
wordsall=[]
for line in f:
# 把当前行转为小写后,判断里面是否包含小写字母。 有,表示这行是英文行,则做单词提取。 没有,表示当前行是数字或者是中文,不做处理,continue 进入下一次循环。
if line.lower().islower():
# 单词提取 re.findall 多重匹配。(r'(\w|\')+)' 表示匹配字母或者单引号出现一次或多次。这样会出现一个问题,提取出来的单词都会拆分成一个一个字母,因为正则会安装括号里面的规则去提取,\w 按字母匹配的,所以会提取字母。
# 所以才要这样写 (r'((?:\w|\')+)' 这里 ?: 写在括号的里面,表示此括号的规则只做匹配,而不提取内容。 外面还有一层括号,所以正则将会提取外面这层括号匹配的内容。 那就是一个个的单词了。
# 在正则中一对括号表示一组。
wordslist = re.findall(r'((?:\w|\')+)',line)
# 列表合并,把多个list合并到一个。
wordsall.extend(wordslist)
else:
continue
# 把list转成集合去重,因为集合中的元素是 确定性、无序性、互异性
s1=set(wordsall)
if len(s1) == 0:
pass
else:
mongo_insert(s1)
def mongo_insert(x):
db.test2.insert_many([{"word":i} for i in x])
if __name__ == '__main__':
fileall=os.listdir('strfile')
p = Pool(10)
count = 0
for i in fileall:
count += 1
filename = ('/root/tuchao/d2/work/strfile/%s' % i)
print(count,filename)
# 启动异步多进程
p.apply_async(wordsevent,args=(filename,mongo_insert,))
p.close()
p.join()
实战三、读取 word 文档
读取 word 文档,按每段取出内容,分析整篇文档中去重后的单词数量
Python可以利用python-docx模块处理word文档,处理方式是面向对象的。也就是说python-docx模块会把word文档,文档中的段落、文本、字体等都看做对象,对对象进行处理就是对word文档的内容处理。
1、了解下 python-docx 模块的几个概念
-
Document对象,表示一个word文档。
-
Paragraph对象,表示word文档中的一个段落
-
Paragraph对象的text属性,表示段落中的文本内容。
2、模块的安装和导入
pip install python-docx
# 导入模块
import docx
3、实例代码
import docx
import re
# 获取文档对象
file = docx.Document('C:\\Users\\tuchao\\Desktop\\The little princess.docx')
#统计每个章节的去重单词数
for i in range(len(file.paragraphs)):
# 循环文档的段落数,取出每一个段落的内容
data = file.paragraphs[i].text
data_list = re.split('[ ,]',data)
if len(data_list) >= 2:
if data_list[0] == 'Chapter':
print(data)
else:
words_count = len(set(data_list))
print(words_count)
# #统计整篇文章的去重单词数
count_list = []
for i in range(len(file.paragraphs)):
data = file.paragraphs[i].text
data_list = re.split('[ ,]',data)
if len(data_list) > 2:
count_list.extend(data_list)
#打印词表
print(set(count_list))
#打印单词数
print(len(set(count_list)))
# 更省内存的写法
count_set = set()
for i in range(len(file.paragraphs)):
data = file.paragraphs[i].text
data_list = re.split('[ ,]',data)
if len(data_list) > 2:
for word in data_list:
count_set.add(word)
#打印词表
print(count_set)
#打印单词数
print(len(set(count_set)))
TXT 文本的处理代码
file = open('C:\\Users\\tuchao\\Desktop\\The Adventures of Pinocchio - Carlo Collodi.txt','r')
a = re.findall(r'((?:\w|\')+)',file.read())
print(len(set(a)))
回调函数
什么是回调函数? (第一次听说回调函数的同学,请认真看下补课)
编程分为两类:系统编程(system programming)和应用编程(application programming)。所谓系统编程,简单来说,就是编写库;而应用编程就是利用写好的各种库来编写具某种功用的程序,也就是应用。系统程序员会给自己写的库留下一些接口,即API(application programming interface,应用编程接口),以供应用程序员使用。所以在抽象层的图示里,库位于应用的底下。
当程序跑起来时,一般情况下,应用程序(application program)会时常通过API调用库里所预先备好的函数。但是有些库函数(library function)却要求应用先传给它一个函数,好在合适的时候调用,以完成目标任务。这个被传入的、后又被调用的函数就称为回调函数(callback function)。
打个比方,有一家旅馆提供叫醒服务,但是要求旅客自己决定叫醒的方法。可以是打客房电话,也可以是派服务员去敲门,睡得死怕耽误事的,还可以要求往自己头上浇盆水。这里,“叫醒”这个行为是旅馆提供的,相当于库函数,但是叫醒的方式是由旅客决定并告诉旅馆的,也就是回调函数。而旅客告诉旅馆怎么叫醒自己的动作,也就是把回调函数传入库函数的动作,称为登记回调函数(to register a callback function)
可以看到,回调函数通常和应用处于同一抽象层(因为传入什么样的回调函数是在应用级别决定的)。而回调就成了一个高层调用底层,底层再回过头来调用高层的过程。
回调机制的优势
从上面的例子可以看出,回调机制提供了非常大的灵活性。请注意,从现在开始,我们把图中的库函数改称为中间函数了,这是因为回调并不仅仅用在应用和库之间。任何时候,只要想获得类似于上面情况的灵活性,都可以利用回调。
这种灵活性是怎么实现的呢?乍看起来,回调似乎只是函数间的调用,但仔细一琢磨,可以发现两者之间的一个关键的不同:在回调中,我们利用某种方式,把回调函数像参数一样传入中间函数。可以这么理解,在传入一个回调函数之前,中间函数是不完整的。换句话说,程序可以在运行时,通过登记不同的回调函数,来决定、改变中间函数的行为。这就比简单的函数调用要灵活太多了。
作者:桥头堡
链接:https://www.zhihu.com/question/19801131/answer/27459821
来源:知乎
是不是还没太明白,只是大概有点了解咋回事了。 别急看下面代码。
一个简单的回调函数的程序
#!/usr/local/python27/bin/python2.7
def a(i):
print("this is a start")
print(i)
print("this is a stop")
def b(func):
print("this is b start")
for i in range(10):
func(i)
print("this is b stop")
if __name__ == '__main__':
b(a)
输出如下:
一个使用多进程结合回调函数的示例程序
#!/usr/local/python27/bin/python2.7
from multiprocessing import Process,Pool
def a(x):
print("this is a start")
print(x)
print("this is a stop")
def b(num):
return(num)
if __name__ == '__main__':
p = Pool(5)
for i in range(10):
# 这里表示,当b函数执行完成之后就会调用a函数,并且把b函数的返回值传给a函数。
p.apply_async(b, args=(i,), callback=a)
p.close()
p.join()
输出如下:
多进程结合回调函数写文件的示例程序
http://blog.csdn.net/Q_AN1314/article/details/51923022
相信现在差不多明白了吧,还不明白的再返回上面看看理论。 理解也不是难事了。
Pymongo 相关文档
http://www.cnblogs.com/lomper/p/4776452.html?utm_source=tuicool&utm_medium=referral
http://api.mongodb.com/python/current/
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/108709.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...