PyPDF2的使用「建议收藏」

PyPDF2的使用「建议收藏」pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑在这篇文章中,我们将学习如何做一些pdf的操作:从PDF中提取文字旋转pdf页合并pdf分割pdf向pdf页中添加水印使用简单的python脚本1、安装我们将使用第三方的模块PyPDF2PyPDF2是作为PDF…

大家好,又见面了,我是你们的朋友全栈君。

pdf使用Adobe公司开发,现在由国际标准化组织ISO进行维护。PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑

在这篇文章中,我们将学习如何做一些pdf的操作:

从PDF中提取文字

旋转pdf页

合并pdf

分割pdf

向pdf页中添加水印

使用简单的python脚本

1、安装

我们将使用第三方的模块 PyPDF2


PyPDF2是作为PDF工具包构建的python库,它能够:
  • 提取文档信息(标题,作者,…)
  • 按页拆分文档
  • 逐页合并文档
  • 裁剪页面
  • 合并多个页面到一个页
  • 对pdf文档进行加密解密
  • 等等

安装PyPDF2,在命令行下执行命令:

pip install PyPDF2

注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的

2、使用模块

– 从pdf中提取文字

import PyPDF2

pdfFile = open('example.pdf','rb')

pdfReader = PyPDF2.PdfFileReader(pdfFile)

print(pdfReader.numPages)

page = pdfReader.getPage(0)

print(page.extractText())

pdfFile.close()

在我的机子上输出如下:

241


Copyright © 201
7
 
by OriginLab Corporation
 
 
All rights reserved. No part of the contents of this book may be reproduced or 
transmitted in any form or by any means without the written permission of OriginLab 
Corporation.
 
 
OriginLab, Origin, 
and LabTalk are either registered trademarks or trademarks of 
OriginLab Corporation. Other product and company names mentioned herein may be 
the trademarks of their respective owners.

我们来逐步分析一下上面的代码

pdfFile = open('example.pdf','rb')

我们以二进制的方式打开example.pdf,并且保存为pdfFile

pdfReader = PyPDF2.PdfFileReader(pdfFile)

我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象

print(pdfReader.numPages)

numPages 属性保存了pdf的页数,在我的例子中,numPages = 241

page = pdfReader.getPage(0)

现在,我们创建了一个page对象。pdfReader的getPage方法可以接受页码参数,并返回页面对象。

print(page.extractText())

page的extractText()方法,可以提取出页面中的文字

pdfFile.close()

最后,关闭打开的example.pdf

注意:虽然PDF文件非常适合以一种便于打印和阅读的方式显示文本,但是对于软件来说,将其解析为纯文本并不容易。因此,PyPDF2在从PDF中提取文本时可能会出错,甚至可能根本无法打开某些PDF。不幸的是,你对此无能为力。PyPDF2可能无法处理某些特定的PDF文件。

– 旋转pdf页


import PyPDF2

def PDFrotate(origFileName,newFileName,rotation):
    pdfFile = open(origFileName,'rb')
    pdfReader = PyPDF2.PdfFileReader(pdfFile)
    pdfWriter = PyPDF2.PdfFileWriter()

    for page in range(pdfReader.numPages):
        pageObj = pdfReader.getPage(page)
        pageObj.rotateClockwise(rotation)

        pdfWriter.addPage(pageObj)

    newFile = open(newFileName,'wb')
    pdfWrite.write(newFile)

    pdfFile.close()
    newFile.close()

def main():
    origFileName = 'example.pdf'
    
    newFileName = 'rotated_example.pdf'

    rotation = 270

    PDFrotate(origFileName,newFileName,rotation)

if __name__ == "__main__":
    main()

我们看一下关键的代码:

pdfWriter = PyPDF2.PdfFileWriter()

因为我们是将旋转后的页面写入新的pdf,所以首先创建一个PdfFileWriter对象:pdfWriter。

for page in range(pdfReader.numPages):
        pageObj = pdfReader.getPage(page)
        pageObj.rotateClockwise(rotation)

        pdfWriter.addPage(pageObj)

通过pdfReader.numPages,获取pdf的页数,然后进行循环。
循环体中,先创建每一页的对象,然后调用页面对象的rotateClockwise方法,传入的参数是顺时针旋转的度数。最后,旋转后的页面对象作为参数传给pdfWriter的addPage方法。

newFile = open(newFileName,'wb')
    pdfWrite.write(newFile)

    pdfFile.close()
    newFile.close()

打开新的文件,以写的方式,将我们新生成的pdf写入。然后关闭两个文件

– 合并pdf文件

import PyPDF2

def PDFmerge(pdfs,output):
    
    #创建一个pdf文件合并对象
    pdfMerger = PyPDF2.PdfFileMerger()
    
    #逐个添加pdf
    for pdf in pdfs:
        with open(pdf,'rb') as f:
            pdfMerger.append(f)

    #将内存中合并的pdf文件写入
    with open(output,'wb') as f:
        pdfMerger.write(f)

def main():
    #需要合并的pdf名称
    pdfs = ['example.pdf','testexample.pdf']
    
    #合并完成的pdf名称
    output = 'combined_example.pdf'

    #调用PDFmerge函数,进行合并
    PDFmerge(pdfs,output)
if __name__ == '__main__':
    main()

– 给pdf添加水印

import PyPDF2

def add_watermark(wmFile,pageObj):
    #打开水印pdf文件
    wmFileObj = open(wmFile,'rb')
    
    #创建pdfReader对象,把打开的水印pdf传入
    pdfReader = PyPDF2.PdfFileRdader(wmFileObj)
    
    #将水印pdf的首页与传入的原始pdf的页进行合并
    pageObj.mergePage(pdfReader.getPage(0))

    wmFileObj.close()
    return pageObj

def main():
    
    #水印pdf的名称
    watermark = 'watermark.pdf'

    #原始pdf的名称
    origFileName = 'example.pdf'

    #合并后新的pdf名称
    newFileName = 'watermark_example.pdf'

    #打开原始的pdf文件,获取文件指针
    pdfFileObj = open(origFileName,'rb')

    #创建reader对象
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

    #创建一个指向新的pdf文件的指针
    pdfWriter = PyPDF2.PdfFileWriter()

    #通过迭代将水印添加到原始pdf的每一页
    for page in range(pdfReader.numPages):
        wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))
        
        #将合并后的即添加了水印的page对象添加到pdfWriter
        pdfWriter.addpage(wPageObj)

    #打开新的pdf文件
    newFile = open(newFileName,'wb')
    #将已经添加完水印的pdfWriter对象写入文件
    pdfWriter.write(newFile)

    #关闭原始和新的pdf
    pdfFileObj.close()
    newFile.close()

if __name__ == '__main__':
    main()

过程大致和旋转的例子一样

wmPageObj = add_watermark(mywatermark,pdfReader.getPage(page))

我们通过自定义的add_watermark函数将水印与原始pdf页进行合并。
让我们来观察一下add_watermark函数

wmFileObj = open(wmFile, 'rb')
pdfReader = PyPDF2.PdfFileReader(wmFileObj) 
pageObj.mergePage(pdfReader.getPage(0))
wmFileObj.close()
return pageObj

首先,我们创建了一个pdf reader对象。对于传递的页面对象,我们使用mergePage()函数传递水印,这将在传递的页面对象上覆盖水印。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/152393.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Delphi中QuotedStr介绍及使用

    Delphi中QuotedStr介绍及使用delphi函数给字符串两边加单引号并返回.声明:functionQuotedStr(constS:string):string;用函数QuotedStr把字符串S转换成为用引号括起来的字符串。单引号”‘”将被插入到字符串s的最前和最后。例如:abc->’abc’

    2022年10月18日
  • 散文说python半篇——景观三元论与盖茨比的对话「建议收藏」

    散文说python半篇——景观三元论与盖茨比的对话

  • linux p2v步骤,P2V操作完整步骤,物理机转换openstack虚拟机

    linux p2v步骤,P2V操作完整步骤,物理机转换openstack虚拟机注意:P2V之前系统盘要给足够,迁移会出现根目录空间不足情况。本次实验根目录有800G,virshpool池用的是/var/lib/glance的空间1.8T。迁移中出现问题,参考本博客《P2V问题汇总》文章。1、文件上传virtio和p2v安装包上传更新YUM源,参考本博客里面《Centos更新源.docx》再安装:yum-yinstallqemu-kvmlibvirtpyth…

  • 人工智能实验猴子摘香蕉_猴子拿香蕉实验感悟

    人工智能实验猴子摘香蕉_猴子拿香蕉实验感悟题目意思:猴子定义了4个状态空手移动,推箱子,爬箱子,摘香蕉用(w,x,y,z)描述w定义了猴子位置x为1表示猴子在箱子上,0表示不在箱子上y表示箱子位置z为1表示猴子摘到香蕉(结束),为0表示没有摘到香蕉(继续搜索)目前仍有些bug随机生产猴子箱子香蕉的位置,通过BFS搜索并记录路径得出猴子的行走轨迹(因为是宽松搜,得到的就是最优解)#…

  • Windows Server 2016 检查更新时,错误代码8024401C 的解决方案 …

    Windows Server 2016 检查更新时,错误代码8024401C 的解决方案 …这个问题的核心是连接不到更新服务器,有多种解决方案(如给SoftwareDistribution改名、疑难解答等),还有一部分情况是因为IPV6导致,关闭IPV6即可解决。如果其他办法都不好用可以试试这个~WindowsServer关闭ipv6的办法:开始->运行->输入Regedit进入注册表编辑器定位到:[HKEY_…

  • CDMA是什么网络类型_WCDMA

    CDMA是什么网络类型_WCDMAGSM,中文翻译作全球移动通信系统,是目前世界上应用最广泛的第二代移动通信制式(2G),目前联通和移动的2G网络都运营这个制式。WCDMA,中文翻译作宽带码分多址,是由GSM阵营发展而来,也是目前全球应用最广泛、支持的机型最多、网速最快的第三代移动通信制式(3G),目前联通的3G网络采用这个制式。HSDPA,中文翻译作高速下行分组接入技术,和HSUPA并称HSPA技术,HSDPA强化了WCDMA

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号