Python PyPDF2、pdfplumber 提取 PDF 文本、图片内容

Python PyPDF2、pdfplumber 提取 PDF 文本、图片内容PythonPyPDF2、pdfplumber提取PDF文本、图片内容PythonPyPDF2、pdfplumber提取PDF文本、图片内容安装库安装pdfplumber安装PyPDF2内容提取代码图片提取文本提取完整代码PythonPyPDF2、pdfplumber提取PDF文本、图片内容说明本方法提取的图片并不算完整,我测试用的是阿里2017年双十一的一份P…

大家好,又见面了,我是你们的朋友全栈君。

Python PyPDF2、pdfplumber 提取 PDF 文本、图片内容

说明

本方法提取的图片并不算完整,我测试用的是阿里2017年双十一的一份PDF,AliDouble11.pdf,提取过程中有一处报错,部分图片提取不完整

由于PyPDF2 直接提取文本内容对中文支持不友好,因此结合两个库提取

安装库

安装 pdfplumber

pdfplumber 可以使用 pip 安装

pip install pdfplumber 

安装 PyPDF2

PyPDF2 需要去 GitHub 下载 https://github.com/mstamy2/PyPDF2

下载完成后解压,进入解压的目录 E:\tools\PyPDF2-master

执行 setup.py 进行安装

python setup.py install

不用pip安装的原因是 pip 下载的只更新到 1.26.0 更新日期是 2016年5月19日,只用这个版本无法提取 jpg 格式图片,会报错

Traceback (most recent call last):
  File "D:/projects/util/pdf_util.py", line 106, in extract_image
    data = xObject[obj].getData()
  File "D:\projects\util\venv\lib\site-packages\PyPDF2\generic.py", line 844, in getData
    decoded._data = filters.decodeStreamData(self)
  File "D:\projects\util\venv\lib\site-packages\PyPDF2\filters.py", line 361, in decodeStreamData
    raise NotImplementedError("unsupported filter %s" % filterType)
NotImplementedError: unsupported filter /DCTDecode

如果已安装 pypdf 建议先卸载 然后安装,卸载的时候最好检查是否卸载完全,即 PyPDF2 文件夹是否仍存在 ,否则可能会报错

ImportError: cannot import name 'paethPredictor'

内容提取代码

图片提取

示例代码在文件夹 PyPDF2-master\Scripts 下的 pdf-image-extractor.py

import time

import PyPDF2
import pdfplumber
from PIL import Image


def extract_image(page):
    try:
        # 提取第2页图片(从0开始计数)
        page_image = pdf_image_reader.getPage(pageNumber=1)
        extract_image(page_image)
        if '/XObject' in page['/Resources']:
            xObject = page['/Resources']['/XObject'].getObject()
            for obj in xObject:
                if xObject[obj]['/Subtype'] == '/Image':
                    size = (xObject[obj]['/Width'], xObject[obj]['/Height'])
                    data = xObject[obj].getData()
                    if xObject[obj]['/ColorSpace'] == '/DeviceRGB':
                        mode = "RGB"
                    else:
                        mode = "P"
                    # 保存图片的文件名前缀
                    img_pre = str(int(time.time()*1000))
                    if '/Filter' in xObject[obj]:
                        if xObject[obj]['/Filter'] == '/FlateDecode':
                            img = Image.frombytes(mode, size, data)
                            img.save(img_pre + ".png")
                        elif xObject[obj]['/Filter'] == '/DCTDecode':
                            img = open(img_pre + ".jpg", "wb")
                            img.write(data)
                            img.close()
                        elif xObject[obj]['/Filter'] == '/JPXDecode':
                            img = open(img_pre + ".jp2", "wb")
                            img.write(data)
                            img.close()
                        elif xObject[obj]['/Filter'] == '/CCITTFaxDecode':
                            img = open(img_pre + ".tiff", "wb")
                            img.write(data)
                            img.close()
                    else:
                        img = Image.frombytes(mode, size, data)
                        img.save(img_pre + ".png")
        else:
            print("本页无图片")
    except:
        print("图片提取失败")

文本提取

def extract_content(pdf_path):
    # 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfFileReader(open(pdf_path, "rb"))
        print(pdf_image_reader.getNumPages())

        content = ''
        # len(pdf.pages)为PDF文档页数,一页页解析
        for i in range(len(pdf_file.pages)):
            print("当前第 %s 页" % i)
            # pdf.pages[i] 是读取PDF文档第i+1页
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()
            if page_content:
                content = content + page_content + "\n"
                print(page_content)

完整代码

import time

import PyPDF2
import pdfplumber
from PIL import Image


def extract_image(page):
    try:
        if '/XObject' in page['/Resources']:
            xObject = page['/Resources']['/XObject'].getObject()
            for obj in xObject:
                if xObject[obj]['/Subtype'] == '/Image':
                    size = (xObject[obj]['/Width'], xObject[obj]['/Height'])
                    data = xObject[obj].getData()
                    if xObject[obj]['/ColorSpace'] == '/DeviceRGB':
                        mode = "RGB"
                    else:
                        mode = "P"
                    # 保存图片的文件名前缀
                    img_pre = str(int(time.time()*1000))
                    if '/Filter' in xObject[obj]:
                        if xObject[obj]['/Filter'] == '/FlateDecode':
                            img = Image.frombytes(mode, size, data)
                            img.save(img_pre + ".png")
                        elif xObject[obj]['/Filter'] == '/DCTDecode':
                            img = open(img_pre + ".jpg", "wb")
                            img.write(data)
                            img.close()
                        elif xObject[obj]['/Filter'] == '/JPXDecode':
                            img = open(img_pre + ".jp2", "wb")
                            img.write(data)
                            img.close()
                        elif xObject[obj]['/Filter'] == '/CCITTFaxDecode':
                            img = open(img_pre + ".tiff", "wb")
                            img.write(data)
                            img.close()
                    else:
                        img = Image.frombytes(mode, size, data)
                        img.save(img_pre + ".png")
        else:
            print("本页无图片")
    except:
        print("图片提取失败")


def extract_content(pdf_path):
    # 内容提取,使用 pdfplumber 打开 PDF,用于提取文本
    with pdfplumber.open(pdf_path) as pdf_file:
        # 使用 PyPDF2 打开 PDF 用于提取图片
        pdf_image_reader = PyPDF2.PdfFileReader(open(pdf_path, "rb"))
        print(pdf_image_reader.getNumPages())

        content = ''
        # len(pdf.pages)为PDF文档页数,一页页解析
        for i in range(len(pdf_file.pages)):
            print("当前第 %s 页" % i)
            # pdf.pages[i] 是读取PDF文档第i+1页
            page_text = pdf_file.pages[i]
            # page.extract_text()函数即读取文本内容
            page_content = page_text.extract_text()
            if page_content:
                content = content + page_content + "\n"
                print(page_content)

            # 提取图片
            page_image = pdf_image_reader.getPage(pageNumber=i)
            extract_image(page_image)


if __name__ == '__main__':
    pdf_file = "../media/AliDouble11.pdf"
    extract_content(pdf_file)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/152390.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • mysql性能分析工具_中大型suv横向测评

    mysql性能分析工具_中大型suv横向测评因为工作的原因,我有机会仔细用过市面上几乎所有的MySQL管理工具,对各家的数据库管理软件的特性有了全面的了解。我大概用了20+款MySQL管理工具,从种挑出10款最棒的写了今天的测评。其中7款免费或有社区免费版,另外3种是付费版。当初,在研究这些工具时,我发现网上那些所谓的测评推荐文章里,几乎没人真用过自己文章中写的软件,都是云测评。当时就想自己把所有软件都用一遍,找机会写一篇深度横向测评文章,帮助选择困难症患者,选到最合适大家当下工作场景的工具,节省时间。本文所写软件.

  • linux nginx启动停止命令_重启后没有nginx

    linux nginx启动停止命令_重启后没有nginx目录一、启动/usr/local/nginx/sbin/nginx-c/usr/local/nginx/conf/nginx.conf二、停止1、从容停止(1)查看进程号:ps-ef|grepnginx(2)杀死进程:kill-quitxxxx2、快速停止(1)查看进程号:ps-ef|grepnginx(2)杀死进程:kill-termxxxx/kill-intxxxx3、强制停止:pkill-9nginx三、重启1…

    2022年10月18日
  • 深入了解”网上邻居”原理「建议收藏」

    深入了解”网上邻居”原理「建议收藏」说到“网上邻居”,相信很多人都很熟悉。但是说起“网上邻居”的工作机制,可能大家就不太清楚了。要说“网上邻居”的工作机制,不妨联系一下生活中的例子:比如我(A),要拜访一个远方的朋友(B),我要去他的

  • jupyter跟python的关系_jupyter python

    jupyter跟python的关系_jupyter python大家好,我是时间财富网智能客服时间君,上述问题将由我为大家进行解答。jupyter和pycharm区别如下:1、Python是一种广泛使用的高级的、通用的、解释的、动态编程语言。”Python是一种相当古老且流行的语言,它是开源的,常被应用于网站开发(利用Django、Flask等框架)、科学统计计算(NumPy、SciPy等库可以帮助计算)、软件开发等甚至更多。Jupyter项目开…

  • quartus ii运行错误_安装quartus时弹出错误

    quartus ii运行错误_安装quartus时弹出错误使用Quartus进行数字电路设计时,遇到了下面的编译错误:Info:*******************************************************************Info:RunningQuartusII64-BitAnalysis&SynthesisInfo:Version11.0Build1570…

    2022年10月15日
  • win10开机“正在准备自动修复”,且无法修复你的电脑「建议收藏」

    win10开机“正在准备自动修复”,且无法修复你的电脑「建议收藏」昨天一顿操作,先是快速启动,后来又觉得快速启动没用又关掉了,第二天过来,发现电脑开不起来了,进到里面怎么自动修复不得行,网上大多数的答案是重装,经过半天努力摸索,终于修好了,原理就不想深究了。准备:一个U盘,并且制作PE系统。1、电脑的系统启动设置在U盘启动,进入PE系统2、打开分区工具DiskGenius点硬盘点重建主引导记录MBR(一般在开始菜单都有)3、再返…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号