php使用PdfParser搭配tcpdf解析pdf文件

全栈程序员-用户IM • 2022年9月8日上午9:00 • 未分类

php使用PdfParser搭配tcpdf解析pdf文件前几天客户提出一个需求，就是在前台页面搜索文章时，若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式，若附件格式为pdf的话就将里面的文字读取出来追加到一个$string变量里，然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。我参考的一个回答地址是：https://baijiahao……

大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元售后保障童叟无欺

前几天客户提出一个需求，就是在前台页面搜索文章时，若搜索词在文章附件的pdf文件中有出现的话就要将该文章作为搜索结果。我的思路是后台发布文章时循环检测每一个附件的格式，若附件格式为pdf的话就将里面的文字读取出来追加到一个$string变量里，然后将$string的作为一个file_text字段的信息保存到数据库后面做搜索的时候使用。

我参考的一个回答地址是：https://baijiahao.baidu.com/s?id=1572245039857772&wfr=spider&for=pc

$parser = new \Smalot\PdfParser\Parser();
// 调用解析方法，参数为pdf文件路径，返回结果为Document类对象
$document = $parser->parseFile($path);
// 获取所有的页
$pages = $document->getPages();
// // 逐页提取文本
$text = ”;
foreach($pages as $page){

$text.= $page->getText();
}
echo $text;

结果如下图，已经把pdf文件里面的文字读取出来了（扫描件合成的pdf因为好像都是图片所以是读不出来内容的，编辑一个doc文件然后输出为pdf文件这样的就可以将文字读取出来），之后要这么处理就看你自己的需求啦~~~~

php使用PdfParser搭配tcpdf解析pdf文件

当然，你想自己折腾一下的话就继续往下看

ok，现在我们就使用PdfParser搭配tcpdf来读取pdf文件里面的内容。

pdfparser 下载地址：http://www.pdfparser.org/

下载好pdfparser 后将src里面的Smalot文件夹复制出来（后面下载好的tcpdf文件夹也放到该目录下）

TCPDF 类库下载地址：https://tcpdf.org/

文件目录如图示：

php使用PdfParser搭配tcpdf解析pdf文件

然后将Smalot这个文件夹放到ThinkPHP下面的library

php使用PdfParser搭配tcpdf解析pdf文件

若你用的是tp3.2.3的话还要将pdfparser 里面的类名改成testCotroller.class.php这种格式（3.2.3官方建议这种格式），tcpdf里面的include文件夹里面的类也改。如果使用的是tp5的话就不用

然后将TCPDF文件夹下的include文件夹改名为includes（不知道是不是与引入文件的include关键字冲突，或者改为你喜欢的名字也行）,对应include下类的命名空间也改下路径。

然后将TCPDF 下的TcpdfParser类下的

require_once(dirname(__FILE__).’/include/tcpdf_filters.class.php’);

改成use Smalot\TCPDF\includes\tcpdf_filters as TCPDF_FILTERS;

原因好像是使用require_once引入filters这个类的之后TcpdfParser这个类里面就有了两个命名空间，tp规定一个类里面只能有一个命名空间。

php使用PdfParser搭配tcpdf解析pdf文件

整完了这些就可以像前面那样自己写方法去调用啦。

第一次跑不通的话就自己给点耐心打断点慢慢调试。。。。。。。

tp5的话经一位老哥测试将smalot放到extend扩展文件夹，里面的类名根据你的框架配置看是否需要加.class,，然后按上面的原理调用就可以了，其他框架应该也是这个理~~

老哥还反映我那个TCPDF文件太大，删除掉一部分之后还是可以运行，下图是阉割之后的tcpdf <狗头~/>

php使用PdfParser搭配tcpdf解析pdf文件

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/196027.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

dga 分析_tcga数据库分析

dga 分析_tcga数据库分析02n-0iy6gn3ozzwmyu.7i43n9qil1g1z2-.com0e527eaf_5ec5_4623_9fe9_e459583acd72.com0fmgm1cuu7h1279dghgka0ltg.com0gqo9jx0ir0rjy4b.com0hm4mqw9hoe3gvajwi.com-0j2zkzul4p5v8zo4d0m.127f5zlwuhq7yy2qufp6l.com…

全栈程序员-用户IM
2022年9月3日
MySQL触发器

MySQL在5.0.2版本以上开始支持触发器，触发器是有某些带有命令的时间来触发某些操作，这些事件包括insert语句、delete语句、update语句等。触发器可以用于记录对数据库的操作。1、创

全栈程序员-用户IM
2021年12月25日
程序员笑话「建议收藏」

程序员笑话「建议收藏」十行代码九个警告八个错误竟然敢说七日精通六天学会五湖四海也不见如此三心二意之项目经理简直一等下流。

全栈程序员-用户IM
2022年10月22日
设计模式

GOF23—工厂设计模式练习代码和随笔

GOF23—工厂设计模式练习代码和随笔

全栈程序员-用户IM
2021年7月13日
设计模式

Java常用的设计模式

Java常用的设计模式

全栈程序员-用户IM
2021年5月5日
scrapy爬虫，爬取图片

scrapy爬虫，爬取图片

全栈程序员-用户IM
2021年11月19日

发表回复

关注全栈程序员社区公众号