您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

python PDFminer只解析部分页面

5b51 2022/1/14 8:20:19 python 字数 2631 阅读 453 来源 www.jb51.cc/python

我正在使用模块pdfminer python模块解析PDF文档.我只是想从这个文档中提取文本. 这个过程很顺利但是,当我提取LTText *对象时,我意识到我没有得到LTText *对象中的所有文本.它似乎有一个内部缓冲区或类似的东西导致文本被切割在每一页. 我的代码: ... for lt_text_obj in lt_objs: if isinstance(lt_text_obj, L

概述

这个过程很顺利但是,当我提取LTText *对象时,我意识到我没有得到LTText *对象中的所有文本.它似乎有一个内部缓冲区或类似的东西导致文本被切割在每一页.

我的代码

...
for lt_text_obj in lt_objs:
    if isinstance(lt_text_obj,LTTextBox) or isinstance(lt_text_obj,LTTextLine):
         if lt_text_obj._objs:
             for text_obj in lt_text_obj._objs:
                 if isinstance(text_obj,LTTextBox) or isinstance(text_obj,LTTextLine)]:
                     text_content.append(text_obj)
...

text_obj变量永远不会包含整个文本,即使pdf文件页面中的此文本始终格式相同也是如此.

我不认为问题出在代码中,因为我还使用pdf2txt.py脚本将pdf文件转换为txt,并且生成的txt文件页面也被“剪切”.

似乎问题可能是pdfminer配置或我的pdf文件格式……我完全迷失了.

有任何想法吗?

pdf2txt.py -o output.xml path/to/your_input.pdf

这个工具是pdfminder的一部分,对于调试非常有用,尝试检查结果xml以找到未正确提取的模式

总结

以上是编程之家为你收集整理的python PDFminer只解析部分页面全部内容,希望文章能够帮你解决python PDFminer只解析部分页面所遇到的程序开发问题。


如果您也喜欢它,动动您的小指点个赞吧

除非注明,文章均由 laddyq.com 整理发布,欢迎转载。

转载请注明:
链接:http://laddyq.com
来源:laddyq.com
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


联系我
置顶