您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

如何使用Python获取两个PDF文件的差异?

如何使用Python获取两个PDF文件的差异?

“差异”是什么意思?PDF文本中的差异或某些布局更改(例如,调整了嵌入式图形的大小)。第一个很容易检测,第二个几乎无法获取(PDF是一种非常复杂的文件格式,提供了无穷无尽的文件格式化功能)。

如果要获取文本差异,只需在两个PDF上运行pdf to text实用程序,然后使用Python内置的diff库获取转换后的文本的差异。

方法的可靠性取决于您使用的PDF生成器。如果您使用Adobe Acrobat和某些基于Ghostscript的PDF- Creator从SAME单词文档中创建两个PDF,尽管源文档是相同的,但您仍可能会得到差异。

这是因为有很多方法可以将源文档的信息编码为PDF,并且每个转换器都使用不同的方法。通常,PDF到文本转换器无法找出正确的文本流,尤其是在复杂的布局或表格中。

python 2022/1/1 18:43:54 有293人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶