“差异”是什么意思?PDF文本中的差异或某些布局更改(例如,调整了嵌入式图形的大小)。第一个很容易检测,第二个几乎无法获取(PDF是一种非常复杂的文件格式,提供了无穷无尽的文件格式化功能)。
如果要获取文本差异,只需在两个PDF上运行pdf to text实用程序,然后使用Python内置的diff库获取转换后的文本的差异。
此方法的可靠性取决于您使用的PDF生成器。如果您使用Adobe Acrobat和某些基于Ghostscript的PDF- Creator从SAME单词文档中创建两个PDF,尽管源文档是相同的,但您仍可能会得到差异。
这是因为有很多方法可以将源文档的信息编码为PDF,并且每个转换器都使用不同的方法。通常,PDF到文本转换器无法找出正确的文本流,尤其是在复杂的布局或表格中。