用于Python的两个最常用的PDF库是:
两者都是纯python,因此应该易于安装以及跨平台。
有了pyPdf,它可能和做起来一样简单:
from pyPdf import PdfFileReader
doc = PdfFileReader(file("upload.pdf", "rb"))
这应该足够了,但是如果您要进行进一步检查,doc
现在将具有documentInfo()
和numPages()
方法。
正如Carl回答的那样,pdftotext也是一个很好的解决方案,并且在非常大的文档(尤其是具有很多交叉引用的文档)上可能会更快。但是,由于分叉新进程的系统开销等原因,在小PDF上可能会稍慢一些。