最初的PDF格式(已有20多年的历史)从未打算用作可提取的,有意义的结构化数据的宿主。
其目的是为文档中的文本,图像和图表提供可靠的视觉表示-一种数字纸(也可以通过打印将其可靠地转换为真实纸)。仅在其开发的后期,才添加了更多功能,这些功能应有助于再次提取数据(google为Tagged PDF)。
有关从PDF抓取表格时出现的一些问题示例,请参阅本文:
为什么为文档更新美元如此困难
更新资料 我最近创建了一个ASCiinema截屏视频,演示了如何使用Tabula命令行界面从PDF中将大表提取为CSV:
(单击上面的图像查看它的运行。如果它运行太快而无法阅读所有文本,请使用“暂停”按钮(||-symbol)。)