您好, 欢迎来到 !    登录 | 注册 | | 设为首页 | 收藏本站

使用itextpdf提取的英文文本无法理解

使用itextpdf提取的英文文本无法理解

如果要根据文本在页面上的位置对文本进行排序,则需要引入一种特定的策略,例如LocationTextExtractionStrategy

for (int i = 1; i <= reader.getNumberOfPages(); i++) {
    String str=PdfTextExtractor.getTextFromPage(reader, i, new LocationTextExtractionStrategy());
}

LocationTextExtractionStrategy有时会导致奇怪的句子,更具体,如英文字母页面(字形不同的对同一行文本基线)上的“舞蹈”。在这种情况下,您可以尝试按SimpleTextExtractionStrategy,以按其在PDF语法内容流中出现的顺序返回文本。

其他 2022/1/1 18:27:57 有561人围观

撰写回答


你尚未登录,登录后可以

和开发者交流问题的细节

关注并接收问题和回答的更新提醒

参与内容的编辑和改进,让解决方法与时俱进

请先登录

推荐问题


联系我
置顶