用PDFBox搜索单词的java程序
我想做一个程序,搜索pdf中的单词 使用PDFBox
这是我的小程序:
List<String> words ;// List of words
PDDocument document = PDDocument.load("D:\\INIT.pdf");
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
Comparing(content,words);//methode for searching those words on my text
System.out.println(content);
但是,有没有可能在没有带getText
的文本的情况下直接查看PDF
getText
返回一个字符串。如果我们在pdf文件中有一个大文本,那么这个字符串是否可以承载相同的文本,当文本较大且不受字符串支持时,是否有其他类型可用于此情况
# 1 楼答案
我希望你能在PDFBox中找到解决方案
整个过程比看起来要困难得多。例如,PDF文本被分成不连续的片段,空格通常表示为空格,而不是空格字符。既需要抽象片段,也需要保留人类可读文本与PDF中底层片段之间的链接。这相当棘手
无论如何,如果你在PDFBox中找不到满意的解决方案,ABCpdf会帮你解决。例如,下面的链接显示了如何在PDF中查找和突出显示关键字
http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm
我在ABCpdf工作。NET软件组件,因此我的回复可能会以基于ABCpdf的概念为特色。这正是我所知道的。:-)