有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

用PDFBox搜索单词的java程序

我想做一个程序,搜索pdf中的单词 使用PDFBox

这是我的小程序:

List<String> words ;// List of words 
        PDDocument document = PDDocument.load("D:\\INIT.pdf");              
        PDFTextStripper s = new PDFTextStripper();
        String content = s.getText(document);
        Comparing(content,words);//methode for searching those words on my text
        System.out.println(content);

但是,有没有可能在没有带getText的文本的情况下直接查看PDF

getText返回一个字符串。如果我们在pdf文件中有一个大文本,那么这个字符串是否可以承载相同的文本,当文本较大且不受字符串支持时,是否有其他类型可用于此情况


共 (1) 个答案

  1. # 1 楼答案

    我希望你能在PDFBox中找到解决方案

    整个过程比看起来要困难得多。例如,PDF文本被分成不连续的片段,空格通常表示为空格,而不是空格字符。既需要抽象片段,也需要保留人类可读文本与PDF中底层片段之间的链接。这相当棘手

    无论如何,如果你在PDFBox中找不到满意的解决方案,ABCpdf会帮你解决。例如,下面的链接显示了如何在PDF中查找和突出显示关键字

    http://www.websupergoo.com/helppdf9net/source/8-abcpdf.operations/8-textoperation/1-methods/group.htm

    我在ABCpdf工作。NET软件组件,因此我的回复可能会以基于ABCpdf的概念为特色。这正是我所知道的。:-)