有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java lucene搜索

亲爱的StackOverFlow开发者:我需要你的帮助。我被困在Apache lucene中,无法在java swing应用程序中使用。这个问题太复杂了,连我都不知道该怎么问。 请尽量了解我的实际需求。 这个例子很简单,我必须给出html文件,这样客户端就可以在swing应用程序中访问它们,对于搜索工具,我决定使用ApacheLucene索引。这为我提供了搜索功能,但现在我想显示符合搜索条件的html文件数据。在JavaAPI中,我使用swing,而JEditorPane是我必须在其中显示html文件内容的控件。请建议我如何索引html文件,以及如何从lucene索引中获取html文件的内容。 html文件不仅包含文本,还包含链接、图像等

提前谢谢,希望能得到你的帮助 问候


共 (1) 个答案

  1. # 1 楼答案

    在我们的一个项目中,我们使用Lucene进行全文索引;搜索时,我们处理HTML文件的方式如下:

    • 将HTML文档按原样存储在磁盘上(也可以存储在数据库中)
    • 使用Jericho HTMLParser的HTML->;文本转换器,我们从HTML文档中提取文本、链接等
    • lucene文档有一些属性,除了HTML中的文本内容之外,还以标记化格式存储了关于HTML文件的元数据
    • 在索引前的标记化过程中,使用StandardAnalyzer保留某些标记,如电子邮件、网站链接
    • 搜索索引时,返回的点击包含符合条件的HTML文件的元数据。因此,我们能够识别要为给定搜索结果显示的HTML内容