有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java如何从几个不同的源导入和合并相似(但不相等)的文本

我正在从几个文件(excel文件)导入一组数据,这些文件每天保存没有标识符的记录。 然后将所需的数据存储在关系数据库(Oracle)中

问题是文本可能与每个资源略有不同,因为没有唯一的标识符,我需要以文本值为基础进行比较

比如说,我从不同的来源获得这些信息:

Source A: The Dark Knight
Source B: Batman The Dark Knight
Source C: The Dark Knight 2008
Source D: The Dark Knight Rises

如果数据库已经保存了一个名为“黑暗骑士”的项目,那么当我从源A、B、C导入这行代码时,我会得到一个“完全匹配”,但对于D则不会,因为这是一部不同的电影

需要知道的事情:

  • 该过程不是100%自动化的,因此如果没有匹配,将有一个用户交互来手动匹配或创建新记录
  • 虽然存在用户交互,但我希望将其保持在最低限度(尤其是在用户手动匹配项目之后)

如何解决这个问题,而不让数据库中的每一项都有大量同义词


共 (1) 个答案

  1. # 1 楼答案

    更新日期:2013年5月21日

    我发现:http://matpalm.com/resemblance/

    这是对雅卡系数的使用。尽管我不确定它是否最适合我的情况,因为它比较复杂,匹配m x n次,其中m是导入记录的大小,n是可能数万长的数据库记录总数