java从大型数据集中获取重复数据的最佳性能方法是什么？

2 年，5 月 Questions & Answers 154

我有一个大的Set<String>包含很多单词，比如：

“aaa，cCc，dDD，aaa，bbB，bbB，aaa，cCc，…”

我想对集合中的所有重复单词进行分组，忽略单词的大小写敏感度，然后将它们保存在Vector<Vector<String>>或其他文件中，这样每个Vector<String>项将包含类似单词的组，如下所示：

Vector<String>：aaa，aaa，aaa

Vector<String>：cCc，cCc

Vector<String>：bbB，bbB

我关心的性能，因为这一套包含许多字

Tags:

共 (4) 个答案

# 1 楼答案

这会在输入集上迭代一次，我怀疑你能得到比这快得多的速度。用ArrayList替换LinkedLists可能会用本地性换取更少的复制，这可能是一种性能提升，但我对此表示怀疑。代码如下：

Set<String> input = new HashSet<String>(Arrays.asList( "aaa", "cCc", "dDD", "AAA", "bbB", "BBB", "AaA", "CCc")); Map<String, List<String>> tmp = new HashMap<String, List<String>>(); for (String s : input) { String low = s.toLowerCase(); List<String> l = tmp.get(low); if (l == null) { l = new ArrayList<String>(); tmp.put(low, l); } l.add(s); } final List<List<String>> result = new ArrayList<List<String>>(tmp.values());

# 2 楼答案

如果你真的关心性能，你就不会使用Vector。至于排序问题，一个解决方案是使用TreeMap或TreeSet对象并创建一个Comparator来实现所需的相等（排序）

实例化可以是：

new TreeMap<String,LinkedList<String>>(new Comparator<String>() { // comparator here });

用法：

LinkedList<String> entry = map.get(nextKey); if (entry == null) { entry = new LinkedList<String>() map.put(nextKey, entry); } entry.add(nextKey);

# 3 楼答案

我将创建一个HashMap<String, Vector<String>> hashMap。接下来，对于集合中的每个“字符串”

if (!hashMap.containsKey(string.toLowerCase()){ Vector v = new Vector(); v.add(string); hashMap.put(string.toLowerCase(), v); } else { hashMap.get(string.toLowerCase()).add(string); }

最后，如果需要，创建一个向量向量，或者使用hashmap。值集（）

# 4 楼答案

如果可以选择Set实现，那么可以使用TreeSet和Comparator来比较忽略大小写的字符串。然后，您将能够迭代排序列表并轻松地对重复项进行分组

Java问题解答

专注于Java编程过程中的问题、疑难 Bug解决.

最新Java问题

java如何从Vaadin/Spring应用程序提供静态资源？

java无法在startActivityForResult中识别int？

java MongoClient实例能否长期运行

带return语句的javaifelse性能

java无法使用FirbaseUI和Cloud Firestore访问Recyclerview位置

java如何输出我存储的信息？

java如何注入同一接口的多个模拟

java在Netbeans中向Tomcat添加静态文件夹

如何使用ASM Java字节码库用相同类型的新参数替换或包装方法参数？

java文本迭代器和字符串

热门Java问题

javascript如何重定向到另一个网页？

jquery为什么我的JavaScript代码收到“No'AccessControlAllowOrigin'头出现在请求的资源上”错误，而Postman没有？

如何在Java中声明和初始化数组？

如何在Java中生成特定范围内的随机整数？

如何在Java中拆分字符串

python如果_uname _==“_umain__;”：怎么办？

java“无法找到或加载主类”是什么意思？

一行中ArrayList的java初始化

java如何创建文件并写入？

字典如何有效地迭代Java映射中的每个条目？

rest HTTP中POST和PUT的区别是什么？

foreach Java“for each”循环是如何工作的？

推荐Java问答

爪哇岛库伯内特斯的两个单独的hazelcast集群

java 安卓/eclipse未打开

java使用JPA第二次读取对象不会更新它

java从哪里调用这些方法？

在OSGI环境中定义类时发生java ClassFormatError