java如何剥离“垃圾”字符而不丢失有效但“怪异”的字符？

9 月，1 周 Questions & Answers 175

我有一堆输入数据，有时我会得到一些垃圾字符，例如：

âDots Baby Shower Invitationsâ

显然，在它过去的某个时刻，它是"Dots Baby Shower Invitations"。但我意识到它是乱七八糟的。在这种情况下，我很乐意删除垃圾â字符

但是我的数据集非常大，仅仅删除所有非英语字符可能有点天真，就像单词naïve一样。当然，我不想ï被删除

那么，这个问题是否有一个潜在的自动化解决方案？有人向我提出这个问题吗？这是“计算机不如人类聪明”的例子吗

Tags:

# 1 楼答案

你可以使用像WordNet这样的英语词典，只修改那些在词典中找不到的单词。例如，naïve包含一个“奇怪”字符，但它在字典中，因此不会被更改<另一方面，em>Dots也包含一个奇怪的字符，但（希望）不会出现在字典中，因此它将被修改，并且的将被删除

这可能太费劲了，但正如你所说，你需要一个快速有效的解决方案，也许值得一试。。。而且它可能会更好地工作，一个快速黑客启发