有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

java如何剥离“垃圾”字符而不丢失有效但“怪异”的字符?

我有一堆输入数据,有时我会得到一些垃圾字符,例如:

âDots Baby Shower Invitationsâ

显然,在它过去的某个时刻,它是"Dots Baby Shower Invitations"。但我意识到它是乱七八糟的。在这种情况下,我很乐意删除垃圾â字符

但是我的数据集非常大,仅仅删除所有非英语字符可能有点天真,就像单词naïve一样。当然,我不想ï被删除

那么,这个问题是否有一个潜在的自动化解决方案?有人向我提出这个问题吗?这是“计算机不如人类聪明”的例子吗


共 (1) 个答案

  1. # 1 楼答案

    你可以使用像WordNet这样的英语词典,只修改那些在词典中找不到的单词。 例如,naïve包含一个“奇怪”字符,但它在字典中,因此不会被更改<另一方面,em>Dots也包含一个奇怪的字符,但(希望)不会出现在字典中,因此它将被修改,并且将被删除

    这可能太费劲了,但正如你所说,你需要一个快速有效的解决方案,也许值得一试。。。而且它可能会更好地工作,一个快速黑客启发