java如何剥离“垃圾”字符而不丢失有效但“怪异”的字符?
我有一堆输入数据,有时我会得到一些垃圾字符,例如:
âDots Baby Shower Invitationsâ
显然,在它过去的某个时刻,它是"Dots Baby Shower Invitations"
。但我意识到它是乱七八糟的。在这种情况下,我很乐意删除垃圾â
字符
但是我的数据集非常大,仅仅删除所有非英语字符可能有点天真,就像单词naïve一样。当然,我不想ï
被删除
那么,这个问题是否有一个潜在的自动化解决方案?有人向我提出这个问题吗?这是“计算机不如人类聪明”的例子吗
# 1 楼答案
你可以使用像WordNet这样的英语词典,只修改那些在词典中找不到的单词。 例如,naïve包含一个“奇怪”字符,但它在字典中,因此不会被更改<另一方面,em>Dots也包含一个奇怪的字符,但(希望)不会出现在字典中,因此它将被修改,并且的将被删除
这可能太费劲了,但正如你所说,你需要一个快速有效的解决方案,也许值得一试。。。而且它可能会更好地工作,一个快速黑客启发