标记化检查字符串是否包含java中的非英语单词
我想知道是否有一种方法可以检查给定字符串是否包含英语单词并返回非英语子字符串。 到目前为止,我一直在尝试将一本英语词典加载到一个文件中,并通过将我的输入与词典文件中的单词进行比较来检查字符串中是否存在一个英语单词,然而这种方法非常复杂,我想知道是否有更好的方法来实现这一点,特别是在性能方面。 例如:
"here are english words this hdksn is not" => true, hdksn is not in english
true在这里表示至少包含一个英语单词
Ps:我的字符串实际上是mysql行,我正在使用Java
共 (0) 个答案