有 Java 编程相关的问题?

你可以在下面搜索框中键入要查询的问题!

tokenize是否有任何基于Java的智能单词标记器可以对句子中的相邻单词进行标记?

我想标记一个有相邻单词的句子,如下所示:

“这是我想说的一个样本串。”

在上面的示例中,有两种情况是“samplestring”&;“Iwanttookenize”出现在相邻单词的位置。你知道怎么用这些词做记号吗

对于这句话,理想的输出应该是(每行一个标记): 这 是 A. 样品 一串 那个 我 希望 到 标记化


共 (1) 个答案

  1. # 1 楼答案

    我建议使用像http://www.sil.org/linguistics/wordlists/english这样的单词列表 如果内存允许,将其打包到哈希集中并使用函数contains()(针对哈希比较进行了优化)

    首先,使用StringTokenizer标记字符串。 对于每个令牌,检查其是否以列表中的一个单词开头和/或结尾。 如果它以该列表中的一个单词开头和结尾,并且没有留下任何字母 在适当的原始字符串中插入空格 并再次标记化