如何通过拆分一个连续的字符串来获得有意义的单词？

网友

1楼 · 编辑于 2024-10-01 07:27:10

我正在创建一个类似的程序。我用.split（）从句子中创建了一个单词列表。把它和字典比起来。然后是未知词。我使用了二进制映射并创建了所有可能的块组合。然后我从这些组合中分离出独特的块。把它和字典比较。现在，我有了所有可能的组合，从未知的单词和部分的单词，从字典。我比较了每一个可能的未知单词组块组合，这样我就得到了最少的可能（chunks数量-字典中该块中的单词数）。在

但我的方法很费时。也有一些像“loveiswherence”这样含糊不清的词的问题。在

网友

2楼 · 编辑于 2024-10-01 07:27:10

你可能想要text segmentation。从一个旧的链接中，我添加了书签this似乎为您完成了这项任务。您也可以使用NLTK segmentation。在

网友

3楼 · 编辑于 2024-10-01 07:27:10

对于删除\n字符条，只有当它们位于字符串的开头和结尾时才有效。在

{{{cd2>你可以不使用cd1}来连接{cd1}

对于你最初的问题，因为文本和你提取的完全一样，我要做的是首先在空间上分割

string.split(' ')

这会给你

^{pr2}$

然后您可以使用一些简单的字典映射和智能算法，如下所示：

迭代结果列表：

使用字典或一些NLP库来检查匹配项（例如故事匹配“storyThe”-因此它应该被拆分-你可以做另一个检查，以确保其余的“the”也存在于字典中
试着巧妙地忽略那些不在字典里的名字。一些NLP库可以帮助解决这个问题。在

这是一个text segmentation问题，因此您需要使用某种形式的自然语言处理来进行一些标记化和文本提取。在

@WannaBeCoder下面建议使用NLTK平台并在此处预订： http://www.nltk.org/book/

玩得开心这是挑战和酷！在

相关问题更多 >

编程相关推荐

热门问题

热门文章