我正在尝试解析一个特定的html响应,我已经成功地从页面中提取了连续字符串形式的文本。在
例如:
The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters and their names wereElsie LacieandTillie \nand they lived at the bottom of a well Blockquote
我的第一个问题是,我需要拆分字符串来获取单个单词,比如 例如:
storyOnce
应该转换成有意义的单词。。。在
[The,....,story,Once,....]
我还需要删除“\n”字符。我试着用
.strip
但似乎行不通。我想我可能用错了。 我是新手,所以请详细说明答案。那个会有帮助的。在
我正在创建一个类似的程序。我用.split()从句子中创建了一个单词列表。把它和字典比起来。然后是未知词。我使用了二进制映射并创建了所有可能的块组合。然后我从这些组合中分离出独特的块。把它和字典比较。现在,我有了所有可能的组合,从未知的单词和部分的单词,从字典。我比较了每一个可能的未知单词组块组合,这样我就得到了最少的可能(chunks数量-字典中该块中的单词数)。在
但我的方法很费时。也有一些像“loveiswherence”这样含糊不清的词的问题。在
你可能想要text segmentation。从一个旧的链接中,我添加了书签this似乎为您完成了这项任务。您也可以使用NLTK segmentation。在
对于删除
\n
字符条,只有当它们位于字符串的开头和结尾时才有效。在{{{cd2>你可以不使用cd1}来连接{cd1}
对于你最初的问题,因为文本和你提取的完全一样,我要做的是首先在空间上分割
这会给你
^{pr2}$然后您可以使用一些简单的字典映射和智能算法,如下所示:
迭代结果列表:
这是一个text segmentation问题,因此您需要使用某种形式的自然语言处理来进行一些标记化和文本提取。在
@WannaBeCoder下面建议使用NLTK平台并在此处预订: http://www.nltk.org/book/
玩得开心这是挑战和酷!在
相关问题 更多 >
编程相关推荐