擅长:python、mysql、java
<p>对于删除<code>\n</code>字符条,只有当它们位于字符串的开头和结尾时才有效。在</p>
<p>{{{cd2>你可以不使用cd1}来连接{cd1}</p>
<p>对于你最初的问题,因为文本和你提取的完全一样,我要做的是首先在空间上分割</p>
<pre><code>string.split(' ')
</code></pre>
<p>这会给你</p>
^{pr2}$
<p>然后您可以使用一些简单的字典映射和智能算法,如下所示:</p>
<p>迭代结果列表:</p>
<ul>
<li>使用字典或一些NLP库来检查匹配项(例如故事匹配“storyThe”-因此它应该被拆分-你可以做另一个检查,以确保其余的“the”也存在于字典中</li>
<li>试着巧妙地忽略那些不在字典里的名字。一些NLP库可以帮助解决这个问题。在</li>
</ul>
<p>这是一个<a href="http://en.wikipedia.org/wiki/Text_segmentation" rel="nofollow">text segmentation</a>问题,因此您需要使用某种形式的自然语言处理来进行一些标记化和文本提取。在</p>
<p>@WannaBeCoder下面建议使用<a href="http://www.nltk.org/" rel="nofollow">NLTK</a>平台并在此处预订:
<a href="http://www.nltk.org/book/" rel="nofollow">http://www.nltk.org/book/</a></p>
<p>玩得开心这是挑战和酷!在</p>