擅长:python、mysql、java
<p>在这种情况下,可能会找到一个正则表达式,但它往往会变得混乱。你知道吗</p>
<p>相反,我建议分两步进行:</p>
<ol>
<li>将文本拆分为标记</li>
<li>使用这些标记来提取有趣的单词</li>
</ol>
<pre><code>tokens = [
'sedentary',
'.',
' ',
'Allan',
' ',
'Takocok',
'.',
' ',
'That\'s',
…
]
</code></pre>
<p>这种令牌拆分已经足够复杂了。你知道吗</p>
<p>使用这个标记列表,可以更容易地表达实际需求,因为您现在使用的是定义良好的标记,而不是任意字符序列。你知道吗</p>
<p>我在令牌列表中保留了空格,因为您可能想区分“a”。品牌名称'或'www.example.org“还有句末的点。你知道吗</p>
<p>使用这个标记列表,比以前更容易表达规则,比如“必须在前面加一个点”。你知道吗</p>
<p>我希望你的规则随着时间的推移变得相当复杂,因为你处理的是自然语言文本。因此,对令牌的抽象。你知道吗</p>