擅长:python、mysql、java
<p>我将跳过这个显而易见的问题(即:“到目前为止,您尝试了什么?”)。您可能已经发现,punkSentenceTokenizer在这里并没有真正帮助您,因为它会将您的输入语句留在一块。
最好的解决方案很大程度上取决于你的输入的可预测性。下面的内容将在您的示例中起作用,但是正如您所看到的,它依赖于冒号和一些逗号,如果它们不在那里,则对您没有帮助。在</p>
<pre><code>import re
from nltk import PunktSentenceTokenizer
s = 'The api allows the user to achieve following goals: (a) aXXXXXX ,(b)bXXXX, (c) cXXXXX.'
#sents = PunktSentenceTokenizer().tokenize(s)
p = s.split(':')
for l in p[1:]:
i = l.split(',')
for j in i:
j = re.sub(r'\([a-z]\)', '', j).strip()
print("%s: %s" % (p[0], j))
</code></pre>