假设这是我的filecontent
:
When they are over 45 years old!! It would definitely help Michael Jordan.
下面是我标记集合的代码。在
st = NERTagger('stanford-ner/classifiers/english.all.3class.distsim.crf.ser.gz', 'stanford-ner/stanford-ner.jar')
tokenized_sents = [word_tokenize(sent) for sent in sent_tokenize(filecontent)]
taggedsents = st.tag_sents(tokenized_sents)
我希望tokenized_sents
和{
但以下是它们包含的内容:
^{pr2}$这是因为有双重性“!”在第一句话的结尾。我必须删除双“!”在使用st.tag_sents()
之前
我该如何解决这个问题?在
如果你按照我从另一个问题得到的解决方案,而不是使用nltk,你将得到一个JSON,它将文本正确地分成两个句子。在
{上一个问题:^链接}
相关问题 更多 >
编程相关推荐