mylist = [('country', 'NN'), ('shoot', 'NN-DT-PPL'), ('threats', 'NN-JJ'), ('both','RB-JJ-NN'), ('during', 'NN-VBD-JJ-RB'), ('former', 'NN-RB'), ('school', 'NN-CC-JJ-DT'),
('teacher', 'NN-VBZ-PPL-JJ-DT'), ('receive', 'VBZ'), ('batman', 'NN-IN-ABX-CD-RB')]
我有一张名单叫mylist。它由元组和单词及其随机标记组成。我不想使用reg-ex。最小标签是1,最大标签是5。我想有5个不同的名单根据标签的数量。你知道吗
对于一个标签元组,我尝试了以下方法:
one=[]
for i in mylist:
if '-' not in i[1]:
one.append(i)
print one
正确打印[('country', 'NN'), [('receive', 'VBZ')
。你知道吗
对于第二个标签,我希望打印[('threats', 'NN-JJ'), [('former', 'NN-RB')
依此类推,第三,第四和第五个标签集。我不知道怎么做。你知道吗
我的实际文件有n
个标记,它由大约1000万个单词和它们的标记组成。有没有什么方法可以让我们知道哪个词有最大的不同标签?你知道吗
这会很有帮助的!你知道吗
您可以使用
defaultdict
来组织数据,使用.count
来计算-
的数量。你知道吗您可以使用以下代码打印结果。你知道吗
印刷品:
其他方法
相关问题 更多 >
编程相关推荐