python:senten中的count word标记

网友

1楼 · 编辑于 2024-06-17 15:16:35

您可以使用NLTK：

import nltk
en = "i ccc bcc the a of the abc ccc dd on aaa 28 abc 19 "
print(len(nltk.word_tokenize(en)))

输出：

网友

2楼 · 编辑于 2024-06-17 15:16:35

en.split(' ')的问题是字符串中有额外的空格，它给出空匹配。您可以通过调用en.split()来很容易地解决这个问题。

但也许您可以使用正则表达式使用这种不同的方法（现在不需要先删除标点符号）：

import re
print len(re.findall(r'\w+', line))

在线查看工作：ideone

网友

3楼 · 编辑于 2024-06-17 15:16:35

使用\b来计算单词比使用regex\w+要快得多，例如：

import re
_re_word_boundaries = re.compile(r'\b')

def num_words(line):
    return len(_re_word_boundaries.findall(line)) >> 1

注意，我们必须将数字减半，因为\b在单词的开头和结尾都匹配。不幸的是，与egrep不同，Python不支持只在开头或结尾进行匹配。

如果您有很长的行并且关心内存，那么使用迭代器可能是更好的解决方案：

def num_words(line):
    return sum(1 for word in _re_word_boundaries.finditer(line)) >> 1