Python列表减少

[[u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'crime', u'terror', u'crime', u'inform', u'servic', u'inform', u'laboratori', u'servic', u'want', u'want', u'want', u'terror', u'crime', u'want', u'news', u'news', u'press', u'news', u'servic', u'crime', u'inform', u'servic', u'laboratori', u'servic', u'servic', u'crime', u'crime', u'crime', u'terror', u'boston', u'press', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'boston', u'special', u'agent', u'remark', u'richard', u'deslauri', u'boston', u'investig', u'time', u'time', u'investig', u'boston', u'terror', u'law', u'enforc', u'boston', u'polic', u'polic', u'alreadi', u'alreadi', u'law', u'enforc', u'around', u'evid', u'boston', u'polic', u'evid', u'laboratori', u'evid', u'laboratori', u'may', u'alreadi', u'laboratori', u'investig', u'boston', u'polic', u'law', u'enforc', u'investig', u'around', u'alreadi', u'around', u'investig', u'law', u'enforc', u'evid', u'may', u'time', u'may', u'may', u'investig', u'may', u'around', u'time', u'investig', u'investig', u'boston', u'boston', u'news', u'press', u'boston', u'want', u'boston', u'want', u'news', u'servic', u'inform'], [u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'crime', u'crime', u'inform', u'servic', u'inform', u'servic', u'nation', u'want', u'ten', u'want', u'want', u'crime', u'want', u'news', u'news', u'press', u'releas', u'news', u'stori', u'servic', u'crime', u'inform', u'servic', u'servic', u'servic', u'crime', u'crime', u'crime', u'news', u'press', u'press', u'releas', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2013', u'nation', u'press', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'2011', u'foreign', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'inform', u'2011', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'foreign', u'govern', u'2011', u'inform', u'foreign', u'govern', u'nation', u'press', u'releas', u'crime', u'releas', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'nation', u'press', u'releas', u'want', u'news', u'servic', u'inform', u'govern']]

3条回答

网友

1楼 · 编辑于 2024-10-01 09:38:56

对我来说，这似乎是一个“正常化”（而不是“缩减”）任务，尽管我不确定这是否是正确的术语。在

我认为collections.Counter确实是您想要在这里使用的。它有两个方便的方法，使改变项目的数量和获得的结果非常容易。在

可以直接从列表中创建实例，计算每个项目的发生次数。Counter.most_common()给出了一个键/计数对的列表，从最大频率到最小频率进行排序。那么最小的计数是该列表中最后一个元组的第二个字段。在

Counter.subtract()是这里的关键：传递了一个与现有的Counter实例相同的键元素的列表，它将每个键的计数减少到新列表中出现的次数。要创建此列表，请使用列表理解将每个键的次数设置为与最不频繁的键的计数相等的次数（根据您的要求进行调整，即如果该计数超过某个阈值，则最终结果应出现该键一次）。嵌套列表理解是我最喜欢的一种列表扁平化方法——键的重复最初是作为它们自己的列表创建的。在

最后，Counter.elements()会给你一个列表，就像你开始的那样：每个键出现的次数等于它的计数。在

from collections import Counter

def normalize_list(L, threshold):
    cntr = Counter(L)
    least_count = cntr.most_common()[-1][1]
    if least_count > threshold:
        least_count -= 1
    cntr.subtract([item for k in cntr.keys() for item in [k] * least_count])
    return list(cntr.elements())

^{pr2}$

当然，这并不能保持原始列表的顺序。在

网友

2楼 · 编辑于 2024-10-01 09:38:56

from collections import defaultdict
d = defaultdict(int)
for w in words[0]:
    d[w] += 1
mmin = min(d[p] for p in d)

然后你可以从每个单词中减去这个mmin并创建一个新的列表。但也许这句话足够紧凑。为了保持顺序，您可以使用dict中的信息，并设计一些聪明的方法来过滤初始单词列表。在

例如，对于单词列表[a,a,a,b,b,c]，字典将包含{a:3, b:2, c:1}和{}。您可以使用这些信息，通过从所有项中减去1得到{a:2, b:1}，并且由于c是{}，因此它被删除了。在

完整代码：

^{pr2}$

网友

3楼 · 编辑于 2024-10-01 09:38:56

如果将示例模型分配给变量topics，则可以使用collections.Counter来维护所有主题及其计数的类字典对象：

from collections import Counter
topic_count = [Counter(topic) for topic in topics]
# [Counter({u'boston': 11, u'investig': 11, u'crime': 7, u'servic': 7, u'want': 6, u'press': 6, u'laboratori': 5, u'may': 5, u'news': 5, u'agent': 4, u'alreadi': 4, u'deslauri': 4, u'special': 4, u'richard': 4, u'polic': 4, u'terror': 4, u'around': 4, u'evid': 4, u'law': 4, u'remark': 4, u'inform': 4, u'enforc': 4, u'time': 4}),
#  Counter({u'tsarnaev': 13, u'inform': 12, u'govern': 9, u'tamerlan': 9, u'foreign': 8, u'news': 8, u'crime': 8, u'2011': 7, u'servic': 7, u'press': 6, u'releas': 5, u'want': 5, u'ten': 4, u'request': 4, u'stori': 4, u'nation': 4, u'2013': 4, u'dzhokhar': 4})]

相关问题更多 >

编程相关推荐

热门问题

热门文章