我正在致力于一个持续学习的网络爬虫,以寻找与世界各地发生的特定危机和悲剧事件相关的新闻文章。我目前正在努力使数据模型尽可能的精简和高效,考虑到它在爬行过程中的不断增长。在
我将数据模型存储在一个列表中(对正在爬网的页面进行TFIDF比较),我希望减小列表的大小,但不丢失列表中每个项目的相对计数。在
这是来自2个爬网网页的示例模型:
[[u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'crime', u'terror', u'crime', u'inform', u'servic', u'inform', u'laboratori', u'servic', u'want', u'want', u'want', u'terror', u'crime', u'want', u'news', u'news', u'press', u'news', u'servic', u'crime', u'inform', u'servic', u'laboratori', u'servic', u'servic', u'crime', u'crime', u'crime', u'terror', u'boston', u'press', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'remark', u'special', u'agent', u'richard', u'deslauri', u'press', u'investig', u'boston', u'special', u'agent', u'remark', u'richard', u'deslauri', u'boston', u'investig', u'time', u'time', u'investig', u'boston', u'terror', u'law', u'enforc', u'boston', u'polic', u'polic', u'alreadi', u'alreadi', u'law', u'enforc', u'around', u'evid', u'boston', u'polic', u'evid', u'laboratori', u'evid', u'laboratori', u'may', u'alreadi', u'laboratori', u'investig', u'boston', u'polic', u'law', u'enforc', u'investig', u'around', u'alreadi', u'around', u'investig', u'law', u'enforc', u'evid', u'may', u'time', u'may', u'may', u'investig', u'may', u'around', u'time', u'investig', u'investig', u'boston', u'boston', u'news', u'press', u'boston', u'want', u'boston', u'want', u'news', u'servic', u'inform'], [u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'crime', u'crime', u'inform', u'servic', u'inform', u'servic', u'nation', u'want', u'ten', u'want', u'want', u'crime', u'want', u'news', u'news', u'press', u'releas', u'news', u'stori', u'servic', u'crime', u'inform', u'servic', u'servic', u'servic', u'crime', u'crime', u'crime', u'news', u'press', u'press', u'releas', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'2013', u'nation', u'press', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'tamerlan', u'tsarnaev', u'dzhokhar', u'tsarnaev', u'2011', u'foreign', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'inform', u'2011', u'govern', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'foreign', u'govern', u'2011', u'inform', u'foreign', u'govern', u'nation', u'press', u'releas', u'crime', u'releas', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'ten', u'news', u'stori', u'2013', u'2011', u'request', u'inform', u'tamerlan', u'tsarnaev', u'foreign', u'govern', u'nation', u'press', u'releas', u'want', u'news', u'servic', u'inform', u'govern']]
我希望维护单词列表,而不是将计数嵌入列表本身。我希望列表来自:
[波士顿,波士顿,爆炸案,爆炸案,察尔纳耶夫,察尔纳耶夫,时间]到[波士顿,波士顿,爆炸案,察尔纳耶夫]
基本上,如果我有一个列表[a,a,a,b,b,c],我想把它减少到[a,a,b]
编辑:很抱歉不清楚,但我会再试一次。 我不想要一套。出现的次数非常重要,因为它是一个加权列表,所以“波士顿”应该比“时间”或其他类似术语出现更多次。我要做的是最小化数据模型,同时从模型中删除不重要的项。所以在上面的例子中,我故意省略了C,因为它给模型增加了很多“脂肪”。我想保持相对性,因为A比B多出现1次,比C多出现2次,但由于C在原始模型中只出现过一次,所以它被从精益模型中删除。在
对我来说,这似乎是一个“正常化”(而不是“缩减”)任务,尽管我不确定这是否是正确的术语。在
我认为
collections.Counter
确实是您想要在这里使用的。它有两个方便的方法,使改变项目的数量和获得的结果非常容易。在可以直接从列表中创建实例,计算每个项目的发生次数。
Counter.most_common()
给出了一个键/计数对的列表,从最大频率到最小频率进行排序。那么最小的计数是该列表中最后一个元组的第二个字段。在Counter.subtract()
是这里的关键:传递了一个与现有的Counter
实例相同的键元素的列表,它将每个键的计数减少到新列表中出现的次数。要创建此列表,请使用列表理解将每个键的次数设置为与最不频繁的键的计数相等的次数(根据您的要求进行调整,即如果该计数超过某个阈值,则最终结果应出现该键一次)。嵌套列表理解是我最喜欢的一种列表扁平化方法——键的重复最初是作为它们自己的列表创建的。在最后,
Counter.elements()
会给你一个列表,就像你开始的那样:每个键出现的次数等于它的计数。在^{pr2}$
当然,这并不能保持原始列表的顺序。在
然后你可以从每个单词中减去这个mmin并创建一个新的列表。但也许这句话足够紧凑。为了保持顺序,您可以使用dict中的信息,并设计一些聪明的方法来过滤初始单词列表。在
例如,对于单词列表}。您可以使用这些信息,通过从所有项中减去1得到},因此它被删除了。在
[a,a,a,b,b,c]
,字典将包含{a:3, b:2, c:1}
和{{a:2, b:1}
,并且由于c
是{完整代码:
^{pr2}$如果将示例模型分配给变量
topics
,则可以使用collections.Counter
来维护所有主题及其计数的类字典对象:相关问题 更多 >
编程相关推荐