我正在处理一个CSV文件并计算第4列的唯一值。到目前为止,我已经用三种方式来编码。一个使用“if key in dictionary”,第二个陷阱捕获keyror,第三个使用“DefaultDictionary”。例如(其中x[3]是文件中的值,“a”是字典):
第一种方法:
if x[3] in a:
a[x[3]] += 1
else:
a[x[3]] = 1
第二种方法:
^{pr2}$第三种方式:
from collections import defaultdict
c = defaultdict(int)
c[x[3]] += 1
我的问题是:哪种方式更有效。。。清洁工。。。更好。。。或者有更好的方法。这两种方法都有效,给出了相同的答案,但我想我应该把蜂巢思维作为一个学习案例。在
谢谢-
你问哪个更有效。假设您谈论的是执行速度:如果您的数据很小,则无所谓。如果它是大的和典型的,那么“已经存在”的情况将比“不在dict中”的情况更频繁地发生。这个观察结果解释了一些结果。在
下面是一些代码,可以与
timeit
模块一起使用,以探索速度而不增加文件读取开销。我已经冒昧地添加了一个第五个方法,它不是没有竞争力的,至少从1.5.2[测试]以后的任何Python上都可以运行。在典型运行(在Windows XP“命令提示符”窗口中):
^{pr2}$以下是结果(每循环毫秒数):
另一次计时试验:
Counter
的速度可能是因为它部分是用Python代码实现的,而defaultdict
完全是用C实现的(至少在2.7中)。在请注意,
Counter()
不仅仅是defaultdict(int)
的“语法糖”——它实现了一个完整的bag
又名multiset
对象——有关详细信息,请参阅文档;如果您需要一些奇特的后处理,它们可能会帮助您避免重新发明轮子。如果您只想数数,请使用defaultdict
。在更新在回答@Steven Rumbalski的问题时:“我很好奇,如果将iterable移到Counter构造函数中:d=Counter(iterable)?(我有Python2.6,无法测试。)“”“
tally6:只执行
d = Count(iterable); return d
,需要60.0毫秒你可以看看源头(收藏.py在SVN存储库中。。。以下是当
iterable
不是映射实例时,Python27\Lib\collections.py
的操作:以前在任何地方见过那个密码吗?在python1.5.2
:-O
中调用可运行的代码有很多使用
collections.Counter
。Counter
是defaultdict(int)
的语法甜点,但它的酷之处在于它在构造函数中接受一个iterable,从而节省了额外的一步(我假设上面的所有示例都包装在for循环中)在引入
^{pr2}$collections.Counter
之前,collections.defaultdict
是该任务最惯用的用法,因此对于用户<;2.7,请使用defaultdict
。在相关问题 更多 >
编程相关推荐