改进D中的线性I/O操作问题的回答

改进D中的线性I/O操作

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我需要以行方式处理大量的大中型文件（几百MB到GB），所以我对迭代行的标准D方法感兴趣。<code>foreach(line; file.byLine())</code>这个习惯用法似乎很合适，而且简洁易读，但是性能似乎不太理想。在 例如，下面是Python和D中的两个小程序，用于迭代文件的行并计算行数。对于一个约470 MB的文件（~3.6M行），我得到以下计时（最好是10次）： D次： <pre><code>real 0m19.146s user 0m18.932s sys 0m0.190s </code></pre> Python时间（在编辑2之后，见下文）： ^{pr2}$ 以下是用<code>dmd -O -release -inline -m64</code>编译的D版本： <pre><code>import std.stdio; import std.string; int main(string[] args) { if (args.length < 2) { return 1; } auto infile = File(args[1]); uint linect = 0; foreach (line; infile.byLine()) linect += 1; writeln("There are: ", linect, " lines."); return 0; } </code></pre> 现在对应的Python版本： <pre><code>import sys if __name__ == "__main__": if (len(sys.argv) < 2): sys.exit() infile = open(sys.argv[1]) linect = 0 for line in infile: linect += 1 print "There are %d lines" % linect </code></pre> 编辑2：我修改了Python代码，使用了下面注释中建议的更加惯用的<code>for line in infile</code>，这使得Python版本的速度更快，现在已经接近对Unix<code>wc</code>工具的标准<code>wc -l</code>调用的速度。在 有没有什么建议或建议可以指出我在D中可能做错了什么，那就是表现如此糟糕？在 EDIT：为了进行比较，这里有一个D版本，它将<code>byLine()</code>习语抛出窗口，一次将所有数据吸入内存，然后将数据拆分成多行。这提供了更好的性能，但仍然比Python版本慢2倍左右。在 <pre><code>import std.stdio; import std.string; import std.file; int main(string[] args) { if (args.length < 2) { return 1; } auto c = cast(string) read(args[1]); auto l = splitLines(c); writeln("There are ", l.length, " lines."); return 0; } </code></pre> 最后一个版本的时间安排如下： <pre><code>real 0m3.201s user 0m2.820s sys 0m0.376s </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

改进D中的线性I/O操作

1 个回答

相关Python问题