擅长:python、mysql、java
<p>“在最短时间内完成上述任务的最佳方法”是首先找出时间的去向。研究如何评测Python脚本,以找出哪些部分速度较慢。您可能有一个效率低下的regex。写入sqlite可能是个问题。但这并不是什么灵丹妙药——一般来说,在Python中,使用正则表达式逐行处理2GB的文本,可能只需要几分钟,而不是几秒钟。在</p>
<p>下面是一个测试脚本,它将显示逐行读取文件所需的时间,而不执行其他操作:</p>
<pre><code>from datetime import datetime
start = datetime.now()
for line in open("big_honkin_file.dat"):
pass
end = datetime.now()
print (end-start)
</code></pre>