逐行读取文件的最快方法是什么？问题的回答

逐行读取文件的最快方法是什么？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我已经用Python编写了一段代码来逐行读取文件，并执行一些平均和求和操作 我需要加快速度的建议 目前<code>pressurefile</code>中的行数为945670（将更高） 原始代码 这是我发布的原始版本。根据你的建议，我正在优化代码，最后发布了最新版本 <pre class="lang-py prettyprint-override"><code> def time_average(): try: filename = mem.pressurefile navg = mem.NFRAMES dz = mem.dz zlo = mem.zlo NZ = mem.NZ mass = mem.mass dens_fact = amu_to_kg / (mem.slab_V * ang3_to_m3) array_pxx = np.zeros([NZ,1]) array_pyy = np.zeros([NZ,1]) array_pzz = np.zeros([NZ,1]) array_ndens = np.zeros([NZ,1]) array_density = np.zeros([NZ,1]) array_enthalpy = np.zeros([NZ,1]) array_surf_tens = np.zeros([NZ,1]) counter = 0 with open(filename) as f: for line in f: line.strip("\n") #content = [_ for _ in line.split()] content = line.split() if len(content) == 7: z = float(content[3]) - zlo pxx = float(content[4]) pyy = float(content[5]) pzz = float(content[6]) loc = math.floor(z/dz) if loc >= NZ: loc = loc - NZ elif loc < 0: loc = loc + NZ #print(z, loc, zlo) array_pxx[loc] += pxx array_pyy[loc] += pyy array_pzz[loc] += pzz array_ndens[loc] += 1 counter += 1 for col in range(NZ): array_pxx[col] /= navg array_pyy[col] /= navg array_pzz[col] /= navg array_ndens[col] /= navg array_density[col] = mass * dens_fact * array_ndens[col] return (array_density, array_enthalpy, array_surf_tens) except IndexError as err: writelog (err) writelog(float(content[3]) , loc, zlo) </code></pre> 到目前为止，我已经尝试了以下选项： 剖析： 使用cprofile配置主代码，并确定上述辅助函数对于74.4MB文件需要10秒。对我来说，这10秒是很高的 选项1：cython3 使用cython编译，如下所示 <pre><code> cython3 --embed -o ptythinfile.c ptythinfile.py gcc -Os -I /usr/include/python3.8 -o ptythinfile ptythinfile.c -lpython3.8 -lpthread -lm -lutil -ldl </code></pre> 这并没有带来任何性能改进 选项2：C/C++ 将整个代码转换为C/C++并编译 事实上，我的第一个代码是C++，调试是个噩梦，切换到Python。所以，我不想走这条路 选项3：Pypy3 我尝试使用Py3，但遇到了兼容性问题。我有python3.8和3.9，但pypy3一直在寻找3.6，然后我放弃了 选项4：外部C库 我阅读了有关将helper函数编译为c代码并调用python的教程。这将是我的下一次尝试 在谷歌搜索中，我发现了许多选项，如shedskin等。您能否指出优化上述代码片段的最佳方法以及可能的替代解决方案，以加快速度 更新1：2021年10月21日代码根据以下专家的评论进行更新。测试和工作良好。但是，平均代码执行时间从~10秒减少到~9.4秒 pressurefile的内容是LAMMPS软件的输出，其前几行如下所示： <pre><code> ITEM: TIMESTEP 50100 ITEM: NUMBER OF ATOMS 2744 ITEM: BOX BOUNDS pp pp pp -2.5000000000000000e+01 2.5000000000000000e+01 -2.5000000000000000e+01 2.5000000000000000e+01 -7.5000000000000000e+01 7.5000000000000000e+01 ITEM: ATOMS id x y z c_1[1] c_1[2] c_1[3] 2354 18.8358 -21.02 -70.5731 -21041.8 -3738.18 -2520.84 1708 5.54312 -8.1526 -62.6984 4362.84 -30610.2 -4065.84 </code></pre> 最后两行是我们需要处理的 最新代码 <pre class="lang-py prettyprint-override"><code> def time_average(): try: filename = mem.pressurefile navg = mem.NFRAMES dz = mem.dz zlo = mem.zlo NZ = mem.NZ mass = mem.mass dens_fact = amu_to_kg / (mem.slab_V * ang3_to_m3) array_pxx = np.zeros([NZ,1]) array_pyy = np.zeros([NZ,1]) array_pzz = np.zeros([NZ,1]) array_ndens = np.zeros([NZ,1]) #array_density = np.zeros([NZ,1]) array_enthalpy = np.zeros([NZ,1]) array_surf_tens = np.zeros([NZ,1]) counter = 0 locList = [] pxxList = [] pyyList = [] pzzList = [] with open(filename) as f: for line in f: #line.strip("\n") #content = [_ for _ in line.split()] content = line.split() if len(content) == 7: z = float(content[3]) - zlo pxx = float(content[4]) pyy = float(content[5]) pzz = float(content[6]) #loc = math.floor(z/dz) loc = int(z // dz) if loc >= NZ: loc = loc - NZ elif loc < 0: loc = loc + NZ #print(z, loc, zlo) # Not great but much faster than using Numpy functions locList.append(loc) pxxList.append(pxx) pyyList.append(pyy) pzzList.append(pzz) counter += 1 # Very fast list-to-Numpy-array conversion locList = np.array(locList, dtype=np.int32) pxxList = np.array(pxxList, dtype=np.float64) pyyList = np.array(pyyList, dtype=np.float64) pzzList = np.array(pzzList, dtype=np.float64) # Fast accumulate np.add.at(array_pxx[:,0], locList, pxxList) np.add.at(array_pyy[:,0], locList, pyyList) np.add.at(array_pzz[:,0], locList, pzzList) np.add.at(array_ndens[:,0], locList, 1) array_pxx /= navg array_pyy /= navg array_pzz /= navg array_ndens /= navg array_density = mass * dens_fact * array_ndens return (array_density, array_enthalpy, array_surf_tens) except IndexError as err: writelog (err) print(loc) writelog(float(content[3]) , loc, zlo) </code></pre> 测试计算机规格： 英特尔至强（R）W-2255CPU@3.70GHz×20 内存：16 GB 英伟达公司GP107GL[Quadro P620] 64位Ubuntu 20.04.3 LTS 当前平均代码执行时间约为2.6s（3x比原始代码快）用户@JeromeRichard的信用

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

读取文件的第一步可以通过<code>genfromtxt</code>轻松完成。这会逐行读取文件，将其拆分（就像您所做的那样），将结果收集到列表列表中，并在最后生成数组<code>pandas.read_csv</code>更快，至少在使用<code>c</code>模式时是这样，对于大文件，可能值得一试 生成保留第一列整数性质的结构化数组。通过字段名访问“columns”（如数据类型中所指定）： <pre><code>In [30]: data = np.genfromtxt('stack69665939.py',skip_header=9, dtype=None) In [31]: data Out[31]: array([(2354, 18.8358 , -21.02 , -70.5731, -21041.8 , -3738.18, -2520.84), (1708, 5.54312, -8.1526, -62.6984, 4362.84, -30610.2 , -4065.84)], dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<f8'), ('f3', '<f8'), ('f4', '<f8'), ('f5', '<f8'), ('f6', '<f8')]) </code></pre> 或以浮点形式加载所有值，生成（N，7）2d数组： <pre><code>In [32]: data = np.genfromtxt('stack69665939.py',skip_header=9) In [33]: data Out[33]: array([[ 2.35400e+03, 1.88358e+01, -2.10200e+01, -7.05731e+01, -2.10418e+04, -3.73818e+03, -2.52084e+03], [ 1.70800e+03, 5.54312e+00, -8.15260e+00, -6.26984e+01, 4.36284e+03, -3.06102e+04, -4.06584e+03]]) </code></pre> 将<code>usecols</code>指定为<code>[3,4,5,6]</code>可能会节省一些时间。您似乎只是对以下数据感兴趣： <pre><code>In [35]: z = data[:,3] In [36]: pxyz = data[:,[4,5,6]] In [37]: z Out[37]: array([-70.5731, -62.6984]) In [38]: pxyz Out[38]: array([[-21041.8 , -3738.18, -2520.84], [ 4362.84, -30610.2 , -4065.84]]) </code></pre> 然后，您似乎对<code>z</code>执行了一些操作来派生一个<code>loc</code>，并使用它来组合“pxyz”数组的“行”。我不想再重复了 无论如何，通常在处理大型<code>csv</code>文件时，我们一步读取，然后稍后处理生成的数组或数据帧。阅读时进行处理是可能的，但通常不值得付出努力

逐行读取文件的最快方法是什么？

1 个回答

相关Python问题