如何加快文件创建过程？

import re import pandas as pd import math def MakeNumeric(instring): output = re.sub('[^0-9]', '', str(instring)) return str(output) def Pad(instring, padchar, length, align): if instring is None: # Takes care of NULL values instring = '' instring = str(instring).upper() instring = instring.replace(',', '').replace('\n', '').replace('\r', '') instring = instring[:length] if align == 'L': output = instring + (padchar * (length - len(instring))) elif align == 'R': output = (padchar * (length - len(instring))) + instring else: output = instring return output def FileCreation(): POLR = pd.read_parquet(r'POLR.parquet') PRP1 = pd.read_parquet(r'PRP1.parquet') PROP = pd.read_parquet(r'PROP.parquet') SUBJ = pd.read_parquet(r'SUBJ.parquet') rownum = 1 totalrownum = 1 POLRCt = 0 size = 900000 POLR = [POLR.loc[i:i + size - 1, :] for i in range(0, len(POLR), size)] FileCt = 0 print('Predicted File Count: ' + str(math.ceil(len(POLR[0])/ size)) ) for df in POLR: FileCt += 1 filename = r'OutputFile.' + Pad(FileCt, '0', 2, 'R') with open(filename, 'a+') as outfile: for i, row in df.iterrows(): row[0] = Pad(rownum, '0', 9, 'R') row[1] = Pad(row[1], ' ', 4, 'L') row[2] = Pad(row[2], '0', 5, 'R') # I do this for all 50 columns outfile.write((','.join(row[:51])).replace(',', '') + '\n') rownum += 1 totalrownum += 1 for i2, row2 in PROP[PROP.ID == row[51]].iterrows(): row2[0] = Pad(rownum, '0', 9, 'R') row2[1] = Pad(row2[1], ' ', 4, 'L') row2[2] = Pad(row2[2], '0', 5, 'R') # I do this for all 105 columns outfile.write((','.join(row2[:106])).replace(',', '') + '\n') rownum += 1 totalrownum += 1 for i3, row3 in PRP1[(PRP1['id'] == row2['ID']) & (PRP1['VNum'] == row2['vnum'])].iterrows(): row3[0] = Pad(rownum, '0', 9, 'R') row3[1] = Pad(row3[1], ' ', 4, 'L') row3[2] = Pad(row3[2], '0', 5, 'R') # I do this for all 72 columns outfile.write((','.join(row3[:73])).replace(',', '') + '\n') rownum += 1 totalrownum += 1 for i2, row2 in SUBJ[SUBJ['id'] == row['id']].iterrows(): row2[0] = Pad(rownum, '0', 9, 'R') row2[1] = Pad(row2[1], ' ', 4, 'L') row2[2] = Pad(row2[2], '0', 5, 'R') # I do this for all 24 columns outfile.write((','.join(row2[:25])).replace(',', '') + '\n') rownum += 1 totalrownum += 1 POLRCt += 1 print('File {} of {} '.format(str(FileCt),str(len(POLR)) ) + str((POLRCt - 1) / len(df.index) * 100) + '% Finished\r') rownum += 1 rownum = 1 POLRCt = 1

1条回答

网友

1楼 · 发布于 2024-05-20 13:36:30

最后，我为每个记录级别填充临时表，并创建键，然后将它们插入到一个永久的临时表中，并为键分配一个聚集索引。然后我查询结果，同时使用OFFSET和FETCH NEXT %d ROWS ONLY来减少内存大小。然后，我使用多处理库为CPU上的每个线程分配工作负载。最终，这些问题的结合将运行时间减少到了最初发布这个问题时的20%左右。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章