在python文件中要替换的行集

CROD 850 123456 123457 123458 123459 PROD 850 30003 0.08 CROD 851 123456 123457 123458 123459 PROD 851 30003 0.07 CROD 852 123456 123457 123458 123459 PROD 852 30003 0.095 CROD 853 123456 123457 123458 123459 PROD 853 30003 0.095 ....

CROD 850 123456 123457 123458 123459 PROD 850 30003 0.096043 CROD 851 123456 123457 123458 123459 PROD 851 30003 0.096043 CROD 852 123456 123457 123458 123459 PROD 852 30003 0.096043 CROD 853 123456 123457 123458 123459 PROD 853 30003 0.096043

import fileinput def prop_update(newprops,bdffile): fnewprops=open(newprops,'r') fbdf=open(bdffile,'r+') newpropsline=fnewprops.readline() fbdfline=fbdf.readline() while len(newpropsline)>0: fbdf.seek(0) propname=newpropsline.split()[1] propID=newpropsline.split()[2] while len(fbdfline)>0: if propID and propname in fbdfline: bdffile.write(newpropsline) #i'm stuck here... I want to delete the old line and use updated value else: fbdfline=fbdfline.readline() newpropsline=fnewprops.readline() fnewprops.close()

2条回答

网友

1楼 · 编辑于 2024-10-01 11:23:05

您可以使用dict索引新数据。然后将原始文件写入一个新文件，逐行更新索引中的数据。看起来前三项应该是键（“prod85030003”），它们可以用(PROD\s+\d+\s+\d+)这样的正则表达式取出。你知道吗

import re
_split_new = re.compile(r"(PROD\s+\d+\s+\d+)(.*)")

# create an index for the PROD items to be updated

# this might be a bit more understandable...
#with open('updates.txt') as updates:
#    new_data = {}
#    for line in updates:
#        match = _split_new.match(line)
#        if match:
#            key, value = match.groups()
#            new_data[key] = value

# ... but this is fancier (and likely faster)
with open('updates.txt') as updates:
    new_data = dict(match.groups() 
        for match in (_split_new.search(line) for line in updates)
        if match)

# then process the updates
with open('origstuff.txt') as orig, open('newstuff.txt', 'w') as newstuff:
    # for each line in the original...
    for line in orig:
        match = _split_new.match(line)
        # ... see if its a PROD line
        if match:
            key, value = match.groups()
            # ... and rewrite with value from indexing dict (defaulting to current value)
            newstuff.write("%s%s\n" % (key, new_data.get(key, value)))
        else:
            # ... or just the original line
            newstuff.write(line)

网友

2楼 · 编辑于 2024-10-01 11:23:05

您可以从原件中取出第二行并用新行压缩它们，然后重新打开原件并写入更新的行，假定新行等于原件长度的一半：

from itertools import izip

with open("new.txt") as f,open("orig.txt") as f2:
    lines = f2.readlines()
    zipped = izip(lines[::2],f) # just use zip for python3
    with open("orig.txt","w") as out:
        for pair in zipped:
            out.writelines(pair)

如果要根据第二列对行进行排序，还需要手动剥离并插入换行符，以便将最后的行分开：

from itertools import izip,islice

with open("new.txt") as f, open("orig.txt") as f2:
    orig = sorted((x.strip() for x in islice(f2, 0, None, 2)), key=lambda x: int(x.split(None, 2)[1]))
    new = sorted((x.strip() for x in f), key=lambda x:int(x.split(None,2)[1]))
    zipped = izip(orig, new)
    with open("orig.txt","w") as out:
        for pair in zipped:
            out.write("{}\n{}\n".format(*pair))

输出：

CROD 850 123456 123457 123458 123459
PROD 850 30003 0.096043
CROD 851 123456 123457 123458 123459
PROD 851 30003 0.096043
CROD 852 123456 123457 123458 123459
PROD 852 30003 0.096043
CROD 853 123456 123457 123458 123459
PROD 853 30003 0.096043

如果长度不相同，则可以使用itertools.izip_longest，fillvalue为""，这样就不会丢失任何数据：

如果旧文件已经按顺序排列，只需忘记f2上的排序调用并使用f2.readlines()[::2]，但如果它不按顺序排列，则这将确保所有行都按第二列排序，而不管原始顺序如何。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章