使用Python从txt文件中删除paratext（或noise）

def removeparatext(inputFilename, outputFilename): inputfile = open(inputFilename,'rt', encoding='utf-8') outputfile = open(outputFilename, 'w', encoding='utf-8') for line_number, line in enumerate(inputfile, 1): if line_number >= 80 and line_number <= 2741: outputfile.write(inputfile.readline()) inputfile.close() outputfile.close() removeparatext(inputFilename, outputFilename)

1条回答

网友

1楼 · 发布于 2024-09-30 06:34:20

enumerate已经在索引旁边提供了行，因此您不需要再次调用file对象，因为这将导致不可预知的行为—更像是以两倍的速度读取file对象：

for line_number, line in enumerate(inputfile, 1):
    if line_number >= 80 and line_number <= 2741: 
        outputfile.write(line)
#                        ^^^^

作为使用enumerate并遍历整个文件的替代方法，您可以考虑使用^{}对文件对象进行切片，它采用开始和停止索引，然后使用^{}将切片序列写入输出文件：

from itertools import islice

def removeparatext(inputFilename, outputFilename):
    inputfile = open(inputFilename,'rt', encoding='utf-8')
    outputfile = open(outputFilename, 'w', encoding='utf-8')

    # use writelines to write sliced sequence of lines 
    outputfile.writelines(islice(inputfile, 79, 2741)) # indices start from zero

    inputfile.close()
    outputfile.close()

此外，您还可以通过使用带有with语句的上下文管理器打开文件并将关闭/清理留给Python。见How to open a file using the open with statement。你知道吗

from itertools import islice

def removeparatext(inputFilename, outputFilename):
    with open(inputFilename,'rt', encoding='utf-8') as inputfile,\
         open(outputFilename, 'w', encoding='utf-8') as outputfile:    
        # use writelines to write sliced sequence of lines 
        outputfile.writelines(islice(inputfile, 79, 2741))


removeparatext(inputFilename, outputFilename)

相关问题更多 >

编程相关推荐

热门问题

热门文章