Python将文本文件拆分为具有字符长度限制的多个文件

2024-05-19 13:08:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试将PYTHON中的大型文本文件拆分为多个子文件,条件如下:

  1. 子文件的字符限制必须为1024个字符
  2. 完整的英语句子(即句号到下一句号)必须在同一个文件中结束
  3. 还要确保如果一行不是以1.txt结尾,那么它必须是2.txt,并且必须重新计算2.txt文件的长度(且不超过1024个字符)

我一直在尝试的代码如下(我能够遵守条件1,但无法满足条件2和3):

maxChar = len(doc_text) #doc_text is the string containing the large text
excesstext = []
times = [1024 * i for i in range(0,int(maxChar/1024))]

for i in range(0, len(times)-1):
  tempchar = ''
  tempchar = tempchar + doc_text[times[i]:times[i+1]]
  tempchar = tempchar.rsplit('.',1)
  excesstext.append(tempchar[1])
  with open( f'/content/trunc/{i}.txt', encoding='utf-8', mode='w') as f:
    if len(excesstext)>1:
      print(tempchar[0] + excesstext[i-1])
      f.write(tempchar[0] + excesstext[i-1])
    else:
      print(tempchar[0])
      f.write(tempchar[0])

如果可能的话,请帮助我。谢谢


Tags: 文件thetextintxtfordoclen