如何读取包含换行符的文本文件？

06/01/2016, 10:40 pm - abcde 07/01/2016, 12:04 pm - abcde 07/01/2016, 12:05 pm - abcde 07/01/2016, 12:05 pm - abcde 07/01/2016, 6:14 pm - abcde fghe 07/01/2016, 6:20 pm - abcde 07/01/2016, 7:58 pm - abcde fghe ijkl 07/01/2016, 7:58 pm - abcde

3条回答

网友

1楼 · 编辑于 2024-06-24 12:11:50

考虑到','只能作为分隔符出现，我们可以检查行是否有逗号，如果没有，则将其连接到最后一行：

data = []

with open('file.txt', 'r') as text_file:
    for line in text_file:
        row = line.strip()
        if ',' not in row:
            data[-1] += '\n' + row
        else:
            data.append(row)

网友

2楼 · 编辑于 2024-06-24 12:11:50

根据您的示例输入，您可以使用具有前瞻性的regex：

pat=re.compile(r'^(\d\d\/\d\d\/\d\d\d\d.*?)(?=^^\d\d\/\d\d\/\d\d\d\d|\Z)', re.S | re.M)

with open (fn) as f:
    pprint([m.group(1) for m in pat.finditer(f.read())])

印刷品：

['06/01/2016, 10:40 pm - abcde\n',
 '07/01/2016, 12:04 pm - abcde\n',
 '07/01/2016, 12:05 pm - abcde\n',
 '07/01/2016, 12:05 pm - abcde\n',
 '07/01/2016, 6:14 pm - abcde\n\nfghe\n',
 '07/01/2016, 6:20 pm - abcde\n',
 '07/01/2016, 7:58 pm - abcde\n\nfghe\n\nijkl\n',
 '07/01/2016, 7:58 pm - abcde\n']

在Dropbox示例中，打印：

['11/11/2015, 3:16 pm - IK: 12\n',
 '13/11/2015, 12:10 pm - IK: Hi.\n\nBut this is not about me.\n\nA donation, however small, will go a long way.\n\nThank you.\n',
 '13/11/2015, 12:11 pm - IK: Boo\n',
 '15/11/2015, 8:36 pm - IR: Root\n',
 '15/11/2015, 8:36 pm - IR: LaTeX?\n',
 '15/11/2015, 8:43 pm - IK: Ws\n']

如果要删除捕获内容中的\n，只需将m.group(1).strip().replace('\n', '')添加到上面的列表中。你知道吗

正则表达式说明：

^(\d\d\/\d\d\/\d\d\d\d.*?)(?=^^\d\d\/\d\d\/\d\d\d\d|\Z)

^                                                       start of line   
    ^  ^  ^  ^   ^                                      pattern for a date  
                       ^                                capture the rest...  
                           ^                            until (look ahead)
                                      ^ ^ ^             another date
                                                  ^     or
                                                     ^  end of string

网友

3楼 · 编辑于 2024-06-24 12:11:50

您可以使用正则表达式（使用^{}模块）检查如下日期：

import re
with open('file.txt', 'r') as text_file:
  data = []
  for line in text_file:
    row = line.strip()
    if re.match(r'\d{2}/\d{2}/\d{4}.*'):  
      data.append(row)  # date: new record
    else:
      data[-1] += '\n' + row  # no date: append to last record

# '\d{2}': two digits
# '.*': any character, zero or more times

相关问题更多 >

编程相关推荐

热门问题

热门文章