Pythonre.sub公司上下文不匹配时替换字符

2024-10-01 11:19:35 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在清理一些损坏的csv文件。一个问题是,它们在数据字段中包含换行符,因此将一个数据集一分为二。我正在寻找一段python代码,如果换行符后面不跟8位数字,它可以消除换行符。目前我的代码:

filetoparse = open('test.csv', encoding='utf-8')
data = filetoparse.read()

data = re.sub(r'\n(\d{8})',r'§§§\1',data)
data = re.sub(r'\n',r'',data)
data = re.sub(r'§§§','\n',data)

基本上,我使用§§§作为正确换行的占位符,消除数据中的所有换行符,然后用换行符替换占位符。在

它确实有用,但有没有办法可以更优雅地做到这一点呢?在


Tags: 文件csv数据代码testrereaddata