如何更正ASCII数据中的格式错误或使用python正确读取数据？

def get_col(col): f = open(file_name, 'r') col_data = [] # Loop over lines and extract column of interest for line in f: line = line.strip() columns = line.split() col_data.append(float(columns[col])) f.close() return col_data

17 127 15 3.61 0 0 0 3.61 0 0 0 0 0 0 17 128 15 3.61 0 0 0 3.61 0 0 0 0 0 0 17 129 15 11.1 2 0.0 0 0.0 0 2.1 2 3.6 4 0.0 1 0.0 0 0.0 0 4.7 3 0.6 2 0.00 17 130 15 11.1 2 0.0 0 0.0 0 2.1 2 3.6 4 0.0 1 0.0 0 0.0 0 4.7 3 0.6 2 0.00 Correct row 4: 17 130 14 11.12 0.00 0.00 2.12 3.64 0.01 0.01 0.00 4.73 0.62 0.00

3条回答

网友

1楼 · 编辑于 2024-09-26 22:51:58

Fabio的答案确实很好，但可能不需要考虑损坏的数据并不总是像示例那样。在给定的文件中，有这样的行，其中错误以点结束或开始：

17      217     20.     1 0.2     1 0   .10 0.0

我建议使用这个正则表达式来修正行并保持相同的格式（每列之间有表格）

correct_line = re.sub(r"\t[\d\.]+ {1}", lambda t: t.group(0).strip()+'\t' , line)

网友

2楼 · 编辑于 2024-09-26 22:51:58

您可以使用以下正则表达式处理每一行：

re.sub(r"(\.\d*)\s*(\d\s{1}\S)", r'\1\2', correct_line)

例如，给定您的输入：

correct_line = "17  128 15  3.61    0   0   0   3.61    0   0   0   0   0   0"
wrong_line = "17  130 15  11.1    2 0.0   0 0.0   0 2.1   2 3.6   4 0.0   1 0.0   0 0.0   0 4.7   3 0.6   2 0.00"

使用正确的行，没有任何变化：

re.sub(r"(\.\d*)\s*(\d\s{1}\S)", r'\1\2', correct_line)
# '17  128 15  3.61    0   0   0   3.61    0   0   0   0   0   0'

曾经分裂成以下列表：

['17', '128', '15', '3.61', '0', '0', '0', '3.61', '0', '0', '0', '0', '0', '0']

用错误的行取而代之的是：

re.sub(r"(\.\d*)\s*(\d\s{1}\S)", r'\1\2', wrong_line)
# '17  130 15  11.12 0.00 0.00 2.12 3.64 0.01 0.00 0.00 4.73 0.62 0.00'

曾经分裂成以下列表：

['17', '130', '15', '11.12', '0.00', '0.00', '2.12', '3.64', '0.01', '0.00', '0.00', '4.73', '0.62', '0.00']

网友

3楼 · 编辑于 2024-09-26 22:51:58

我认为您可以删除源文件中的空格（但不能删除制表符）。如果你在一个类似unix的系统中，你可以运行

sed -i.bkp 's/ //g' gridCO

那么你的程序应该能够解析它。你知道吗

编辑

只能使用Python修改for循环中的第一行：

line = line.strip()

在

line = line.replace(' ','').strip()

相关问题更多 >

编程相关推荐

热门问题

热门文章