将丑陋的csv解析为数据帧的最佳方法

SENSORID;DATESMPL;TRE;ISRC FQBI-000-001;08/01/2020 13:56:00;-10.0956;0.03662119 LAMBDAS;1550;1551;1552;1553;1554 REFERENCE;6961.058824;6959.564706;6959.423529;6960.988235;6961.788235 1;166;164;162;138;162 2;146;152;161;143;142 3;138;147;150;133;124 4;134;120;158;145;133 5;135;157;135;139;137

SENSORID DATESMPL TRE ISRC 1550 1551 1552 1553 1554 0 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 166 164 162 138 162 1 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 146 152 161 143 142 2 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 138 147 150 133 124 3 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 134 120 158 145 133 4 FQBI-000-001 08/01/2020 13:56:00 -10.0956 0.03662119 135 157 135 139 137

2条回答

网友

1楼 · 编辑于 2024-09-29 19:33:30

您需要对文件进行两次解析：一次用于获取元数据，另一次用于获取数据。然后将两个数据帧连接在一起：

path = '/path/to/file.txt'
meta = pd.read_csv(path, sep=';', nrows=1)
data = pd.read_csv(path, sep=';', skiprows=[0,1,3]).drop(columns='LAMBDAS')

# Limit the `fillna` to the columns in `meta`
df = pd.concat([meta, data], axis=1)
df[meta.columns] = df[meta.columns].fillna(method='ffill')

# If you are sure `data` has no NaN
df = pd.concat([meta, data], axis=1).fillna(method='ffill')

网友

2楼 · 编辑于 2024-09-29 19:33:30

我想投入我的两分钱作为更快的解决方案，因为您提到性能很重要。与Code_Different的解决方案相比，该方法的执行速度约为每个文件的5-10倍。使用数据示例-如何处理更大的文件，您必须测试自己

def parse(file):
       columns = []
       #general_values = [] # use this if the meta data columns are different
       column_values = ['SENSORID', 'DATESMPL', 'TRE', 'ISRC']
       measurement_values = []

       with open('tmp.csv', "r") as f:
              for index, row in enumerate(f):
                     if index > 3:  # test for measurement rows first as you will do it most often
                            measurement_values.append(row[:-1].split(';')[1:])
                     # uncomment next elif-clause if the meta data column names differ per file
                     #elif index == 0:  # first row -> SENSORID;DATESMPL;TRE;ISRC
                     #       columns += row[:-1].split(';')  # get rid of newline and split
                     elif index == 1:  # second row -> meta data
                            general_values = row[:-1].split(';') # get rid of newline and split
                     elif index == 2:  # fourth row  -> Lambdas as column names
                            columns += row[:-1].split(';')[1:]  # get rid of newline, split and delete 'LAMBDAS'

       df_array = [columns]
       for measurement in measurement_values:
              df_array.append(general_values + measurement)
       return pd.DataFrame(df_array)

df = parse('tmp.csv')

相关问题更多 >

编程相关推荐

热门问题

热门文章