有没有一种更快的方法可以使用python从csv文件检查列中的类似数据值？

filename | number_of_changes-1 | number_of_changes-2 ---------------------------------------------------------- B | 10 | 15 C | 10 | 0 D | 0 | 30 E | 5 | 10 F | 15 | 0

import pandas as pd cols = ['filename','number_of_changes'] data1 = pd.read_csv('CSV-1.csv') data2 = pd.read_csv('CSV-2.csv') df1 = data1[cols] df2 = data2[cols] lshist = [] for x in range(0,len(df1)-1): lshist.append(list(df1.iloc[x])) lsmyers = [] for y in range(0,len(df2)-1): lsmyers.append(list(df2.iloc[y])) with open('New_CSV.csv', 'w') as csvfile: header = ['filename', 'number_of_changes-1', 'number_of_changes-2'] writers = csv.writer(csvfile, delimiter=',') writers.writerow(header) for fn in range(1,len(lshist)-1): tmp = [] fnhist = lshist[fn][0] for x in range(0,len(lsmyers)-1): sys.stdout.write('\rSearching in myers : %i' % (x+1) + ' out of %i' % (len(lsmyers)-1) + ' in % i' % (fn) + ' out of %i' % (len(lshist)-1) + ' in histogram') sys.stdout.flush() if fnhist != lsmyers[x][0]: pass else: if lshist[fn][1] == lsmyers[x][1]: pass else: tmp = [fnhist,lshist[fn][1],lsmyers[x][1]] writers.writerow(tmp)

2条回答

网友

1楼 · 编辑于 2024-07-02 13:27:45

你需要这样的东西

df1 = pd.read_csv('CSV-1.csv')
df2 = pd.read_csv('CSV-2.csv')

合并两个数据帧

df3 = df1.merge(df2, on="filename", how="outer",suffixes=('-1', '-2'))

删除更改次数相同的行

df3 = df3[df3['number_of_changes-1'] != df3['number_of_changes-2']]

用0填充NAs并按文件名排序

df3.fillna(0, inplace=True)
df3 = df3.sort_values(by ='filename').reset_index(drop=True)

输出：

    filename    number_of_changes-1     number_of_changes-2
0       B       10.0                    15.0
1       C       10.0                     0.0
2       D        0.0                    30.0
3       E        5.0                    10.0
4       F       15.0                     0.0

网友

2楼 · 编辑于 2024-07-02 13:27:45

确实有一种更简单的方法-merge将数据帧放在一个文件中。基本上是这样的：

df1 = pd.read_csv("CSV-1.csv")
df2 = pd.read_csv("CSV-2.csv")
df3 = df1.merge(df2, on="filename", how="left")
df3.fillna(0, inplace=True)
# df3 would contain the following dataframe
###########
# filename  number_of_changes_x number_of_changes_y
# 0 A   20  20.0
# 1 B   10  15.0
# 2 C   10  0.0
# 3 E   5   10.0
# 4 F   15  0.0

基本上将两个数据帧合并为一个，并用0填充np.NaN值。根据需要，可能需要将第二列转换为int。如果需要更改列名，请使用rename方法

相关问题更多 >

编程相关推荐

热门问题

热门文章