是否有可能保持Pandas中每个CSV列的跟踪记录？

[{"first_name": "Arnold", "last_name": "Schwarzenegger", "height": 1.88, "csv_line_number": 1, "csv_line": "Arnold Schwarzenegger, 188"}, {"first_name": "Danny De", "last_name": "Vito", "height": 1.47, "csv_line_number": 2, "csv_line": "Danny De Vito, 147"}]

1条回答

网友

1楼 · 发布于 2024-06-29 01:13:13

到目前为止，“事后回溯”最安全、最简单的方法就是简单地重复：

df = pd.read_csv("file.csv")

…然后用它来做你想做的任何验证。你知道吗

在要复制数据帧的场景中，最好使用：

df_copy = df.copy(deep=True)

…这样你就可以确保得到一份完整的副本。此副本还可以避免由于更改helper函数内的数据帧或其他类似情况而导致的破坏。你知道吗

如果您的数据集非常大，并且复制不是一个好主意，并且出于某种原因只是重复读取原始csv（这将是最安全的），那么需要更多关于您要执行的验证类型的信息。例如，只要存储从df.describe()得到的信息，就可以为以后的验证提供一个相对良好的基础。但这同样取决于这个系统的重要性。你知道吗

如果这个案例只是解决“如何把原来的行号和一个CSV文件的整行已经打开了pd.read\U csv文件（）作为“数据帧”中的新列，您可以通过以下方式完成：

df = pd.read_csv('some_data.csv')
df['original'] = df.astype(str).apply(lambda x: ','.join(x), axis=1)
df['row_id'] = range(len(df))

您的数据帧现在有两个新列：

行id从0开始的列
包含逗号分隔的原始记录的列（行）

请注意，我不会使用df.reset_index()作为生成行号索引的方法，因为这是一种糟糕的做法，在其他情况下会导致问题。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章