Pandas为多个Key实例组合数据帧选项?

2024-10-03 02:35:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我使用的是python3.4和windows7。这是我的第一个数据帧的示例:Sample Data

这是我的第二个数据帧:Sample Data 2

我的目标是使用“RTID”作为我的键。但是,从我从另一个数据结构解析的数据可以看出,似乎存在重复的键。此外,该要求要求每个RTID都有一个唯一的事务类型。在

我有许多这样的数据帧(其中一些还共享公共的列头名称),需要组合成一个内聚的数据帧。每个行值的完整性通过其标题来维护。在最终产品中,重复的列名只应出现一次,每个列的值都按顺序附加到每个相应的行(因此我最初的想法是使用RTID列作为键),对于缺少的或不适用的值,则是一个空白。我最初的想法是连接,但是,由于各种数据类型,我收到了以下错误:

AssertionError: invalid dtype determination in get_concat_dtype 

可以从这里获得:Pandas/Internals.py

@EdChum和{a5}对内存管理问题非常有帮助。在

我想知道join和merge是否是这个特定上下文的有效用例。我欢迎对此的反馈。在


Tags: 数据sample名称示例数据结构类型目标data
1条回答
网友
1楼 · 发布于 2024-10-03 02:35:56

我参考了第188页页的Python for Data Analysis作为我的答案。在回顾了所提供的各种方法之后,我能够实现最终产品。在

引用以上两个示例数据源(并删除索引):

sample1 = pd.read_csv('sample_data.csv', dtype=str, error_bad_lines = False)
sample2 = pd.read_csv('sample2.csv', dtype=str, error_bad_lines = False)
sample_concat = pd.concat([sample1, sample2], keys = ['one', 'two'], ignore_index=True)

这产生了正确的输出。原来我想得太多了。在这种情况下,行索引没有意义。ignore_index = False参数允许不沿连接轴保留索引。这是很有用的,因为我不是在寻找数据集的交集(理论上,这在我争论的数据结构中不应该很明显)。在

相关问题 更多 >