我使用的是python3.4和windows7。这是我的第一个数据帧的示例:Sample Data
这是我的第二个数据帧:Sample Data 2
我的目标是使用“RTID”作为我的键。但是,从我从另一个数据结构解析的数据可以看出,似乎存在重复的键。此外,该要求要求每个RTID都有一个唯一的事务类型。在
我有许多这样的数据帧(其中一些还共享公共的列头名称),需要组合成一个内聚的数据帧。每个行值的完整性通过其标题来维护。在最终产品中,重复的列名只应出现一次,每个列的值都按顺序附加到每个相应的行(因此我最初的想法是使用RTID列作为键),对于缺少的或不适用的值,则是一个空白。我最初的想法是连接,但是,由于各种数据类型,我收到了以下错误:
AssertionError: invalid dtype determination in get_concat_dtype
可以从这里获得:Pandas/Internals.py
@EdChum和{a5}对内存管理问题非常有帮助。在
我想知道join和merge是否是这个特定上下文的有效用例。我欢迎对此的反馈。在
我参考了第188页页的Python for Data Analysis作为我的答案。在回顾了所提供的各种方法之后,我能够实现最终产品。在
引用以上两个示例数据源(并删除索引):
这产生了正确的输出。原来我想得太多了。在这种情况下,行索引没有意义。
ignore_index = False
参数允许不沿连接轴保留索引。这是很有用的,因为我不是在寻找数据集的交集(理论上,这在我争论的数据结构中不应该很明显)。在相关问题 更多 >
编程相关推荐