Python与tieresolution性能的结合最为频繁问题的回答

Python与tieresolution性能的结合最为频繁

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

数据 我有一个看起来像这样的数据集： <pre><code>| id | string_col_A | string_col_B | creation_date | |-------|--------------|--------------|---------------| | x12ga | STR_X1 | STR_Y1 | 2020-11-01 | | x12ga | STR_X1 | STR_Y1 | 2020-10-10 | | x12ga | STR_X2 | STR_Y2 | 2020-11-06 | | x21ab | STR_X4 | STR_Y4 | 2020-11-06 | | x21ab | STR_X5 | STR_Y5 | 2020-11-02 | | x11aa | STR_X3 | STR_Y3 | None | </code></pre> 目标 <ol> <li>我想为每个id找到最频繁的值组合</li> <li>此外，在tie的情况下，我想提取最新的组合</李> </ol> 即上表的结果为： <pre><code>| id | string_col_A | string_col_B | |-------|--------------|--------------| | x12ga | STR_X1 | STR_Y1 | | x21ab | STR_X4 | STR_Y4 | | x11aa | STR_X3 | STR_Y3 | </code></pre> 解释 <ol> <li>对于<code>x12ga</code>，解释很简单。STR_X1，STR_Y1出现两次，STR_X2，STR_Y2只出现一次（即，无tie分辨率）</li> <li><code>x11aa</code>也很简单，只有一行</li> <li>对于<code>x21ab</code>，两个组合都有一行，但STR_X4、STR_Y4是最新的</李> </ol> 代码 以下是我到目前为止的情况： <pre><code> def reducer(id_group): id_with_sizes = id_group.groupby( ["id", "string_col_A", "string_col_B"], dropna=False).agg({ 'creation_date': [len, max] }).reset_index() id_with_sizes.columns = [ "id", "string_col_A", "string_col_B", "row_count", "recent_date" ] id_with_sizes.sort_values(by=["row_count", "recent_date"], ascending=[False, False], inplace=True) return id_with_sizes.head(1).drop(["recent_date", "row_count"], axis=1) </code></pre> 我这样称呼上述方法： <pre><code>assignment = all_data.groupby("id").apply(inventor_reduce) </code></pre> 问题 当使用数据进行测试时，上面的代码工作得很好，但我正在使用的实际数据集有超过10M行，ID约为3M。因此，处理10K ID需要5分钟，总体上需要25小时。我想提高性能 解决方案 我在stackoverflow（和其他地方）上看到过关于获得频繁组合（尽管没有tie分辨率）和关于矢量化流程以提高性能的问题。我不太清楚如何实现这两个与我的问题以上 理想情况下，解决方案仍然是基于pandas的（pandas使代码看起来和读起来更好）

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

Python与tieresolution性能的结合最为频繁

1 个回答

相关Python问题