最快的熊猫价值更新方法?

2024-10-03 19:31:11 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在处理超过100万份专利申请,必须确定日期,此外还有其他我将在以后处理的事情。我正在将文件读入Pandas数据帧,然后运行以下函数:

def date_change():
        new_dates = {'m/y': []}
        for i, row in apps.iterrows():
                try:
                        d = row['date'].rsplit('/')
                        new_dates['m/y'].append('{}/19{}'.format(d[0], d[2]))
                except Exception as e:
                        print('{}   {}\n{}\n{}'.format(i, e, row, d))
                        new_dates['m/y'].append(np.nan)
        apps.join(pd.DataFrame(new_dates))
        apps.drop('date')

有没有更快捷的方法来执行此操作?Pandas是用于如此大数据集的正确库吗?我听说PySpark对大数据有好处,但它能在多大程度上提高速度


Tags: apps文件数据函数formatpandasnewdate
1条回答
网友
1楼 · 发布于 2024-10-03 19:31:11

因此,看起来您使用的是字符串来表示数据,而不是日期时间对象。 我建议做一些类似的事情

df['date'] = pd.to_datetime(df['date'])

因此,您根本不需要迭代,因为该函数对整个列进行操作。 然后,您可能需要检查以下answer,它使用^{}对列进行适当的格式化

如果您可以显示输入和预期输出,我可以在这里添加完整的解决方案

此外,熊猫通常可以管理100万行(当然取决于列的数量)

相关问题 更多 >