我正在处理超过100万份专利申请,必须确定日期,此外还有其他我将在以后处理的事情。我正在将文件读入Pandas数据帧,然后运行以下函数:
def date_change():
new_dates = {'m/y': []}
for i, row in apps.iterrows():
try:
d = row['date'].rsplit('/')
new_dates['m/y'].append('{}/19{}'.format(d[0], d[2]))
except Exception as e:
print('{} {}\n{}\n{}'.format(i, e, row, d))
new_dates['m/y'].append(np.nan)
apps.join(pd.DataFrame(new_dates))
apps.drop('date')
有没有更快捷的方法来执行此操作?Pandas是用于如此大数据集的正确库吗?我听说PySpark对大数据有好处,但它能在多大程度上提高速度
因此,看起来您使用的是字符串来表示数据,而不是日期时间对象。 我建议做一些类似的事情
因此,您根本不需要迭代,因为该函数对整个列进行操作。 然后,您可能需要检查以下answer,它使用^{} 对列进行适当的格式化
如果您可以显示输入和预期输出,我可以在这里添加完整的解决方案
此外,熊猫通常可以管理100万行(当然取决于列的数量)
相关问题 更多 >
编程相关推荐