如何从python中所有列的字符串中提取数字

1条回答

网友

1楼 · 发布于 2024-09-28 21:52:08

我不确定你的整个数据集是什么样子，也不确定你所说的慢是什么意思：这需要几分钟吗？秒？小时？。但是，如果可能的话，您可以尝试一种不使用regexp的方法。例如：

letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ\\"
def remove_letters(x):
    try:
        return float(x.strip(letters))
    except:
        return None

df['dips_cert_earning_premium_weekly'] = list(map(remove_letters,  df['dips_cert_earning_premium_weekly']))

如果数据集只有一列31行，那么您的版本需要0.0008417534828186036秒，而我建议的版本需要0.0003292644023895264秒，所以这是一个细微的差别，但值得尝试。（我通过计算N=1000次的运行时间来计算该时间，然后取所有时间的平均值）

否则，请尝试分析代码以查看瓶颈所在，并尝试不同的实现，直到找到最快的实现

编辑：

要使用新数据完全回答问题：要迭代数据帧并将其应用于每列，可以尝试以下代码：

df = pd.DataFrame.from_dict(data)
for (columnName, columnData) in df.iteritems():
   df[columnName] = list(map(remove_letters,  df[columnName])) # This is the same line from before. Only difference is that we are applying it to all columns.

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何从python中所有列的字符串中提取数字

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >