我可以使用Python多处理让它在windows上运行得更快吗

import numpy as np import pandas as pd import datetime as dt df = pd.read_csv(r'C:...\2017_import.csv') df['FinalActualDate'] = pd.to_datetime(df['FinalActualDate']) df['StartDate'] = pd.to_datetime(df['StartDate']) df['DaysToInHome'] = (df['FinalActualDate'] - df['StartDate']).abs() / np.timedelta64(1, 'D') df.to_csv(r'C:...\2017_output4.csv', index=False)

Class,OwnerCode,Vendor,Campaign,Cycle,Channel,Product,Week,FinalActualDate,State,StartDate 3,ECM,VendorA,000206,06-17,A,ProductB,Initial,2017-06-14 02:01:00,NE,06-01-17 12:00:00 3,ECM,VendorB,000106,06-17,A,ProductA,Initial,2017-06-14 00:15:00,NY,06-01-17 12:00:00 3,ECM,AID,ED-17-0002-06,06-17,B,ProductB,Secondary,2017-06-13 20:30:00,MA,06-08-17 12:00:00 3,ECM,AID,ED-17-0002-06,06-17,C,ProductA,Third,2017-06-15 02:13:00,NE,06-15-17 12:00:00

1条回答

网友

1楼 · 发布于 2024-10-03 15:34:31

在你进入multiprocessing之前，我会考虑处理一些悬而未决的问题（不管怎样，你都会想这么做）：

考虑：

In [15]: df
Out[15]:
   Class OwnerCode   Vendor       Campaign  Cycle Channel   Product  \
0      3       ECM  VendorA         000206  06-17       A  ProductB
1      3       ECM  VendorB         000106  06-17       A  ProductA
2      3       ECM      AID  ED-17-0002-06  06-17       B  ProductB
3      3       ECM      AID  ED-17-0002-06  06-17       C  ProductA

        Week      FinalActualDate State          StartDate
0    Initial  2017-06-14 02:01:00    NE  06-01-17 12:00:00
1    Initial  2017-06-14 00:15:00    NY  06-01-17 12:00:00
2  Secondary  2017-06-13 20:30:00    MA  06-08-17 12:00:00
3      Third  2017-06-15 02:13:00    NE  06-15-17 12:00:00

由于日期时间格式是常规的，所以只需传递format参数即可。做一个简单的测试：

In [16]: dates = df.StartDate.repeat(10000)

In [17]: len(dates)
Out[17]: 40000

In [18]: %timeit pd.to_datetime(df.StartDate)
1000 loops, best of 3: 866 µs per loop

In [19]: %timeit pd.to_datetime(df.StartDate, format="%m-%d-%y %H:%M:%S")
10000 loops, best of 3: 106 µs per loop

我的速度提高了8倍。除非您使用的核数远远超过8个，否则这比并行化要快得多。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章