使用python读取数据处理中每一行的所有数据

Date,Arr,Qdate 7/10/2011,6:05:04,7/10/2011 12:02:57 AM 7/10/2011,6:12:16,7/10/2011 6:09:41 AM 7/10/2011,6:18:00,7/10/2011 6:12:27 AM 7/10/2011,19:34:47,7/10/2011 7:02:04 PM 7/10/2011,19:52:21,7/10/2011 7:29:20 PM ,,7/10/2011 7:34:53 PM ,,7/10/2011 7:41:35 PM ,,7/10/2011 7:52:23 PM ,,7/10/2011 7:58:21 PM ,,7/10/2011 8:01:22 PM

mydataset = pd.read_csv(x + ".csv", error_bad_lines=False, engine ='python', index_col= False,header = 0, sep = ",") mydataset['Date1'] = pd.to_datetime(mydataset['Date'] + ' ' + mydataset['Arr'], format='%d/%m/%Y %H:%M:%S') mydataset['Date2'] = pd.to_datetime(mydataset['Qdate'] , format='%d/%m/%Y %I:%M:%S %p', errors='ignore') mydataset['Date2'] = pd.to_datetime(mydataset['Date2']) mydataset = mydataset[mydataset['Date1'].notnull()] mydataset['tsArrTime'] = mydataset['Date1'].apply(lambda x: time.mktime(x.timetuple())) #conversion of unix timestamp mydataset['tsTTime'] = mydataset['Date2'].apply(lambda x: time.mktime(x.timetuple()) if str(x) != 'NaT' else 0) #conversion of unix timestamp minTime = mydataset['tsArrTime'].min() maxTime = mydataset['tsArrTime'].max() + 60 mydataset.loc[(mydataset['tsTTime'] < minTime) | (mydataset['tsTTime'] > maxTime), 'Qdate'] = '' mydataset.loc[(mydataset['tsTTime'] < minTime) | (mydataset['tsTTime'] > maxTime), 'VID'] = '' mydataset = mydataset.drop(columns=['Date1','Date2','tsArrTime','tsTTime'])

Date,Arr,Qdate 7/10/2011,6:05:04, 7/10/2011,6:12:16,7/10/2011 6:09:41 AM 7/10/2011,6:18:00,7/10/2011 6:12:27 AM 7/10/2011,19:34:47,7/10/2011 7:02:04 PM 7/10/2011,19:52:21,7/10/2011 7:29:20 PM ,,7/10/2011 7:34:53 PM ,,7/10/2011 7:41:35 PM ,,7/10/2011 7:52:23 PM

1条回答

网友

1楼 · 发布于 2024-06-25 06:24:01

我已经解决了这个问题，将数据分为两个不同的数据集，进行时间边界处理，然后进行合并

mydataset1 = mydataset[mydataset['Date1'].notnull()]
mydataset2 = mydataset.Date2
print(mydataset1)
print(mydataset2)
tsArrTime = mydataset1.Date1.apply(lambda x: time.mktime(x.timetuple()))                                     #conversion of unix timestamp
tsTTime = mydataset2.apply(lambda x: time.mktime(x.timetuple()))             #conversion of unix timestamp
minTime = tsArrTime.min()                                                                                      
maxTime = tsArrTime.max() + 60                                                                                 
print(tsArrTime)
print(tsTTime)
mydataset.loc[(tsTTime < minTime) | (tsTTime > maxTime), 'Qdate'] = ''                            
mydataset.loc[(tsTTime < minTime) | (tsTTime > maxTime), 'VID'] = ''

相关问题更多 >

编程相关推荐

热门问题

热门文章