组合多个数据帧列问题的回答

组合多个数据帧列

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我尝试将2个数据帧列合并为1个，但当我尝试基于特定大小执行此操作时，第二个数据帧列无法正确复制。你知道吗 我试过下面粘贴的代码。 <pre><code>import pandas as pd def readDataFile(): fileName = "year.csv" dateparse = lambda x: pd.datetime.strptime(x, '%Y-%m-%d %H:%M:%S') dfY = pd.read_csv(fileName, parse_dates=['date'], date_parser=dateparse) fileName = "month.csv" dateparse = lambda x: pd.datetime.strptime(x, '%Y-%m-%d %H:%M:%S') dfM = pd.read_csv(fileName, parse_dates=['date'], date_parser=dateparse) newDF = pd.DataFrame() newDF['date_y'] = dfY['date'] newDF['year_y_n'] = dfY['Y_N'] newDF['date_m'] = dfM['date'][len(dfM) - len(dfY):len(dfM)] newDF['year_y_n'] = dfM['Y_N'][len(dfM) - len(dfY):len(dfM)] print newDF readDataFile() </code></pre> 文件：月.csv你知道吗 <pre><code>date,Y_N 2018-03-14 04:00:00,N 2018-04-03 04:00:00,N 2018-05-31 04:00:00,Y 2018-06-14 04:00:00,N 2018-07-30 04:00:00,N 2018-08-31 04:00:00,Y 2018-09-28 04:00:00,N 2018-10-10 04:00:00,N 2018-11-07 04:00:00,Y 2018-12-31 04:00:00,N 2019-01-31 04:00:00,N 2019-02-05 04:00:00,Y 2019-03-29 04:00:00,N 2019-04-30 04:00:00,Y 2019-05-03 04:00:00,N 2019-06-03 04:00:00,Y </code></pre> 文件：年份.csv你知道吗 <pre><code>date,Y_N 2014-05-23 04:00:00,Y 2015-12-21 04:00:00,N 2016-05-03 04:00:00,Y 2017-12-20 04:00:00,N 2018-06-14 04:00:00,N 2019-06-25 04:00:00,N </code></pre> 以下是当前的结果： <pre><code>date_y year_y_n date_m month_y_n 0 2014-05-23 04:00:00 Y NaT NaN 1 2015-12-21 04:00:00 N NaT NaN 2 2016-05-03 04:00:00 Y NaT NaN 3 2017-12-20 04:00:00 N NaT NaN 4 2018-06-14 04:00:00 N NaT NaN 5 2019-06-25 04:00:00 N NaT NaN </code></pre> 预期结果如下： <pre><code>date_y year_y_n date_m month_y_n 2014-05-23 04:00:00 Y 2019-01-31 04:00:00 N 2015-12-21 04:00:00 N 2019-02-05 04:00:00 Y 2016-05-03 04:00:00 Y 2019-03-29 04:00:00 N 2017-12-20 04:00:00 N 2019-04-30 04:00:00 Y 2018-06-14 04:00:00 N 2019-05-03 04:00:00 N 2019-06-25 04:00:00 N 2019-06-03 04:00:00 Y </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

这个问题与索引有关。如果运行以下代码： <pre><code>newDF = pd.DataFrame() newDF['date_y'] = dfY['date'] print(newDF) </code></pre> 您将得到以下输出： <pre><code> date_y 0 2014-05-23 04:00:00 1 2015-12-21 04:00:00 2 2016-05-03 04:00:00 3 2017-12-20 04:00:00 4 2018-06-14 04:00:00 5 2019-06-25 04:00:00 </code></pre> 索引从0开始 运行以下命令： <pre><code>newDF = pd.DataFrame() newDF['date_m'] = dfM['date'][len(dfM) - len(dfY):len(dfM)] print(newDF) </code></pre> 您将得到以下输出： <pre><code> date_m 10 2019-01-31 04:00:00 11 2019-02-05 04:00:00 12 2019-03-29 04:00:00 13 2019-04-30 04:00:00 14 2019-05-03 04:00:00 15 2019-06-03 04:00:00 </code></pre> 这里，索引从10开始 因此，您需要重置dfM dataframe的'date'和'Y\u N'列的索引，如下所示： <pre><code>def readDataFile(): fileName = "year.csv" dateparse = lambda x: pd.datetime.strptime(x, '%Y-%m-%d %H:%M:%S') dfY = pd.read_csv(fileName, parse_dates=['date'], date_parser=dateparse) fileName = "month.csv" dateparse = lambda x: pd.datetime.strptime(x, '%Y-%m-%d %H:%M:%S') dfM = pd.read_csv(fileName, parse_dates=['date'], date_parser=dateparse) newDF = pd.DataFrame() newDF['date_y'] = dfY['date'] newDF['year_y_n'] = dfY['Y_N'] # Changes made on this line. newDF['date_m'] = dfM['date'][len(dfM) - len(dfY):len(dfM)].reset_index(drop=True) newDF['month_y_n'] = dfM['Y_N'][len(dfM) - len(dfY):len(dfM)].reset_index(drop=True) print(newDF) readDataFile() </code></pre> 输出： <pre><code>date_y year_y_n date_m month_y_n 0 2014-05-23 04:00:00 Y 2019-01-31 04:00:00 N 1 2015-12-21 04:00:00 N 2019-02-05 04:00:00 Y 2 2016-05-03 04:00:00 Y 2019-03-29 04:00:00 N 3 2017-12-20 04:00:00 N 2019-04-30 04:00:00 Y 4 2018-06-14 04:00:00 N 2019-05-03 04:00:00 N 5 2019-06-25 04:00:00 N 2019-06-03 04:00:00 Y </code></pre>

组合多个数据帧列

1 个回答

相关Python问题