在数据帧中，计算条件在一列中发生的次数？问题的回答

在数据帧中，计算条件在一列中发生的次数？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

背景 我有五年的NO2测量数据，在csv文件中，每个位置和年份一个文件。我已将所有文件以相同格式加载到数据帧中： <pre><code>Date Hour Location NO2_Level 0 01/01/2016 00 Street 18 1 01/01/2016 01 Street 39 2 01/01/2016 02 Street 129 3 01/01/2016 03 Street 76 4 01/01/2016 04 Street 40 </code></pre> 目标 对于每个数据帧计数，NO2\u级别大于150的次数，并输出该值。你知道吗 所以我写了一个循环，从正确的目录创建所有的数据帧，并适当地清理它们。你知道吗 问题 无论我尝试过什么，我知道检查的结果都是不正确的，例如： -给定年份中每个位置的计数值相同（可能但不太可能） -在我知道计数应该有任何正数的一年里，每个位置都返回0 我尝试过的 我已经尝试了很多方法来获得每个数据帧的这个值，比如让列成为一个系列： <pre><code>NO2_Level = pd.Series(df['NO2_Level']) count = (NO2_Level > 150).sum()''' </code></pre> 使用pd计数（）： <pre><code>count = df[df['NO2_Level'] >= 150].count() </code></pre> 这两种方法最接近我想要输出的内容 测试示例 <pre><code>data = {'Date': ['01/01/2016','01/02/2016',' 01/03/2016', '01/04/2016', '01/05/2016'], 'Hour': ['00', '01', '02', '03', '04'], 'Location': ['Street','Street','Street','Street','Street',], 'NO2_Level': [18, 39, 129, 76, 40]} df = pd.DataFrame(data=d) NO2_Level = pd.Series(df['NO2_Level']) count = (NO2_Level > 150).sum() count </code></pre> 预期产出 因此，我试图让它为格式为Location，year，count（of condition）的每个数据帧输出一行： <pre><code>Kirkstall Road,2013,47 Haslewood Close,2013,97 ... Jack Lane Hunslet,2015,158 </code></pre> 所以上面的例子会产生 <pre><code>Street, 2016, 1 </code></pre> 实际值 每年每个地点都会产生相同的结果，在某些年份（2014年），当检查时，计数似乎根本不起作用，应该有： <pre><code>Kirkstall Road,2013,47 Haslewood Close,2013,47 Tilbury Terrace,2013,47 Corn Exchange,2013,47 Temple Newsam,2014,0 Queen Street Morley,2014,0 Corn Exchange,2014,0 Tilbury Terrace,2014,0 Haslewood Close,2015,43 Tilbury Terrace,2015,43 Corn Exchange,2015,43 Jack Lane Hunslet,2015,43 Norman Rows,2015,43 </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

下面是一个随机生成的样本的解决方案： <pre><code>def random_dates(start, end, n): start_u = start.value // 10 ** 9 end_u = end.value // 10 ** 9 return pd.to_datetime(np.random.randint(start_u, end_u, n), unit='s') location = ['street', 'avenue', 'road', 'town', 'campaign'] df = pd.DataFrame({'Date' : random_dates(pd.to_datetime('2015-01-01'), pd.to_datetime('2018-12-31'), 20), 'Location' : np.random.choice(location, 20), 'NOE_level' : np.random.randint(low=130, high= 200, size=20)}) </code></pre> <hr/> <pre><code>#Keep only year for Date df['Date'] = df['Date'].dt.strftime("%Y") print(df) df = df.groupby(['Location', 'Date'])['NOE_level'].apply(lambda x: (x>150).sum()).reset_index(name='count') print(df) </code></pre> 生成的df示例： <pre><code> Date Location NOE_level 0 2018 town 191 1 2017 campaign 187 2 2017 town 137 3 2016 avenue 148 4 2017 campaign 195 5 2018 town 181 6 2018 road 187 7 2018 town 184 8 2016 town 155 9 2016 street 183 10 2018 road 136 11 2017 road 171 12 2018 street 165 13 2015 avenue 193 14 2016 campaign 170 15 2016 street 132 16 2016 campaign 165 17 2015 road 161 18 2018 road 161 19 2015 road 140 </code></pre> 输出： <pre><code> Location Date count 0 avenue 2015 1 1 avenue 2016 0 2 campaign 2016 2 3 campaign 2017 2 4 road 2015 1 5 road 2017 1 6 road 2018 2 7 street 2016 1 8 street 2018 1 9 town 2016 1 10 town 2017 0 11 town 2018 3 </code></pre>

在数据帧中，计算条件在一列中发生的次数？

1 个回答

相关Python问题