精华:
如果一个列包含一个多于5个缺失值的序列,我希望从该数据帧中删除相应的索引。所以在下面这样的数据帧中。。。在
A B
2017-01-01 -0.0053 -0.0062
2017-01-02 NaN 0.0016
2017-01-03 NaN 0.0043
2017-01-04 NaN -0.0077
2017-01-05 NaN -0.0070
2017-01-06 NaN 0.0058
2017-01-07 0.0024 -0.0074
2017-01-08 0.0018 0.0086
2017-01-09 0.0020 0.0012
2017-01-10 -0.0031 -0.0020
2017-01-11 0.0027 NaN
2017-01-12 -0.0050 NaN
2017-01-13 -0.0063 NaN
2017-01-14 0.0066 0.0095
2017-01-15 0.0039 0.0028
…我想删除索引2017-01-02
到{
我怎样才能有效地做到这一点?在
详情:
下面是一个重现数据帧的片段:
# imports
import pandas as pd
import numpy as np
np.random.seed(1234)
# Reproducible data sample
def df_sample(rows, names):
''' Function to create data sample with random returns
Parameters
==========
rows : number of rows in the dataframe
names: list of names to represent assets
Example
=======
>>> returns(rows = 2, names = ['A', 'B'])
A B
2017-01-01 0.0027 0.0075
2017-01-02 -0.0050 -0.0024
'''
listVars= names
rng = pd.date_range('1/1/2017', periods=rows, freq='D')
df_temp = pd.DataFrame(np.random.randint(-100,100,size=(rows, len(listVars))), columns=listVars)
df_temp = df_temp.set_index(rng)
df_temp = df_temp / 10000
return df_temp
df = df_sample(15,list('AB'))
我知道的并发症
如果DataAccsFrame缺少多个与此重叠的值:
A B
2017-01-01 -0.0053 -0.0062
2017-01-02 NaN 0.0016
2017-01-03 NaN 0.0043
2017-01-04 NaN NaN
2017-01-05 NaN NaN
2017-01-06 NaN NaN
2017-01-07 0.0024 NaN
2017-01-08 0.0018 NaN
2017-01-09 0.0020 0.0012
2017-01-10 NaN -0.0020
…那么我想任何一个按列使用apply
的解决方案都会呈现这样一个临时数据帧。。。在
A B
2017-01-01 -0.0053 -0.0062
2017-01-07 0.0024 NaN
2017-01-08 0.0018 NaN
2017-01-09 0.0020 0.0012
2017-01-10 NaN -0.0020
。。。然后可能忽略column B
从2017-01-04
到{
A B
2017-01-01 -0.0053 -0.0062
2017-01-09 0.0020 0.0012
2017-01-10 NaN -0.0020
(那最后一个南呢?那一个我只想fill forward
。但是,对每一个缺失的值都做同样的处理会让事情走得更远。)
所以我想这可能是一个比我最初怀疑的要复杂得多的问题(也许这也是为什么函数pandas.DataFrame.dropna
没有具体参数的原因)。在
我的尝试:
1。熊猫.DataFrame.dropna
我原以为参数thresh
是使用pandas.DataFrame.dropna的一种方法,但根据文档,该参数为现有的而不是缺少的值设置了一个阈值:
thresh : int, default None
int value : require that many non-NA values
2。逐列定义和查找nan列的模式
以下是基于建议答案here的可能解决方案。但是,它确实要求您定义在一个序列中只查找5个缺失的值。为了完成这个解决方案,我还必须找到索引在所有列表中的并集,这些列表表示所有列的缺失序列的索引,然后根据该集合对数据帧进行子集。在
谢谢你的其他建议!在
以下是简单复制粘贴的全部内容:
import pandas as pd
import numpy as np
np.random.seed(1234)
# Reproducible data sample
def df_sample(rows, names):
''' Function to create data sample with random returns
Parameters
==========
rows : number of rows in the dataframe
names: list of names to represent assets
Example
=======
>>> returns(rows = 2, names = ['A', 'B'])
A B
2017-01-01 0.0027 0.0075
2017-01-02 -0.0050 -0.0024
'''
listVars= names
rng = pd.date_range('1/1/2017', periods=rows, freq='D')
df_temp = pd.DataFrame(np.random.randint(-100,100,size=(rows, len(listVars))), columns=listVars)
df_temp = df_temp.set_index(rng)
df_temp = df_temp / 10000
return df_temp
df = df_sample(15,list('AB'))
df['A'][1:6] = np.nan
df['B'][3:8] = np.nan
dfi = df
# convert to boolean values
df = dfi
df = df.isnull()
# specify pattern
pattern = [True,True, True, True, True]
# prepare for a for loop
idx = []
# loop through all columns and identify sequence of missing values
for col in df:
df_temp = df[col].to_frame()
matched = df_temp.rolling(len(pattern)).apply(lambda x: all(np.equal(x, pattern)))
matched = matched.sum(axis = 1).astype(bool)
idx_matched = np.where(matched)[0]
subset = [range(match-len(pattern)+1, match+1) for match in idx_matched]
result = pd.concat([df.iloc[subs,:] for subs in subset], axis = 0).index
idx.append(result)
print(idx)
输出(每列nan序列的索引):
[DatetimeIndex(['2017-01-02', '2017-01-03', '2017-01-04', '2017-01-05','2017-01-06'],
dtype='datetime64[ns]', freq=None),
DatetimeIndex(['2017-01-04', '2017-01-05', '2017-01-06', '2017-01-07', '2017-01-08'],
dtype='datetime64[ns]', freq=None)]
这应该能帮你解决这个问题。它直到最后才删除行,因此它将正确地解析第二个场景中需要的多个列。我使用了您的complements部分中的
df
来输出下面的代码。在说明:
我们创建另一个df,其中
NaN
值被分配给0,每个有限值被分配给1(如果您的初始df
有零值,您需要首先将它们映射到这个虚拟的df2
,然后.fillna(0).astype('bool')
)按每列的累计和进行分组,可以找到连续的
NaN
值的位置。然后与原始df的比较确保我们不会捕获第一个非空值。掩码是在末尾为应该删除的任何行创建的,因此您可以为具有重叠
NaN
值的多个列正确地解析它。代码如下:
相关问题 更多 >
编程相关推荐