Pandas级数熵计算的误差问题的回答

Pandas级数熵计算的误差

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我试图计算熊猫系列的熵。具体地说，我将<code>Direction</code>中的字符串分组为一个序列。具体而言，使用此功能： <pre><code>diff_dir = df.iloc[0:,1].ne(df.iloc[0:,1].shift()).cumsum() </code></pre> 将返回<code>Direction</code>中在更改之前相同的字符串计数。所以对于相同<code>Direction</code>字符串的每个序列，我想计算<code>X,Y</code>的熵 使用代码，相同字符串的顺序为： <pre><code>0 1 1 1 2 1 3 1 4 1 5 2 6 2 7 2 8 3 9 3 </code></pre> 此代码以前可以工作，但现在返回错误。我不确定这是否是升级后发生的 <pre><code>import pandas as pd import numpy as np def ApEn(U, m = 2, r = 0.2): ''' Approximate Entropy Quantify the amount of regularity over time-series data. Input parameters: U = Time series m = Length of compared run of data (subseries length) r = Filtering level (tolerance). A positive number ''' def _maxdist(x_i, x_j): return max([abs(ua - va) for ua, va in zip(x_i, x_j)]) def _phi(m): x = [U.tolist()[i:i + m] for i in range(N - m + 1)] C = [len([1 for x_j in x if _maxdist(x_i, x_j) <= r]) / (N - m + 1.0) for x_i in x] return (N - m + 1.0)**(-1) * sum(np.log(C)) N = len(U) return abs(_phi(m + 1) - _phi(m)) def Entropy(df): ''' Calculate entropy for individual direction ''' df = df[['Time','Direction','X','Y']] diff_dir = df.iloc[0:,1].ne(df.iloc[0:,1].shift()).cumsum() # Calculate ApEn grouped by direction. df['ApEn_X'] = df.groupby(diff_dir)['X'].transform(ApEn) df['ApEn_Y'] = df.groupby(diff_dir)['Y'].transform(ApEn) return df df = pd.DataFrame(np.random.randint(0,50, size = (10, 2)), columns=list('XY')) df['Time'] = range(1, len(df) + 1) direction = ['Left','Left','Left','Left','Left','Right','Right','Right','Left','Left'] df['Direction'] = direction # Calculate defensive regularity entropy = Entropy(df) </code></pre> 错误： <pre><code>return (N - m + 1.0)**(-1) * sum(np.log(C)) ZeroDivisionError: 0.0 cannot be raised to a negative power </code></pre>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

问题是因为以下代码 <pre><code>(N - m + 1.0)**(-1) </code></pre> 考虑当{{CD1>}和^ ^ <CD2>}时发生的情况，当A组由GROMPBY产生时，其大小将为1。由于<code>m==2</code>这最终成为 <pre><code>(1-2+1)**-1 == 0 </code></pre> 我们{<cd4>}是未定义的，错误也是未定义的 现在如果我们从理论上看，你如何定义只有一个值的时间序列的近似熵；高度不可预测，因此应尽可能高。对于这种情况，让我们将其设置为<code>np.nan</code>，表示它未定义（熵总是大于等于0） <h2>代码</h2> <pre><code>import pandas as pd import numpy as np def ApEn(U, m = 2, r = 0.2): ''' Approximate Entropy Quantify the amount of regularity over time-series data. Input parameters: U = Time series m = Length of compared run of data (subseries length) r = Filtering level (tolerance). A positive number ''' def _maxdist(x_i, x_j): return max([abs(ua - va) for ua, va in zip(x_i, x_j)]) def _phi(m): x = [U.tolist()[i:i + m] for i in range(N - m + 1)] C = [len([1 for x_j in x if _maxdist(x_i, x_j) <= r]) / (N - m + 1.0) for x_i in x] if (N - m + 1) == 0: return np.nan return (N - m + 1)**(-1) * sum(np.log(C)) N = len(U) return abs(_phi(m + 1) - _phi(m)) def Entropy(df): ''' Calculate entropy for individual direction ''' df = df[['Time','Direction','X','Y']] diff_dir = df.iloc[0:,1].ne(df.iloc[0:,1].shift()).cumsum() # Calculate ApEn grouped by direction. df['ApEn_X'] = df.groupby(diff_dir)['X'].transform(ApEn) df['ApEn_Y'] = df.groupby(diff_dir)['Y'].transform(ApEn) return df np.random.seed(0) df = pd.DataFrame(np.random.randint(0,50, size = (10, 2)), columns=list('XY')) df['Time'] = range(1, len(df) + 1) direction = ['Left','Left','Left','Left','Left','Right','Right','Right','Left','Left'] df['Direction'] = direction # Calculate defensive regularity print (Entropy(df)) </code></pre> 输出： <pre><code> Time Direction X Y ApEn_X ApEn_Y 0 1 Left 6 16 0.287682 0.287682 1 2 Left 22 6 0.287682 0.287682 2 3 Left 16 5 0.287682 0.287682 3 4 Left 5 48 0.287682 0.287682 4 5 Left 11 21 0.287682 0.287682 5 6 Right 44 25 0.693147 0.693147 6 7 Right 14 12 0.693147 0.693147 7 8 Right 43 40 0.693147 0.693147 8 9 Left 46 44 NaN NaN 9 10 Left 49 2 NaN NaN </code></pre> 较大样本（导致0**-1问题） <pre><code>np.random.seed(0) df = pd.DataFrame(np.random.randint(0,50, size = (100, 2)), columns=list('XY')) df['Time'] = range(1, len(df) + 1) direction = ['Left','Right','Up','Down'] df['Direction'] = np.random.choice((direction), len(df)) print (Entropy(df)) </code></pre> 输出： <pre><code> Time Direction X Y ApEn_X ApEn_Y 0 1 Left 44 47 NaN NaN 1 2 Left 0 3 NaN NaN 2 3 Down 3 39 NaN NaN 3 4 Right 9 19 NaN NaN 4 5 Up 21 36 NaN NaN .. ... ... .. .. ... ... 95 96 Up 19 33 NaN NaN 96 97 Left 40 32 NaN NaN 97 98 Up 36 6 NaN NaN 98 99 Left 21 31 NaN NaN 99 100 Right 13 7 NaN NaN </code></pre>

Pandas级数熵计算的误差

1 个回答

相关Python问题