Scipy rv_连续拟合不检查输入数据边界

import scipy.stats as st import numpy as np import pandas as pd np.random.seed(7) test_data = pd.Series(0.5 + 0.1*np.sin(np.linspace(0, 3*np.pi, 100)) + 0.5*np.random.normal(0,1,size=100)) print(np.min(test_data))

--------------------------------------------------------------------------- FitDataError Traceback (most recent call last) <ipython-input-13-fbeaae8f3c2e> in <module> ----> 1 st.lognorm.fit(test_data, floc=0, fscale=1) ~\Miniconda3\lib\site-packages\scipy\stats\_continuous_distns.py in fit(self, data, *args, **kwds) 5087 data = data - floc 5088 if np.any(data <= 0): -> 5089 raise FitDataError("lognorm", lower=floc, upper=np.inf) 5090 lndata = np.log(data) 5091 FitDataError: Invalid values in `data`. Maximum likelihood estimation with 'lognorm' requires that 0.0 < x < inf for each x in `data`.

st.burr.fit(test_data, floc=0, fscale=1) st.expon.fit(test_data) st.chi2.fit(test_data, floc=0, fscale=1) st.invgauss.fit(test_data, floc=0, fscale=1) st.invgamma.fit(test_data, floc=0, fscale=1)

1条回答

网友

1楼 · 发布于 2024-09-24 22:22:33

那些fit没有抛出任何错误的事实并不意味着它们非常适合，或者它们可以描述您的数据

我正在使用scipy==1.6.1

可以检查打印结果

x = np.linspace(test_data.min(), test_data.max(), 100)

毛刺：无错误，bu无法描述数据<；0

burr_pars = sps.burr.fit(test_data, floc=0, fscale=1)
y = sps.burr(*burr_pars).pdf(x)
plt.plot(x, y)
plt.hist(test_data, alpha=.5, density=True);

Expon：没有错误，但是非常不合适

expon_pars = sps.expon.fit(test_data)
y = sps.expon(*expon_pars).pdf(x)
plt.plot(x, y)
plt.hist(test_data, alpha=.5, density=True);

Chi2：无错误，但拟合非常差，无法描述数据<；0

chi2_pars = sps.chi2.fit(test_data, floc=0, fscale=1)
y = sps.chi2(*chi2_pars).pdf(x)
plt.plot(x, y)
plt.hist(test_data, alpha=.5, density=True);

高斯误差

invgauss_pars = sps.invgauss.fit(test_data, floc=0, fscale=1)
FitDataError: Invalid values in `data`.  Maximum likelihood estimation with 'invgauss' requires that 0 < (x - loc)/scale  < inf for each x in `data`.

如果不设置loc和scale，则最适合x>=0，但鉴于其PDF的公式，没有理由为x<；0

invgauss_pars = sps.invgauss.fit(test_data)
y = sps.invgauss(*invgauss_pars).pdf(x)
plt.plot(x, y)
plt.hist(test_data, alpha=.5, density=True);

Invgamma：警告，不匹配，无法描述x<；0

invagamm_pars = sps.invgamma.fit(test_data, floc=0, fscale=1)
y = sps.invgauss(*invagamm_pars).pdf(x)
plt.plot(x, y)
plt.hist(test_data, alpha=.5, density=True);
RuntimeWarning: invalid value encountered in double_scalars
  Lhat = muhat - Shat*mu

编辑

从https://github.com/scipy/scipy/blob/v1.6.3/scipy/stats/_continuous_distns.py你可以看到FitDataError只被beta、expon（但是如果floc is None那么floc = data_min、gamma、invgauss（但只被np.any(data - floc < 0)、lognorm、pareto、rayleigh、^}调用

对于其他发行版FitDataError未实现

编辑

相关问题更多 >

编程相关推荐

热门问题

热门文章