Python中文
首页
教程
问答
标签
搜索
登录
注册
Python/numpy中基尼系数的计算
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在计算<a href="https://en.wikipedia.org/wiki/Gini_coefficient" rel="noreferrer">Gini coefficient</a>(类似于:<a href="https://stackoverflow.com/questions/31416664/python-gini-coefficient-calculation-using-numpy">Python - Gini coefficient calculation using Numpy</a>),但得到了一个奇怪的结果。对于从<code>np.random.rand()</code>采样的均匀分布,基尼系数是0.3,但我本希望它接近0(完全相等)。这里出什么事了?</p> <pre><code>def G(v): bins = np.linspace(0., 100., 11) total = float(np.sum(v)) yvals = [] for b in bins: bin_vals = v[v <= np.percentile(v, b)] bin_fraction = (np.sum(bin_vals) / total) * 100.0 yvals.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(bin_fraction) # perfect equality area pe_area = np.trapz(bins, x=bins) # lorenz area lorenz_area = np.trapz(yvals, x=bins) gini_val = (pe_area - lorenz_area) / float(pe_area) return bins, yvals, gini_val v = np.random.rand(500) bins, result, gini_val = G(v) plt.figure() plt.subplot(2, 1, 1) plt.plot(bins, result, label="observed") plt.plot(bins, bins, '--', label="perfect eq.") plt.xlabel("fraction of population") plt.ylabel("fraction of wealth") plt.title("GINI: %.4f" %(gini_val)) plt.legend() plt.subplot(2, 1, 2) plt.hist(v, bins=20) </code></pre> <p>对于给定的一组数字,上面的代码计算每个百分位bin中总分布值的分数。</p> <p>结果是:</p> <p><a href="https://i.stack.imgur.com/YKOUG.png" rel="noreferrer"><img src="https://i.stack.imgur.com/YKOUG.png" alt="enter image description here"/></a></p> <p>均匀分布应该接近“完全相等”,这样洛伦兹曲线弯曲就消失了。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>基尼系数是洛伦斯曲线下的面积,通常用来分析收入在人口中的分布。<a href="https://github.com/oliviaguest/gini" rel="nofollow noreferrer">https://github.com/oliviaguest/gini</a>使用python为其提供了简单的实现。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
为什么在使用strptime时会出现未进行转换的数据错误?
6 回答
为什么在使用strptim时会出现这个datetime日期错误
6 回答
为什么在使用StyleFrame时索引列的标题不显示sf.至excel()?
6 回答
为什么在使用sum()函数时会发生“int”对象不可调用的错误?
8 回答
为什么在使用sympy.dsolve时会得到“'list'对象没有属性'func'”?
3 回答
为什么在使用tabla时会得到一个空的数据帧?
5 回答
为什么在使用tensorboard时需要add_graph()的第二个参数?
9 回答
为什么在使用TensorFlow Lite转换YOLOv4时,推断时间/大小没有改进?有什么可能的改进吗?
3 回答
为什么在使用Tensorflow加载训练批时会出现内存泄漏?
8 回答
为什么在使用tensorflow时会收到警告/错误(使用函数API,但未实现错误)
3 回答
为什么在使用tetpyclient发出POST请求时出现403错误?
5 回答
为什么在使用TextBlob时会出现HTTP错误?
2 回答
为什么在使用TFIDF时出现错误“IndexError:list index out of range”pyspark.ml.feature?
5 回答
为什么在使用timedelta格式化之后,我在python中的日期是错误的?
5 回答
为什么在使用timeit或exec函数时,函数中的变量不会在提供的全局命名空间中搜索?
8 回答
为什么在使用tkinter时不能使用复选框?
10 回答
为什么在使用todoistpythonapi时会返回这个奇怪的ID?
2 回答
为什么在使用TQM时,在调整图像大小时,处理时间会有很大的差异?
10 回答
为什么在使用Tweepy下载用户时间线时收到错误消息
2 回答
为什么在使用twitter帐户登录Django应用程序时重定向127.0.0.1:8000?
10 回答