Python Pandas:如何确定数据集的分布?

2024-09-27 04:25:28 发布

您现在位置:Python中文网/ 问答频道 /正文

这是我的数据集,有两列NS和count。

    NS                                                count
0   ns18.dnsdhs.com.                                  1494
1   ns0.relaix.net.                                   1835
2   ns2.techlineindia.com.                            383
3   ns2.microwebsys.com.                              1263
4   ns2.holy-grail-body-transformation-program.com.   1
5   ns2.chavano.com.                                  1
6   ns1.x10host.ml.                                   17
7   ns1.amwebaz.info.                                 48
8   ns2.guacirachocolates.com.br.                     1
9   ns1.clicktodollars.com.                           2

现在我想看看有多少国家统计局有相同的计数,通过阴谋。我自己的猜测是,我可以使用直方图来查看,但我不确定如何。有人能帮忙吗?


Tags: 数据comnetcountnsgrailholyns1
1条回答
网友
1楼 · 发布于 2024-09-27 04:25:28

从您的注释中,我猜您的数据表实际上要长得多,您希望看到名称服务器counts(这里有任何计数)的分布。

我认为你应该能做到:

df.hist(column="count")

你会得到你想要的。如果那是你想要的。

不过,pandas的所有功能都有很好的文档,而且直方图也有描述。

如果你真的想看到“有多少人拥有相同的计数”,而不是一个分布的表示,那么你要么需要将binskwarg设置为df["count"].max()-df["count"].min()-要么照你说的那样做,计算得到每个count的次数,然后创建一个条形图。

可能是这样的:

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

另一种更干净的方法,我完全忽略了,第二次世界大战在下面指出,就是使用Counter的标准构造函数:

count_counter = Counter(df['count'])

相关问题 更多 >

    热门问题