Python Pandas：如何确定数据集的分布？

NS count 0 ns18.dnsdhs.com. 1494 1 ns0.relaix.net. 1835 2 ns2.techlineindia.com. 383 3 ns2.microwebsys.com. 1263 4 ns2.holy-grail-body-transformation-program.com. 1 5 ns2.chavano.com. 1 6 ns1.x10host.ml. 17 7 ns1.amwebaz.info. 48 8 ns2.guacirachocolates.com.br. 1 9 ns1.clicktodollars.com. 2

1条回答

网友

1楼 · 发布于 2024-09-27 04:25:28

从您的注释中，我猜您的数据表实际上要长得多，您希望看到名称服务器counts（这里有任何计数）的分布。

我认为你应该能做到：

df.hist(column="count")

你会得到你想要的。如果那是你想要的。

不过，pandas的所有功能都有很好的文档，而且直方图也有描述。

如果你真的想看到“有多少人拥有相同的计数”，而不是一个分布的表示，那么你要么需要将binskwarg设置为df["count"].max()-df["count"].min()-要么照你说的那样做，计算得到每个count的次数，然后创建一个条形图。

可能是这样的：

from collections import Counter
counts = Counter()
for count in df["count"]:
  counts[count] += 1

print counts

另一种更干净的方法，我完全忽略了，第二次世界大战在下面指出，就是使用Counter的标准构造函数：

count_counter = Counter(df['count'])

相关问题更多 >

编程相关推荐

热门问题

热门文章