ProArticle Vector
0 Iran jails blogger 14 years An Iranian weblogg... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
1 UK gets official virus alert site A rapid aler... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
2 OSullivan could run Worlds Sonia OSullivan ind... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
3 Mutant book wins Guardian prize A book evoluti... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
4 Microsoft seeking spyware trojan Microsoft inv... [0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, ...
以上是数据头()矢量化新闻文章的片段。你知道吗
type(data.Vector[0])
是list
我需要在这个向量化数据上使用KMeans集群,但是列表不允许我这样做。你知道吗
data.Vector.shape
是179
,data.Vector[0].shape
是8868
。你知道吗
如何删除该列表,或者如果不能,如何使用它对给定数据进行聚类?也许我可以用下面的方法得到一个数据帧,然后在上面运行PCA。你知道吗
似乎您要做的是,从包含数字列表的Pandas列中创建一个2D numpy数组。在大多数情况下,可以将Pandas列视为列表或一维Numpy数组。在这里,您可以使用^{} 将单独的列表堆叠为行:
因此这会产生一个数组,您可以直接与sklearn的KMeans一起使用:
如果仍然希望中间结果作为Pandas数据帧,可以使用}'s documentation 这将生成一个数据帧:
apply
创建每个列表的Pandas系列;根据^{然后可以通过访问结果数据帧的
.values
成员来获得相同的Numpy数组。但是,这比vstack
解决方案慢得多,在我的机器上是1毫秒,而不是25.4micro秒。你知道吗相关问题 更多 >
编程相关推荐