python sklearn集群访问的网页

2024-06-26 18:00:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大型数据库(大约200万个条目)的表格:

userId         url
54    :      myjournal.eng/politic/technology_in_city
32    :      myjournal.eng/life/food
45    :      myjournal.eng/science/labs
78    :      myjournal.eng/politic/tea_party
86    :      myjournal.eng/music/concert
54    :      myjournal.eng/technology/glasses

我希望使用pythonsklearn进行集群,以便获得一些用户组,并尝试确定主题之间的链接(例如,喜欢食物的用户也喜欢运动。。或者类似的链接)。在

我的方法是:我解析url并为每个id获取一组词干词(例如,用户54将获得['techno'、'glas'、'polic'、'techno'、'cit']),然后使用TfIdf向量器将该文档列表转换为TfIdf矩阵,然后使用Kmeans。在

我的问题是:使用TfIdf矩阵是否是个好主意,因为它可以降低类别(政治、音乐、技术等)的重要性,从而降低集群的可靠性。Kmeans是对这些数据(非常稀疏的矩阵,有很多列)进行聚类的好主意吗?我不能减少feaure的数目,因为矩阵是稀疏的,所以sklearn算法不能工作。在


Tags: 用户数据库url链接集群条目矩阵eng