python sklearn集群访问的网页

2024-06-26 18:00:41 发布

男 | 程序猿一只，喜欢编程写python代码。

我有一个大型数据库（大约200万个条目）的表格：

userId         url
54    :      myjournal.eng/politic/technology_in_city
32    :      myjournal.eng/life/food
45    :      myjournal.eng/science/labs
78    :      myjournal.eng/politic/tea_party
86    :      myjournal.eng/music/concert
54    :      myjournal.eng/technology/glasses

我希望使用pythonsklearn进行集群，以便获得一些用户组，并尝试确定主题之间的链接（例如，喜欢食物的用户也喜欢运动。。或者类似的链接）。在

我的方法是：我解析url并为每个id获取一组词干词（例如，用户54将获得['techno'、'glas'、'polic'、'techno'、'cit']），然后使用TfIdf向量器将该文档列表转换为TfIdf矩阵，然后使用Kmeans。在

我的问题是：使用TfIdf矩阵是否是个好主意，因为它可以降低类别（政治、音乐、技术等）的重要性，从而降低集群的可靠性。Kmeans是对这些数据（非常稀疏的矩阵，有很多列）进行聚类的好主意吗？我不能减少feaure的数目，因为矩阵是稀疏的，所以sklearn算法不能工作。在

Tags：用户数据库 url 链接集群条目矩阵 eng

0条回答

目前没有回答

python sklearn集群访问的网页

相关问题更多 >

编程相关推荐

热门问题

热门文章

python sklearn集群访问的网页

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >