Python中文
首页
教程
问答
标签
搜索
登录
注册
使用SciKi的python文档聚类
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我最近开始使用python中的SciKit模块进行文档集群。然而,我很难理解文档聚类的基础知识。</p> <p>我知道什么?</p> <ul> <li>文档聚类通常使用TF/IDF完成。基本上 将文档中的单词转换为向量空间模型 然后输入算法。</li> <li>有许多算法,如k-均值,神经网络,层次 集群来实现这一点。</li> </ul> <p>我的数据:</p> <ul> <li>我正在试验linkedin的数据,每个文档都是 linkedin简介摘要,我想看看类似的工作 文档聚在一起。</li> </ul> <p>当前的挑战:</p> <ul> <li>我的数据有大量的摘要描述,最后变成了10000 当我使用TF/IDF时。有什么合适的方法来处理这个问题吗 高维数据。</li> <li>K-means和其他算法要求我指定集群的数量 (质心),我不知道星团的数目 前面。我相信这是一个完全没有监督的学习。是 有哪些算法可以确定集群的数量?</li> <li>如果你知道的话,我以前从未使用过文档聚类 关于这个问题的教程、教科书或文章,请 请随意提出建议。</li> </ul> <p>我在SciKit的网页上浏览了代码,它包含了太多我不懂的技术词汇,如果你们有任何代码有很好的解释或评论请分享。提前谢谢。</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<ol> <li>对于TF/IDF变换后的大矩阵,考虑使用稀疏矩阵。</li> <li>你可以尝试不同的k值。我不是无监督聚类算法的专家,但我敢打赌,有了这样的算法和不同的参数,你也可以得到不同数量的聚类。</li> </ol>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
无法使用Django/mongoengine连接到MongoDB(身份验证失败)
10 回答
无法使用Django\u mssql\u后端迁移到外部hos
7 回答
无法使用Django&Python3.4连接到MySql
5 回答
无法使用Django+nginx上载媒体文件
1 回答
无法使用Django1.6导入名称模式
2 回答
无法使用Django1.7和mongodb登录管理站点
5 回答
无法使用Djangoadmin创建项目,进程使用了错误的路径,因为我事先安装了错误的Python
3 回答
无法使用Djangockedi验证CBV中的字段
10 回答
无法使用Djangocketditor上载图像(错误400)
3 回答
无法使用Djangocron进行函数调用
3 回答
无法使用Djangofiler djang上载文件
6 回答
无法使用Djangokronos
1 回答
无法使用Djangomssql provid
5 回答
无法使用Djangomssql连接到带有Django 1.11的MS SQL Server 2016
8 回答
无法使用Djangomssq迁移Django数据库
8 回答
无法使用Djangonox创建用户
8 回答
无法使用Djangopyodb从Django查询SQL Server
4 回答
无法使用Djangopython3ldap连接到ldap
3 回答
无法使用Djangoredis连接到redis
6 回答
无法使用Django中的FK创建新表
3 回答