用于创建文档功能的工具

Vectors-of-Locally-Aggregate-Concepts的Python项目详细描述


局部聚合概念向量(vlac)

PyPI - StatusPyPI - PythonPyPI - Python

目的

如下图所示,vlac对单词嵌入进行集群,以创建k概念。由于单词嵌入(即300)的高维性,使用球面k-均值进行聚类,因为应用欧几里德距离将导致样本之间的距离差别很小。方法如下。让wi是一个大小为d的单词嵌入,分配给集群中心ck。然后,对于文档中的每个单词,vlac计算每个单词嵌入到其指定的聚类中心的残差的元素和。这会产生k特征向量,每个概念一个,所有大小都是d。然后将所有特征向量连接起来,进行功率归一化,最后应用l2归一化。例如,如果要用大小为300的字嵌入创建10个概念,则生成的文档向量将包含10 x 300的值。

用法

在Python3.5.4中测试。

# Train model and transform collection of documentsvlac_model=VLAC(documents=train_docs,model=model,oov=False)vlac_features,kmeans=vlac_model.fit_transform(num_concepts=30)# Create features new documentsvlac_model=VLAC(documents=train_docs,model=model,oov=False)test_features=vlac_model.transform(kmeans=kmeans)

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java试图用Mockito模拟IntConsumer失败   java从ArrayList获取一个元素   是否可以调用。。xyz\jdk1。6\bin\java。从jdk1上运行的java程序执行。5\java。exe?   基于连通距离的Kmeans plus聚类算法在java中的应用   java源代码管理是否使Javadoc的@author和@since冗余?   java静态对象引用和非静态对象引用   java如何创建需要动态参数的对象   java试图将字符串添加到一个字符串列表中,但最终将字符串添加到两个字符串列表中。   javacom。凭直觉。ipp。例外Quickbooks中的异常   安全性是对JAR进行模糊处理,足以防止普通最终用户而不是专家黑客理解JAVA代码吗?   scala S3 java API未正确列出文件夹。   java会话超时后重定向到前一个用户上次访问的页面   java Android到excel。jExecl制作0b文件   从jtextfield java GUI向mysql表中插入值   java JMockit和Fest UI测试   单击swing中的add按钮时,java jtextfield从B3001开始递增1