术语频率–反向文档频率(TFIDF)Python库

py4tfidf的Python项目详细描述


py4tfidf公司

Term Frequency–反向文档频率(TF-IDF)Python库

入门

本项目是用python编程语言实现TF-IDF算法。在

先决条件

Numpy公司

安装

安装py4tfidf最简单的方法是使用pip

pip install py4tfidf

用法

有两个Tfidf类的公共方法。它是vectorize_train和{}。vectorize_train用于建立语料库,根据训练文本计算idf,并将其tf与idf相乘转化为可用向量,而{}只是通过将测试文本的tf与先前获得的if相乘,将测试文本转换为可用向量。vectorize_train和{}都分别取一个参数,即x}train和x}text。因为标记化通常在文本预处理阶段完成,我们假设您自己对文本进行标记化,因此vectorize_train和{}的参数应该是标记化文本的列表。在

^{pr2}$

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java iText字体显示不正确   java使用ApacheFTPClient通过代理连接到FTP服务器   java是在类常量池、字符串池还是年轻一代中为字符串文本分配的空间?GC何时可以访问字符串文字?   java如何读取excel文件并将值设置为null   验证。包含在Java中不用于验证电子邮件格式的(“@”)   两个服务器实例上的java Hibernate主键冲突   java我无法在For循环(JavaFX)中设置按钮文本   单独SocketChannels的java并发读取()对于大型字节缓冲区速度较慢   OpenPDF java分组元素以保持在同一页面上   java将组件放置在任意(x,y)坐标处   java Jackson不会序列化hibernate惰性抓取字段   从Eclipse将带有库的java项目导出到可运行jar   java为什么会出现{错误?   java如何将线性布局(作为子布局)动态添加到约束布局(父布局)?