特克斯姆

texim的Python项目详细描述


纺织

文本相似度 文本相似性工具,它更适合记录链接!在

说明

texim是文本相似性工具,用于记录链接任务。
对于余弦jaccard相似性,我们提出了两点:

  • 长度敏感重量
  • 场匹配的半匹配方法

重量类型

经典的余弦相似性使用TF-IDF作为令牌的权重,这里我们使用TF来表示短字符串。记录链接与某个字段匹配是很常见的。比如姓名,邮箱,地址等等。在

我们这里有3种重量类型:

  • tf:令牌的令牌频率
  • len:令牌的长度
  • 1:施工图1

半匹配

缩写词对我们来说很常见,“alanturing”vs“a turing”,而semi match可以匹配“alan”=“a”和“turing”=“turing”。在

安装

pip install texim 

示例

^{pr2}$

通知

  • 所有字段都需要转换为小写。在
  • 你可以打电话来纺织余弦以及提克丝直接如果你需要一个定制的代币切割和重量计数。在

电子邮件

检查设置.py请!在

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
apache HttpClient execute(HttpUriRequest请求)和execute(HttpHost目标,HttpRequest请求)之间的java差异   如何向java进程传递多个密码   java servlet从外部事件调用网页中的javascript弹出/模式对话框   正在重置Unix Java路径变量   java将@Named managed bean注入另一个重用JSF页面?   java Cookie未显示在请求中   java如何记录用户的操作并在用户返回时重播?   java FTPSClient抛出异常javax。网ssl。SSLHandshakeException:握手期间远程主机关闭连接   java“变量可能尚未初始化”在何处使用开关盒进行初始化?   初始化Double java数组   java Android:如何通过按钮启动活动?   java设置外观和感觉颜色   计算两个时间戳对象之间的时间差的日期   扩展画布的类时,绘制方法出现java错误   java在不同的线程中运行JNI方法   java Spring引导OIDC刷新令牌场景   Java slf4j实现:logback vs log4j   java KeyEvents新的KeyEvent变量?   为什么java的模式和匹配器类中没有公共构造函数?   java在JVM上禁用本地JMX连接