一种基于字母n-grams向量的字散列方法。当前将文本转换为数字序列。

l3wtransformer的Python项目详细描述


l3wtransformer
===

>;一种降低词包术语向量维数的词哈希方法。它基于字母n-gram。给定一个单词(例如good),它首先向单词添加单词的开始和结束标记(例如good)。然后,把这个单词分成n个字母(例如,字母三元组:go,goo,ood,od)。最后,使用字母n-grams的向量来表示单词。

[huang等人2013,学习使用点击数据进行web搜索的深层结构语义模型]

--


此实现支持从**文本到数字序列的转换**,用数字表示单词的降序频率。

例如:

*lorem ipsum dolor sit amet,consectetuer adipising elit…*被转换为*23、1、80、86、47、50001、21、59、83、93、14、50003、4、7*

添加混合大小写或初始大小写。


l3wtransformer

l3wt=l3wtransformer()

l3wt.文本到u序列(['one example','2nd exa.'])


[[5,18,17,50001,2,10,24,6,15,20,50003],[16,50003,2,10,50003]]
```


欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何使用数据库中的值填充p:selectOneMenu   Java/Junit中的异步单元测试一个非常简单但不成功的例子   在Debian上使用Java连接到MySQL   java测试时如何恢复表中的一条记录/行?   java如何将重点放在jbutton上而不是放在另一个jbutton上?   java我可以从HPROF文件中获取JVM标志吗?   java如何使用自定义比较器在2个集合上保留   java让stringTokenizer将一行文本拆分为预定义变量的最佳方法是什么   Kotlin Android/Java字符串日期时间格式,API21   exchange server EWS Java Api自动发现不工作   netbeans是Java新手,似乎无法修复错误;应为类、接口或枚举。274062   我正在尝试将一些scala代码转换为Java8,以创建新的Lambda和并行集合   流中的分配api(java)   用于串行通信的java Python字节数组