一种基于字母n-grams向量的字散列方法。当前将文本转换为数字序列。
l3wtransformer的Python项目详细描述
l3wtransformer
===
>;一种降低词包术语向量维数的词哈希方法。它基于字母n-gram。给定一个单词(例如good),它首先向单词添加单词的开始和结束标记(例如good)。然后,把这个单词分成n个字母(例如,字母三元组:go,goo,ood,od)。最后,使用字母n-grams的向量来表示单词。
[huang等人2013,学习使用点击数据进行web搜索的深层结构语义模型]
--
此实现支持从**文本到数字序列的转换**,用数字表示单词的降序频率。
例如:
*lorem ipsum dolor sit amet,consectetuer adipising elit…*被转换为*23、1、80、86、47、50001、21、59、83、93、14、50003、4、7*
添加混合大小写或初始大小写。
l3wtransformer
l3wt=l3wtransformer()
l3wt.文本到u序列(['one example','2nd exa.'])
[[5,18,17,50001,2,10,24,6,15,20,50003],[16,50003,2,10,50003]]
```
===
>;一种降低词包术语向量维数的词哈希方法。它基于字母n-gram。给定一个单词(例如good),它首先向单词添加单词的开始和结束标记(例如good)。然后,把这个单词分成n个字母(例如,字母三元组:go,goo,ood,od)。最后,使用字母n-grams的向量来表示单词。
[huang等人2013,学习使用点击数据进行web搜索的深层结构语义模型]
--
此实现支持从**文本到数字序列的转换**,用数字表示单词的降序频率。
例如:
*lorem ipsum dolor sit amet,consectetuer adipising elit…*被转换为*23、1、80、86、47、50001、21、59、83、93、14、50003、4、7*
添加混合大小写或初始大小写。
l3wtransformer
l3wt=l3wtransformer()
[[5,18,17,50001,2,10,24,6,15,20,50003],[16,50003,2,10,50003]]
```