基于rnn的文字嵌入模型
chars2vec的Python项目详细描述
chars2vec库在处理包含缩写、俚语、拼写错误或其他特定文本数据集的文本时非常有用。chars2vec语言模型基于单词的符号表示——该模型将每个单词映射到一个固定长度的向量。这些向量表示是通过一个自定义的神经网络获得的,而后者则是在一对相似和非相似的词上进行训练的。这个定制的神经网络包括lstm,它的一部分是读取单词中的字符序列。该模型将相似的文字映射到近端向量。这种方法允许为任何字符序列在向量空间中创建嵌入。chars2vec模型不保留任何嵌入字典,而是使用预训练模型生成嵌入向量。英语中有尺寸为50、100、150、200和300的预训练模型。该库提供了方便的用户api来为任意字符集训练模型。