嵌入预处理:将单词标记转换为整数向量

2024-05-02 12:52:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试预处理文本语料库,以便输入到单词嵌入层,该层采用整数的填充向量

我知道Keras/Tensorflow已经有了一个可以实现这一点的函数列表(例如,https://keras.io/preprocessing/text/#one_hot)。但是我想做我的自定义标记化。例如,如果语言不是英语,这将非常有用

有人知道一些代码的例子吗?这些代码可以接受一系列标记,并将它们转换为整数向量?我认为这是一个相当常见的NLP任务,所以我想在重新发明轮子之前检查一下


Tags: 函数代码https标记io文本列表tensorflow