如何使用标记器（Keras）？无法在字符级别生成令牌

df = pd.DataFrame({'left': ['k2____v72___zal81_f45___hl3___', 'vj43__i1____i1____ixk4__cdo9__'], 'right': ['zal81_jy9___v72___qo7___zr6___', 'e95___qto54_bx29__sef9__md40__'], 'Match': [ 1,0]})

X_train = df['A'] from tensorflow.keras.preprocessing.text import Tokenizer tokenizer = tf.keras.preprocessing.text.Tokenizer(char_level=True, num_words = 500, lower = False, # input is already in lower case filters='_', oov_token=True) tokenizer.fit_on_texts([X_train])

1条回答

网友

1楼 · 发布于 2024-09-29 19:21:06

这是因为您将X_train作为列表传递，您应该执行以下操作：

tokenizer.fit_on_texts(X_train)

这将产生：

[[1, 7, 2, 2, 2, 2, 8, 11, 7, 2, 2, 2, 12, 13, 14, 3, 2, 15, 4, 16, 2, 2, 2, 17, 9, 10, 2, 2, 2]]
{True: 1, '_': 2, '1': 3, '4': 4, 'i': 5, 'k': 6, '2': 7, 'v': 8, 'l': 9, '3': 10, '7': 11, 'z': 12, 'a': 13, '8': 14, 'f': 15, '5': 16, 'h': 17, 'j': 18, 'x': 19, 'c': 20, 'd': 21, 'o': 22, '9': 23}

编程相关推荐

java如何设置apache camel groovy脚本组件的属性
java理解如何在if语句条件内创建对象
java使用访问者和复合模式构建过滤流
游戏框架上的java生成管理区（CRUD）
是java中的toString（）方法。util。日期与地区无关？
java是否可以扩展AppIUMFieldCorator类以使其接受自定义注释？
内存管理java jvm最大和最小堆选项
JavaSpringMVC：正确的异常处理
java保存拖放图像按钮的位置
java如何使用replaceAll（）替换算术（即0+1）

相关问题更多 >

编程相关推荐

热门问题

热门文章