如何将字符串拆分为标记？

网友

1楼 · 编辑于 2024-06-01 08:51:51

使用正则表达式模块的split()函数，在

'\d+'——数字（数字字符）和
'\W+'——非字字符：

代码：

import re

print([i for i in re.split(r'(\d+|\W+)', 'x+13.5*10x-4e1') if i])

输出：

['x', '+', '13', '.', '5', '*', '10', 'x', '-', '4', 'e', '1']

如果不想分隔点（作为表达式中的浮点数），则应使用以下命令：

[\d.]+——数字或点字符（尽管这允许您写：13.5.5）

代码：

print([i for i in re.split(r'([\d.]+|\W+)', 'x+13.5*10x-4e1') if i])

输出：

['x', '+', '13.5', '*', '10', 'x', '-', '4', 'e', '1']

网友

2楼 · 编辑于 2024-06-01 08:51:51

嗯，问题似乎不太简单。我认为，获得健壮（但不幸的是，不是很短）解决方案的一个好方法是使用Python Lex-Yacc创建一个全权值标记器。Lex Yacc是一种常见的（不仅是Python）实践，因此可以有现成的语法来创建一个简单的算术标记器（like this one），您只需根据您的特定需要来调整它们。

网友

3楼 · 编辑于 2024-06-01 08:51:51

这里不建议的另一种选择是使用nltk.tokenize模块

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何将字符串拆分为标记？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >