从datafram中提取字符串时，panda不匹配零个或多个数字/字符

temp = pd.DataFrame(['#aaaaab_1', 'xxaab_3', 'aaab_5', 'xab_8','ab_13','b_21', '666xyz'] ) temp[0].str.extract('([a-z]*)', expand=True) 0 0 <--missing value 1 xxaab 2 aaab 3 xab 4 ab 5 b 6 <--missing value temp[0].str.extract('([0-9]*)', expand=True) 0 0 <--missing value 1 <--missing value 2 <--missing value 3 <--missing value 4 <--missing value 5 <--missing value 6 666

2条回答

网友

1楼 · 编辑于 2024-06-26 13:22:41

你不会得到任何缺失的值，你会得到空字符串。（它们不一样）'([0-9]*)'匹配任何空的数字字符串，并且数据帧的前六行肯定以空数字字符串开头。您应该要求至少有一个数字的字符串'([0-9]+)'，或者先请求任何非数字字符串，然后再请求任何数字字符串来“欺骗”正则表达式：

temp[0].str.extract('[^0-9]*([0-9]*)', expand=True)
#     0
#0    1
#1    3
#2    5
#3    8
#4   13
#5   21
#6  666

网友

2楼 · 编辑于 2024-06-26 13:22:41

您面临的问题是str.extract找到第一个搜索（空字符串也满足这一要求，这是输出的原因），然后返回匹配项而不进一步查找。恰好2^nd到6^th行返回的不仅仅是空字符串，因为空字符串后面跟的是更多的匹配字符。在

正如您已经发现的，解决方案是修改正则表达式，使空字符串永远无法匹配（即，避免使用*）。在

相关问题更多 >

编程相关推荐

热门问题

热门文章