从datafram中提取字符串时,panda不匹配零个或多个数字/字符

2024-06-26 13:22:41 发布

您现在位置:Python中文网/ 问答频道 /正文

我用的是Python4.4.0。尝试使用0个或更多字符进行匹配时出现意外的匹配行为。我的模式似乎只在字符串值的开头起作用,而不是在任何地方匹配。在

temp = pd.DataFrame(['#aaaaab_1', 'xxaab_3', 'aaab_5', 'xab_8','ab_13','b_21', '666xyz'] )
temp[0].str.extract('([a-z]*)', expand=True)

       0
0            <--missing value
1  xxaab
2   aaab
3    xab
4     ab
5      b
6            <--missing value

temp[0].str.extract('([0-9]*)', expand=True)

     0
0           <--missing value    
1           <--missing value    
2           <--missing value         
3           <--missing value         
4           <--missing value         
5           <--missing value         
6  666

匹配行为似乎回到了我在提取一个或多个字符/数字时所期望的。在

^{pr2}$

Tags: 字符串trueabvalue地方模式extract字符
2条回答

你不会得到任何缺失的值,你会得到空字符串。(它们不一样)'([0-9]*)'匹配任何空的数字字符串,并且数据帧的前六行肯定以空数字字符串开头。您应该要求至少有一个数字的字符串'([0-9]+)',或者先请求任何非数字字符串,然后再请求任何数字字符串来“欺骗”正则表达式:

temp[0].str.extract('[^0-9]*([0-9]*)', expand=True)
#     0
#0    1
#1    3
#2    5
#3    8
#4   13
#5   21
#6  666

您面临的问题是str.extract找到第一个搜索(空字符串也满足这一要求,这是输出的原因),然后返回匹配项而不进一步查找。恰好2nd到6th行返回的不仅仅是空字符串,因为空字符串后面跟的是更多的匹配字符。在

正如您已经发现的,解决方案是修改正则表达式,使空字符串永远无法匹配(即,避免使用*)。在

相关问题 更多 >