我用的是Python4.4.0。尝试使用0个或更多字符进行匹配时出现意外的匹配行为。我的模式似乎只在字符串值的开头起作用,而不是在任何地方匹配。在
temp = pd.DataFrame(['#aaaaab_1', 'xxaab_3', 'aaab_5', 'xab_8','ab_13','b_21', '666xyz'] )
temp[0].str.extract('([a-z]*)', expand=True)
0
0 <--missing value
1 xxaab
2 aaab
3 xab
4 ab
5 b
6 <--missing value
temp[0].str.extract('([0-9]*)', expand=True)
0
0 <--missing value
1 <--missing value
2 <--missing value
3 <--missing value
4 <--missing value
5 <--missing value
6 666
匹配行为似乎回到了我在提取一个或多个字符/数字时所期望的。在
^{pr2}$
你不会得到任何缺失的值,你会得到空字符串。(它们不一样)
'([0-9]*)'
匹配任何空的数字字符串,并且数据帧的前六行肯定以空数字字符串开头。您应该要求至少有一个数字的字符串'([0-9]+)'
,或者先请求任何非数字字符串,然后再请求任何数字字符串来“欺骗”正则表达式:您面临的问题是
str.extract
找到第一个搜索(空字符串也满足这一要求,这是输出的原因),然后返回匹配项而不进一步查找。恰好2nd到6th行返回的不仅仅是空字符串,因为空字符串后面跟的是更多的匹配字符。在正如您已经发现的,解决方案是修改正则表达式,使空字符串永远无法匹配(即,避免使用
*
)。在相关问题 更多 >
编程相关推荐