如果单元格有2个单词，则只提取第一个单词；如果单元格有3个单词，则提取第一个单词PANDAS/REGEX

nba_df['team'].head(11) team 0 Toronto Raptors 1 Boston Celtics 2 Philadelphia 76ers 3 Cleveland Cavaliers 4 Indiana Pacers 5 Miami Heat 6 Milwaukee Bucks 7 Washington Wizards 8 Detroit Pistons 9 Charlotte Hornets 10 New York Knicks

nba_df['cities'] = nba_df.team.str.extract('(^[\w*]+)', expand=True) nba_df[['team', 'cities']].head(11) team cities 0 Toronto Raptors Toronto 1 Boston Celtics Boston 2 Philadelphia 76ers Philadelphia 3 Cleveland Cavaliers Cleveland 4 Indiana Pacers Indiana 5 Miami Heat Miami 6 Milwaukee Bucks Milwaukee 7 Washington Wizards Washington 8 Detroit Pistons Detroit 9 Charlotte Hornets Charlotte 10 New York Knicks New

2条回答

网友

1楼 · 编辑于 2024-07-03 06:59:17

对于您只有2或3个字符串的场景，您可以使用

^(\S+(?:\s+\S+(?=\s+\S+))?)

见regex demo

详细信息

^-字符串的开头
(\S+(?:\s+\S+(?=\s+\S+))?)-捕获组1：
- \S+-一个或多个非空白字符
- (?:\s+\S+(?=\s+\S+))?-一个可选的
  - \s+-1+空格
  - \S+-1+非空白
  - (?=\s+\S+)-紧接着是1+空格和1+非空格

以下是一些其他正则表达式选项：

除最后一个词外的所有词：^(\S+(?:\s+\S+)*)\s+\S+$（demo）/^(.*\S)\s+\S+$（demo）/^(.*?)\s+\S+$（demo）
获取两个单词字符串中的第一个单词和三个单词字符串中的两个第一个单词，并且在其他字符串中不匹配：^(\S+(?=\s+\S+$)|\S+\s+\S+(?=\s+\S+$))（demo）

网友
2楼 · 编辑于 2024-07-03 06:59:17

不要为此与正则表达式抗争，除非您发现它非常可读。相反，从字符串team_name开始。。。拆分、切片和联接：
team_words = team_name.split() team_city = team_words[:-1] city = ' '.join(team_city)
一行：
city = ' '.join(team_name.split()[:-1])
你能很容易地把它插入你的DF广播吗

相关问题更多 >

编程相关推荐

热门问题

热门文章