在单个Dataframe列中将字符串与数字分开，并创建两个新列

df = pd.DataFrame(data=[['APPLEGATE WINERY 455.292049'],['AMAND FARM 849.827192'],['COBB FARM ST 1039.49357'],['DIRIGIA 2048.947284']], columns = ['Col1']) Col1 0 APPLEGATE WINERY 455.292049 1 AMAND FARM 849.827192 2 COBB FARM ST 1039.49357 3 DIRIGIA 2048.947284

3条回答

网友

1楼 · 编辑于 2024-06-25 23:07:34

你可以用rsplit。它会从右边开始把绳子分开。你知道吗

pd.DataFrame(df.Col1.str.rsplit(' ',1).tolist(), columns = ['Name','Area'])

Result:
    Name                Area
0   APPLEGATE WINERY    455.292049
1   AMAND FARM          849.827192
2   COBB FARM ST       1039.49357
3   DIRIGIA            2048.947284

网友

2楼 · 编辑于 2024-06-25 23:07:34

感觉你可以做str.rsplit

df.Col1.str.rsplit(' ',1,expand=True).apply(lambda x : x.str.strip(),1)
Out[314]: 
                  0            1
0  APPLEGATE WINERY   455.292049
1        AMAND FARM   849.827192
2      COBB FARM ST   1039.49357
3           DIRIGIA  2048.947284

网友

3楼 · 编辑于 2024-06-25 23:07:34

使用一个extract调用。如果使用这个正则表达式，还需要从结果中去掉尾随空格。你知道吗

df2 = (df['Col1'].str.extract(r'(?P<Name>.*?)(?P<Area>\d+(?:\.\d+)?)')
                 .applymap(str.strip))
df2
               Name         Area
0  APPLEGATE WINERY   455.292049
1        AMAND FARM   849.827192
2      COBB FARM ST   1039.49357
3           DIRIGIA  2048.947284

正则表达式细分

(?P<Name>   # first named capture group - "Name"
    .*?     # match anything (non-greedy)
)
(?P<Area>   # second named group - "Area"
    \d+     # match one or more digits,
    (?:     
       \.   # decimal
       \d+  # trailing digits
    )?      # the `?` indicates floating point is optional
)

PS，要将“Area”列转换为数字，请使用pd.to_numeric。你知道吗

相关问题更多 >

编程相关推荐

热门问题

热门文章