使用正则表达式拆分列

Date_Title Date Copies 05-21 I. Don Quixote 1605 252 21-20 IV. Macbeth 1629 987 10-12 ML. To Kill a Mockingbird 1960 478 12 V. Invisible Man 1897 136

3条回答

网友

1楼 · 编辑于 2024-09-29 06:23:59

关注字符串拆分：

string = "21-20 IV. Macbeth"
i = string.index(".")  # Finds the first point
date, roman = string[:i].split() # 21-20, IV
title = string[i+2:]  # Macbeth

网友

2楼 · 编辑于 2024-09-29 06:23:59

我很确定可能会有一个更优化的解决方案，但这将是一个快速解决方案：

df['Date_Title'] = df['Date_Title'].apply(lambda x: (x.split()[0],x.split()[1],' '.join(x.split()[2:])

或：

df['Date_Title'] = (df['Date_Title'].str.split().str[0],
                    df['Date_Title'].str.split().str[1],
                    ' '.join(df['Date_Title'].str.split().str[2:])

网友

3楼 · 编辑于 2024-09-29 06:23:59

你可以用

df = pd.DataFrame({'Date_Title':['05-21 I. Don Quixote','21-20 IV. Macbeth','10-12 ML. To Kill a Mockingbird','12 V. Invisible Man'], 'Date':[1605,1629,1960,1897], 'Copies':[252,987,478,136]})
rx = r'^(\d+(?:-\d+)?\s*(M{0,4}(?:C[MD]|D?C{0,3})(?:X[CL]|L?X{0,3})(?:I[XV]|V?I{0,3})))\.\s*(.*)'
df[['NumRoman','Roman','Name']] = df.pop('Date_Title').str.extract(rx)
df = df[['NumRoman','Roman','Name', 'Date', 'Copies']]
>>> df
   NumRoman Roman                   Name  Date  Copies
0   05-21 I     I            Don Quixote  1605     252
1  21-20 IV    IV                Macbeth  1629     987
2  10-12 ML    ML  To Kill a Mockingbird  1960     478
3      12 V     V          Invisible Man  1897     136

见regex demo详细信息：

^-字符串的开头
(\d+(?:-\d+)?\s*(M{0,4}(?:C[MD]|D?C{0,3})(?:X[CL]|L?X{0,3})(?:I[XV]|V?I{0,3})))-第1组（“NumRoman”）：
- \d+(?:-\d+)?-一个或多个数字，后跟可选的-序列和一个或多个数字
- \s*-零个或多个空格
- (M{0,4}(?:C[MD]|D?C{0,3})(?:X[CL]|L?X{0,3})(?:I[XV]|V?I{0,3}))-第2组（“罗马”）：参见How do you match only valid roman numerals with a regular expression?了解解释
\.-一个点
\s*-零个或多个空格
(.*)-第3组（“名称”）：除换行符以外的任何零个或多个字符，尽可能多

注意df.pop('Date_Title')删除Date_Title列，并将其作为extract方法的输入^如果需要保持原始列顺序，{}是必需的

相关问题更多 >

编程相关推荐

热门问题

热门文章

使用正则表达式拆分列

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >