在读取数据帧之前或读取数据帧时拆分字符串

id1, 01-01-2015, 'place0-place01' id1, 01-01-2015, 'place0-place01-place03' id1, 01-01-2015, 'place1-place11-place12' id2, 01-01-2016, 'place0-place01-place03' id3, 01-01-2017, 'place5-place51-place53' id3, 01-01-2017, 'place5-place51-place53'

2条回答

网友

1楼 · 编辑于 2024-06-02 07:25:40

您可以使用.str套Series方法。Pandas在处理字符串方面有一个great tutorial

您还可以在^{}中使用converterskwarg

以下是数据集上几种不同方法的计时结果（我重复了很多次）：

# 2.78s (Read in everything, split, then take the first result)
%time df = pd.read_csv('tmp.txt', header=None, nrows=1000000); df.loc[:, 2] = df.loc[:, 2].str.split('-').str[0]
# 2.56s (Read in everything and use a regular expression)
%time df = pd.read_csv('tmp.txt', header=None, nrows=1000000); df.loc[:, 2] = df.loc[:, 2].str.extract('([^-]*)')
# 2.58s (Apply a function to the second column when data is read)
%time df = pd.read_csv('tmp.txt', header=None, nrows=1000000, converters={2: lambda x: re.match('[^-]*', x).group(0)})

正如所见，使用两种正则表达式方法（第2种和第3种）中的一种要快一些

网友

2楼 · 编辑于 2024-06-02 07:25:40

您可以尝试以下方法：

df = pd.DataFrame({'col1':['place0-place01','place1-place01-place11']})
df['col2'] = df.col1.str.split('-').str.get(0)

    # output
     col1                    col2
0   place0-place01          place0
1   place1-place01-place11  place1

相关问题更多 >

编程相关推荐

热门问题

热门文章

在读取数据帧之前或读取数据帧时拆分字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >