大Pandas在一个月一天的时间后从绳子的其余部分分开

网友

1楼 · 编辑于 2024-09-26 21:50:03

您还可以传递日期\时间的确切形式：

df['data'].str.extract('(\w* \d* \d*:\d*:\d*) (.*)')

输出：

                 0        1
0  Oct 22 12:56:52  server1
1  Oct 22 12:56:52  server2
2  Oct 22 12:56:53  server2
3  Oct 22 12:56:54  server2
4  Oct 22 12:56:56    comp2

网友

2楼 · 编辑于 2024-09-26 21:50:03

理解

这取决于数据格式始终为15个字符。
另外，由于我们将不得不删除一列'data'，所以我认为最好是从头开始创建一个数据帧。你知道吗

pd.DataFrame([[s[:15], s[16:]] for s in df.data], columns=['date', 'machine'])

              date  machine
0  Oct 22 12:56:52  server1
1  Oct 22 12:56:52  server2
2  Oct 22 12:56:53  server2
3  Oct 22 12:56:54  server2
4  Oct 22 12:56:56    comp2

`rsplit`

取决于'machine'名称从不包含空格。你知道吗

这是因为pandas.Series.str提供的字符串访问器是一个iterable，可以在类似于x, y = (1, 2)的赋值语句中使用

还请注意，我毫无歉意地接受了使用^{} in this instance from @jezrael的想法

df['date'], df['machine'] = df.pop('data').str.rsplit(n=1).str

df

              date  machine
0  Oct 22 12:56:52  server1
1  Oct 22 12:56:52  server2
2  Oct 22 12:56:53  server2
3  Oct 22 12:56:54  server2
4  Oct 22 12:56:56    comp2

网友

3楼 · 编辑于 2024-09-26 21:50:03

使用positive lookbehind在{semicolon}{two numbers}{space}上拆分：

详情：

(?<=)是正向lookback（检查字符串前面是否有任何内容）
:\d{2}是模式：{semicolon}{two numbers}
\s是空白

结论：我们在whitespace上分裂，但前提是前面有上述模式。你知道吗

s = df['data'].str.split('(?<=:\d{2})\s')

df['date'] = s.str[0]
df['machine'] = s.str[1]
df = df.drop(columns='data')

或者作为piRSquared&；jezraelsuggest in the comments，在一行中：

df['date'], df['machine'] = zip(*df.pop('data').str.split('(?<=:\d{2})\s'))

输出

              date  machine
0  Oct 22 12:56:52  server1
1  Oct 22 12:56:52  server2
2  Oct 22 12:56:53  server2
3  Oct 22 12:56:54  server2
4  Oct 22 12:56:56    comp2

理解

`rsplit`

相关问题更多 >

编程相关推荐

热门问题

热门文章

大Pandas在一个月一天的时间后从绳子的其余部分分开

理解

rsplit

相关问题 更多 >

编程相关推荐

热门问题

热门文章

`rsplit`

相关问题更多 >