将列中的唯一字符串分组并对单独的列值执行函数

away_lineup play_length 0 Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons 0:00:05 1 Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons 0:00:10 2 Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons 0:00:20 3 Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons 0:00:07 4 Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons 0:00:25 5 Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, JJ Redick 0:00:14

player play_length Dario Saric 0:01:21 Robert Covington 0:01:21 Joel Embiid 0:01:21 Markelle Fultz 0:01:21 Ben Simmons 0:01:07 JJ Redick 0:00:14

3条回答

网友

1楼 · 编辑于 2024-06-28 11:02:13

你可以像这样使用explode和group by

import numpy as np
import pandas as pd

## create dummy data
arr = [("Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons", "00:00:05"),
("Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons", "00:00:10"),
("Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons", "00:00:20"),
("Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons", "00:00:07"),
("Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, Ben Simmons", "00:00:25"),
("Dario Saric, Robert Covington, Joel Embiid, Markelle Fultz, JJ Redick", "00:00:14"),]

df = pd.DataFrame(arr, columns=["Player", "Play Time"])
df["Play Time"] = pd.to_timedelta(df["Play Time"])

## Solution
df["Player"] = df["Player"].str.split(",")
df.explode("Player").groupby("Player").sum()

输出

            Play Time
Player  
Ben Simmons 00:01:07
JJ Redick   00:00:14
Joel Embiid 00:01:21
Markelle Fultz  00:01:21
Robert Covington    00:01:21
Dario Saric 00:01:21

网友

2楼 · 编辑于 2024-06-28 11:02:13

使用^{}和^{}：

注：pandas.DataFrame.explode与pandas>；一起提供0.25英寸

df['away_lineup'] = df['away_lineup'].str.split(', ')
df['play_length'] = pd.to_timedelta(df['play_length'])
new_df = df.explode('away_lineup').groupby('away_lineup').sum()
print(new_df)

输出：

                 play_length
away_lineup                 
Ben Simmons         00:01:07
Dario Saric         00:01:21
JJ Redick           00:00:14
Joel Embiid         00:01:21
Markelle Fultz      00:01:21
Robert Covington    00:01:21

网友

3楼 · 编辑于 2024-06-28 11:02:13

如果您的熊猫不支持explode：

df['play_length'] = pd.to_timedelta(df['play_length'])

new_df = pd.concat((df[['play_length']], 
                    df['away_lineup'].str.split(',\s*', expand=True)), 
                   axis=1)

(new_df.melt(id_vars=['play_length'], 
             value_vars=new_df.columns[1:], 
             value_name='artist')
   .groupby('artist').play_length.sum()
)

输出：

artist
Ben Simmons        00:01:07
Dario Saric        00:01:21
JJ Redick          00:00:14
Joel Embiid        00:01:21
Markelle Fultz     00:01:21
Robert Covington   00:01:21
Name: play_length, dtype: timedelta64[ns]

相关问题更多 >

编程相关推荐

热门问题

热门文章