合并多个数据帧，其中一些行不是sam问题的回答

合并多个数据帧，其中一些行不是sam

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

所以我有5个来自国际足联13-17的前80名球员的数据帧，每个数据帧包含球员的名字、级别和俱乐部。我的最终目标是将所有这些数据集合并在一起，这样我就可以对每个玩家每年进行一次评级，如果他们没有成功的话，则为空值。很明显，有些球员并不是每年都能进入前80名的。下面是三个数据帧的片段。你知道吗 国际足联18 <code>Name Overall Club 0 Cristiano Ronaldo 94 Real Madrid CF 1 L. Messi 93 FC Barcelona 2 Neymar 92 FC Barcelona 3 L. Suárez 92 FC Barcelona 4 M. Neuer 92 FC Bayern Munich 5 De Gea 90 Manchester United 6 R. Lewandowski 90 FC Bayern Munich 7 J. Boateng 90 FC Bayern Munich 8 G. Bale 90 Real Madrid CF 9 Z. Ibrahimović 90 Manchester United 10 T. Courtois 89 Chelsea</code> 国际足联13 <code>Name Overall Club 0 L. Messi 94 FC Barcelona 1 Cristiano Ronaldo 92 Real Madrid CF 2 F. Ribéry 90 FC Bayern Munich 3 Xavi 90 FC Barcelona 4 Iniesta 90 FC Barcelona 5 N. Vidić 89 Manchester United 6 W. Rooney 89 Manchester United 7 Casillas 89 Real Madrid CF 8 David Silva 88 Manchester City 9 Falcao 88 Atlético Madrid 10 Z. Ibrahimović 88 Paris Saint-Germain</code> 出现这种情况的一个例子是N.Vidić，他已经退休。你知道吗 我的目标是 <code>Name FIFA17 FIA13 Club 0 Cristiano Ronaldo 94 92 Real Madrid CF 1 L. Messi 93 94 FC Barcelona 2 Neymar 92 83 FC Barcelona 3 L. Suárez 92 86 FC Barcelona 4 M. Neuer 92 87 FC Bayern Munich 5 De Gea 90 82 Manchester United 6 R. Lewandowski 90 80 FC Bayern Munich 7 J. Boateng 90 84 FC Bayern Munich 8 G. Bale 90 86 Real Madrid CF 9 Z. Ibrahimović 90 88 Manchester United 10 T. Courtois 89 83 Chelsea 11 F. Ribéry 86 90 FC Bayern Munich 12 Xavi 0 90 FC Barcelona 13 Iniesta 88 90 FC Barcelona 14 N. Vidić 0 89 Manchester United 15 W. Rooney 0 89 Manchester United 16 Casillas 0 89 Real Madrid CF 17 David Silva 87 88 Manchester City 18 Falcao 0 88 Atlético Madrid</code> 我不熟悉python和pandas，但我尝试过使用join和merge，但似乎总是使用每个表的索引，而不是唯一的名称。你知道吗 任何帮助都将不胜感激！你知道吗

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在带有<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html" rel="nofollow noreferrer">^{<cd3>}</a>的列中对<code>MultiIndex</code>使用<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.set_index.html" rel="nofollow noreferrer">^{<cd1>}</a>，然后用<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.fillna.html" rel="nofollow noreferrer">^{<cd5>}</a>替换<code>NaN</code>s，强制转换为<code>integer</code>s，最后将<code>MultiIndex</code>转换为<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html" rel="nofollow noreferrer">^{<cd8>}</a>列： <pre><code>s1 = df1.drop_duplicates(['Name','Club']).set_index(['Name','Club'])['Overall'] s2 = df2.drop_duplicates(['Name','Club']).set_index(['Name','Club'])['Overall'] df = pd.concat([s2, s1], axis=1, keys=('FIFA13','FIFA18')).fillna(0).astype(int).reset_index() print (df) Name Club FIFA13 FIFA18 0 Casillas Real Madrid CF 89 0 1 Cristiano Ronaldo Real Madrid CF 92 94 2 David Silva Manchester City 88 0 3 De Gea Manchester United 0 90 4 F. Ribéry FC Bayern Munich 90 0 5 Falcao Atlético Madrid 88 0 6 G. Bale Real Madrid CF 0 90 7 Iniesta FC Barcelona 90 0 8 J. Boateng FC Bayern Munich 0 90 9 L. Messi FC Barcelona 94 93 10 L. Suárez FC Barcelona 0 92 11 M. Neuer FC Bayern Munich 0 92 12 N. Vidić Manchester United 89 0 13 Neymar FC Barcelona 0 92 14 R. Lewandowski FC Bayern Munich 0 90 15 T. Courtois Chelsean 0 89 16 W. Rooney Manchester United 89 0 17 Xavi FC Barcelona 90 0 18 Z. Ibrahimović Manchester United 0 90 19 Z. Ibrahimović Paris Saint-Germain 88 0 </code></pre> 如果顺序是重要的，解决方案是相似的，只获得唯一对<code>Names</code>和<code>Club</code>，通过<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop_duplicates.html" rel="nofollow noreferrer">^{<cd11>}</a>和<a href="http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reindex.html" rel="nofollow noreferrer">^{<cd12>}</a>连接在一起并删除重复项： <pre><code>s1 = df1.drop_duplicates(['Name','Club']).set_index(['Name','Club'])['Overall'] s2 = df2.drop_duplicates(['Name','Club']).set_index(['Name','Club'])['Overall'] df = pd.concat([s2, s1], axis=1, keys=('FIFA13','FIFA18')).fillna(0).astype(int) idx = pd.concat([df1[['Name','Club']], df2[['Name','Club']]]).drop_duplicates() df = df.reindex(idx).reset_index().drop_duplicates('Name', keep='last') print (df) Name Club FIFA13 FIFA18 0 L. Messi FC Barcelona 94 93 1 Cristiano Ronaldo Real Madrid CF 92 94 2 F. Ribéry FC Bayern Munich 90 0 3 Xavi FC Barcelona 90 0 4 Iniesta FC Barcelona 90 0 5 N. Vidić Manchester United 89 0 6 W. Rooney Manchester United 89 0 7 Casillas Real Madrid CF 89 0 8 David Silva Manchester City 88 0 9 Falcao Atlético Madrid 88 0 11 Neymar FC Barcelona 0 92 12 L. Suárez FC Barcelona 0 92 13 M. Neuer FC Bayern Munich 0 92 14 De Gea Manchester United 0 90 15 R. Lewandowski FC Bayern Munich 0 90 16 J. Boateng FC Bayern Munich 0 90 17 G. Bale Real Madrid CF 0 90 18 Z. Ibrahimović Manchester United 0 90 19 T. Courtois Chelsean 0 89 </code></pre> 对于一般解决方案，请使用<code>list comprehension</code>： <pre><code>dfs = [df2, df1] names= ['FIFA13','FIFA18'] s = [x.drop_duplicates(['Name','Club']).set_index(['Name','Club'])['Overall'] for x in dfs] df = pd.concat(s, axis=1, keys=(names)).fillna(0).astype(int) s1 = [x[['Name','Club']] for x in dfs] idx = pd.concat(s1).drop_duplicates() df = df.reindex(idx).reset_index().drop_duplicates('Name', keep='last') </code></pre>

合并多个数据帧，其中一些行不是sam

1 个回答

相关Python问题