Pandas/python连接/合并列表列上的两个数据帧问题的回答

Pandas/python连接/合并列表列上的两个数据帧

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

让我们考虑两个数据帧：^ {< CD1>}和^ {< CD2>}： 数据帧<code>Person</code> <pre><code>+---+-----------+-------------------+-----------------------------+-----------------------------------------+ | | nconst | primaryName | primaryProfession | knownForTitles | +---+-----------+-------------------+-----------------------------+-----------------------------------------+ | 0 | nm0000103 | Fairuza Balk | actress,soundtrack | tt0181875,tt0089908,tt0120586,tt0115963 | +---+-----------+-------------------+-----------------------------+-----------------------------------------+ | 1 | nm0000106 | Drew Barrymore | producer,actress,soundtrack | tt0120888,tt0343660,tt0151738,tt0120631 | +---+-----------+-------------------+-----------------------------+-----------------------------------------+ | 2 | nm0000117 | Neve Campbell | actress,producer,soundtrack | tt0134084,tt1262416,tt0120082,tt0117571 | +---+-----------+-------------------+-----------------------------+-----------------------------------------+ | 3 | nm0000132 | Claire Danes | actress,producer,soundtrack | tt0274558,tt0108872,tt1796960,tt0117509 | +---+-----------+-------------------+-----------------------------+-----------------------------------------+ | 4 | nm0000138 | Leonardo DiCaprio | actor,producer,writer | tt0120338,tt0993846,tt1375666,tt0407887 | +---+-----------+-------------------+-----------------------------+-----------------------------------------+ </code></pre> 数据帧<code>Movie</code> <pre><code>+---+-----------+-----------+---------------------+-----------------------+ | | tconst | titleType | originalTitle | genres | +---+-----------+-----------+---------------------+-----------------------+ | 0 | tt0192789 | movie | While Supplies Last | Comedy,Musical | +---+-----------+-----------+---------------------+-----------------------+ | 1 | tt4914592 | movie | Electric Heart | Adventure,Drama,Music | +---+-----------+-----------+---------------------+-----------------------+ | 2 | tt4999994 | movie | Rain Doll | Drama | +---+-----------+-----------+---------------------+-----------------------+ | 3 | tt2690572 | movie | Polaris | Drama | +---+-----------+-----------+---------------------+-----------------------+ | 4 | tt1562859 | movie | Golmaal 3 | Action,Comedy | +---+-----------+-----------+---------------------+-----------------------+ </code></pre> 如您所见<code>knownForTitles</code>from <code>Person</code>是来自<code>Movie</code>数据帧的<code>tconst</code>列表 问题: <ol> <li>我如何计算“有多少<code>actors</code>在一部<code>action</code>电影中扮演过角色？”</li> <li>有多少演员主演了不止一种类型的电影</li> </ol>

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

首先，我们创建<code>person</code>作为数据帧： <pre><code>columns = ['nconst', 'primaryName', 'primaryProfession', 'knownForTitles',] data = [ ('nm0000103', 'Fairuza Balk', 'actress,soundtrack', 'tt0181875,tt0089908,tt0120586,tt0115963'), ('nm0000106', 'Drew Barrymore', 'producer,actress,soundtrack', 'tt0120888,tt0343660,tt0151738,tt0120631'), ('nm0000117', 'Neve Campbell', 'actress,producer,soundtrack', 'tt0134084,tt1262416,tt0120082,tt0117571'), ('nm0000132', 'Claire Danes', 'actress,producer,soundtrack', 'tt0274558,tt0108872,tt1796960,tt0117509'), ('nm0000138', 'Leonardo DiCaprio', 'actor,producer,writer', 'tt0120338,tt0993846,tt1375666,tt0407887'), ] person = pd.DataFrame(data=data, columns=columns) </code></pre> 其次，我们将字符串拆分为两列的列表： <pre><code>for field in ['primaryProfession', 'knownForTitles']: person[field] = person[field].str.split(',') </code></pre> 第三，我们使用<code>explode</code>函数将一行转换为多行： <pre><code>person = person.explode('knownForTitles').explode('primaryProfession') </code></pre> 第四，我们只选择演员/演员作为主要职业： <pre><code>actor_actress = person[ person['primaryProfession'].isin(['actress', 'actor'])] </code></pre> 现在，我们有了一个所谓的整洁格式的数据框（每个单元格都有一个值，而不是一个列表）： <pre><code> nconst primaryName primaryProfession knownForTitles 0 nm0000103 Fairuza Balk actress tt0181875 0 nm0000103 Fairuza Balk actress tt0089908 0 nm0000103 Fairuza Balk actress tt0120586 0 nm0000103 Fairuza Balk actress tt0115963 1 nm0000106 Drew Barrymore actress tt0120888 </code></pre> 在这一点上，我们可以对电影数据帧重复这些步骤，然后加入演员（使用knownfortles）和电影（使用tconst） 对不起，回复的时间太长了。这种方法的关键点是使用<code>str.split(',')</code>，然后使用<code>explode()</code>将数据帧转换为适合联接、合并等的格式

Pandas/python连接/合并列表列上的两个数据帧

1 个回答

相关Python问题