在为匹配的行分配字典键时用字典值筛选数据帧？问题的回答

在为匹配的行分配字典键时用字典值筛选数据帧？

回答此问题可获得 20 贡献值，回答如果被采纳可获得 50 分。

我有一个dataframe，其中有一个列“Links”，其中包含几千篇在线文章的url。每个观察都有一个URL。在 <pre><code>urls_list = ['http://www.ajc.com/news/world/atlan...', 'http://www.seattletimes.com/sports/...', 'https://www.cjr.org/q_and_a/washing...', 'https://www.washingtonpost.com/grap...', 'https://www.nytimes.com/2017/09/01/...', 'http://www.oregonlive.com/silicon-f...'] df = pd.DataFrame(urls_list,columns=['Links']) </code></pre> 另外，我还有一个字典，其中包含publication names作为键，域名作为值。在 ^{pr2}$ 我想过滤dataframe，以便只得到那些在“Links”列中包含字典值中的域的观察值，同时同时将字典键中的发布名称分配给新列“publication”。我设想的是使用下面的代码创建“publication”列，然后删除<code>None</code>从该列中筛选事实之后的数据帧。在 <pre><code>pub_list = [] for row in df['Links']: for k,v in urls_dict.items(): if row.find(v) > -1: publication = k else: publication = None pub_list.<a href="https://www.cnpython.com/list/append" class="inner-link">append</a>(publication) </code></pre> 然而，作为回报，我得到的列表<code>pub_list</code>是我的dataframe的三倍长。有人能建议如何修复上述代码吗？或者，也可以建议一个更干净的解决方案，它可以（1）使用字典值（域名）过滤数据框的“Links”列，同时（2）创建字典键（Publication names）的新“Publication”列？（请注意，<code>df</code>是在这里创建的，为了简洁起见，只有一列；实际文件将有许多列，因此我必须能够指定要筛选的列。） 编辑：我想澄清一下RagingRoosevelt的回答。我想避免使用合并，因为有些域可能不完全匹配。例如，使用<code>ajc.com</code>我也希望能够捕获<code>myajc.com</code>，而使用<code>washingtonpost.com</code>我也希望得到类似<code>live.washingtonpost.com</code>的子域。因此，我希望使用<code>str.contains()</code>、<code>find()</code>或<code>in</code>运算符的“在字符串中查找子字符串”解决方案。在

0 条评论
分类：Python问答

默认排序时间排序

1 个回答

匿名 1天前

　擅长：python、mysql、java

在为匹配的行分配字典键时用字典值筛选数据帧？

1 个回答

相关Python问题