Python:从一个列表创建数据帧,其中每一新行从一个特定的列表索引开始

2024-10-06 07:47:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个列表,其中“SUMMARY”元素和下一个元素之间的项数是不固定的

list = ['SUMMARY - Dec 2013', 'Person1', 'None', 'None', '10', 'SUMMARY - Dec 2013', 'Person2', '20', 'SUMMARY - Jan 2014', 'Person3', 'None']

我试图实现的是将列表转换为一个数据帧,其中每行以“SUMMARY”元素开头

我用过

match = []
match.append([n for n, l in enumerate(list) if l.startswith('SUMMARY')])

使用输出[[0, 5, 8]]获取包含“SUMMARY”的项的索引,我希望我的数据帧的每一行从其索引包含在match中的相应项开始。在本例中,match有3个元素,因此我希望我的dataframe有3行和以下结构:

'SUMMARY - Dec 2013', 'Person1', 'None', 'None', '10'
'SUMMARY - Dec 2013', 'Person2', '20',   NA,    NA
'SUMMARY - Jan 2014', 'Person3', 'None', NA,    NA

基本上,当特定行的项目数小于最大列数时,其余部分将填充NA/NaN


Tags: 数据none元素列表matchsummaryjandec
1条回答
网友
1楼 · 发布于 2024-10-06 07:47:34

感谢您提供的示例数据。如果从单个系列开始,则更容易实现这一点。您可以根据是否存在“摘要”对数据行进行分组,然后使用它跨列聚合和重新分解数据

s = pd.Series(your_list)
pd.DataFrame(s.groupby(s.str.contains('summary', case=False).cumsum())
              .agg(list)
              .tolist())                                                   

                    0        1     2     3     4
0  SUMMARY - Dec 2013  Person1  None  None    10
1  SUMMARY - Dec 2013  Person2    20  None  None
2  SUMMARY - Jan 2014  Person3  None  None  None

感谢@Shubham Sharma建议迭代组:

pd.DataFrame([g.tolist() for k, g in s.groupby(
    s.str.contains('summary', case=False).cumsum())])

                    0        1     2     3     4
0  SUMMARY - Dec 2013  Person1  None  None    10
1  SUMMARY - Dec 2013  Person2    20  None  None
2  SUMMARY - Jan 2014  Person3  None  None  None

相关问题 更多 >