rows_index = df[df[1] == 'actor_list2'].index
if len(rows_index) > 0:
i = rows_index[0]
while True:
i += 1
name = df.iloc[i, 1]
score = df.iloc[i, 2]
if pd.isna(name): # the names sequence is finished and 'nan' object exists.
break
target[name] = [score]
由于
CSV
文件是不规则的,所以有很多空位置,其中包含“nan”对象。同时,这些列将被编入索引我会用熊猫来读书
然后,初始化并清空字典以存储结果,并使用它构建输出DataFram,最终将其内容发送到
CSV
文件现在您需要在第二列中找到
actor_list2
,这是索引为0
的列,如果它存在,开始在字典target
中的下一行和列1
和2
中存储名称和分数最后,构造DataFrame并编写新的
output.csv
文件现在,您可以使用上面给出的示例去任何地方
祝你好运
正如努尔·阿拉所指出的,这里的格式至少可以说不是很规范。如果您的数据每次都是这样显示的,那么您最好跳过文件中的某些行:
这应该会得到结果,但考虑到格式的不稳定性,这是无法实现自动化的。如果下次有另一个演员呢?还是少一个?即使是努尔·安拉的解决方案也无济于事
老实说,你应该得到更好的数据
相关问题 更多 >
编程相关推荐