如何用Python Pandas读取列数不均匀的文本文件?

2024-09-28 15:33:03 发布

您现在位置:Python中文网/ 问答频道 /正文

给定具有以下格式的文件:

really:1 christensen:1 scariest:1 many_of:1 label:positive
varied_experiences:1 experiences_from:1 island_resident:1 many_and:1 label:positive
scariest:1 many_of:1 label:negative

最后一列是极性的标签,值为负或正。它前面的其他列是相应段落的单词包。我怎么能把第二个字的标签和第二个数据列一起读入文件?提前谢谢你!在


Tags: 文件offrom格式标签labelmanyreally
1条回答
网友
1楼 · 发布于 2024-09-28 15:33:03

您只需要^{}

import pandas as pd
import io

temp=u"""really:1 christensen:1 scariest:1 many_of:1 label:positive
varied_experiences:1 experiences_from:1 island_resident:1 many_and:1 label:positive
scariest:1 many_of:1 label:negative"""
#after testing replace io.StringIO(temp) to filename
df = pd.read_csv(io.StringIO(temp), 
                 sep=r" label:",
                 header=None, 
                 names=['bag','label'], 
                 engine='python')
print (df)
                                                 bag     label
0       really:1 christensen:1 scariest:1 many_of:1   positive
1  varied_experiences:1 experiences_from:1 island...  positive
2                              scariest:1 many_of:1   negative

更一般的解决方案,按最后一个空格^{}

^{pr2}$

相关问题 更多 >