将tabdelimited.txt解析为数据帧

2024-09-24 04:21:34 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个制表符分隔的.txt文件,我正试图将其导入Python中的数据框中,其格式与文本文件相同,如下所示:

火腿标签一直走到裕廊点,疯狂。。仅在bugis n great world la e自助餐厅提供。。。电影里有阿莫尔·沃特

spam选项卡2005年5月21日,免费参加2个星期一的比赛,赢得足总杯决赛tkts。文本FA至87121以接收输入问题(标准文本速率)T&;C的应用08452810075超过18

请注意,上面还有很多行(大约5500行)我希望传递到Python中,并在从中创建矩阵数组时保持相同的格式

我目前的代码是:

 import pandas as pd 

 with open("SMSSpamCollection.txt") as f:
      reader = csv.reader(f, delimiter = "\t")
      d = list(reader)
 d = pd.DataFrame(reader)

它稍微做了我需要它做的事情,但是我想要一个包含两列的数据框:Y(包含ham或spam)和第二个X(包含消息)。这时我得到一个[5572,2]数据帧


Tags: 文件数据文本txtas格式标签spam