我有一个文本文件,行如下:
一堆文本,带有逗号、标点符号等
这一行总是以火腿或垃圾邮件结尾。如何读取包含这样的数据的csv文件,并将文本的第一部分存储在“name”字段中,最后一位存储为“label”字段(在上面的情况下,它将是:
df["label"] = "ham",
df["name"] = 'A bunch of text, with commas, punctuations etc.'
是否还有一种方法可以剔除未按我上面描述的方式指定的文本?假设某行末尾没有垃圾邮件或火腿,我想跳过那些。如何使用熊猫.read_csv()实现这个目标?在
也可以在数据导入过程中执行此操作。您将需要使用正则表达式作为分隔符。表达式正在查找每行后面跟有某个内容的最后一个逗号。以下是一个很好的例子:
应产生:
^{pr2}$我希望这能起到作用。在
假设这是您的原始数据帧:
使用
^{pr2}$df.str.rsplit
。在,
上拆分一次,并将结果展开为两列。df.rename
将优雅地重命名您的列。在相关问题 更多 >
编程相关推荐