我有一个大数据集,有一些x行和y列。其中一列是单词和一些不需要的数据。不需要的数据没有特定的模式,因此我发现很难将其从数据帧中删除。
nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', '\xd9\x85\xd8\xb7\xd8\xa7\xd8\xb1', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', '\xd8\xa7\xd9\x84\xd8\xaf\xd9\x88\xd9\x84\xd9\x8a', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
['Buona', 'notte', '\xd1\x81\xd0\xbf\xd0\xbe\xd0\xba\xd0\xbe\xd0\xb9\xd0\xbd\xd0\xbe\xd0\xb9', '\xd0\xbd\xd0\xbe\xd1\x87\xd0\xb8', '\xd9\x84\xd9\x8a\xd9\x84\xd8\xa9', '\xd8\xb3\xd8\xb9\xd9\x8a\xd8\xaf\xd8\xa9!', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', 'Viceroy', 'Hotel,', 'Yas\xe2\x80\xa6']
每个不是单词的字符都将被删除,这只是大数据集中的一列。列名是nonhashtag
清洁柱子的简单方法是什么。直接移除或替换为NAN
预期产量
nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
['Buona', 'notte', 'Viceroy', 'Hotel,']
每个[]
都是该列中的一行,因此只需要删除\x and remaining characters
,空的[]
应该留在该行中。保留该行是很重要的,因为其他列的该行中充满了所需的信息。
要编写正确的代码,我无法通过读取的输入进行传递,因为我无法在数据集中找到编写regex的模式。
提前谢谢你的帮助
我导入了很多文件,很多时候列名是脏的,它们会得到不需要的特殊字符,我不知道哪些字符可能会出现。我只想在列名中加下划线,不加空格
这就是你想要的吗?
'[^A-Za-z\s]+'
-是一个正则表达式,意思是除以下字符外,所有字符都接受:A
到Z
a
到z
因此
.str.replace('[^A-Za-z\s]+', '')
将删除除属于英语字母表、空格和制表符的字母以外的所有字符相关问题 更多 >
编程相关推荐