我有数百万条tweet,我想从tweet中删除"#"
和{"RT @ABC: Meslekten ihraç edilen #polis müdürü Murat Çetiner"
应该给出输出" @ABC: Meslekten ihraç edilen polis müdürü Murat Çetiner"
以下是我目前掌握的代码:
# coding:utf-8
import sys
x = "RT @zamancomtr: Meslekten ihraç edilen polis müdürü Murat Çetiner: Bana takdir belgesi veren BM de mi paralel? http://t.co/sd5N6yaZzv http:…"
y = ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",x).split())
print y
您可以使用下一个代码:
首先
re.compile('RT @').sub('@', x, count=1)
替换昵称之前的第一个'RT'
。如果您想删除post中retweet标签的任何情况,只需从代码中删除count=1
。有必要使用掩码“RT@”,因为“RT”可能出现在tweet body中。在同样,
re.compile('\#')
从tweet中删除所有的标签。在相关问题 更多 >
编程相关推荐