将#,和RT从

2024-09-26 17:54:14 发布

您现在位置:Python中文网/ 问答频道 /正文

我有数百万条tweet,我想从tweet中删除"#"和{}。例如:"RT @ABC: Meslekten ihraç edilen #polis müdürü Murat Çetiner"应该给出输出" @ABC: Meslekten ihraç edilen polis müdürü Murat Çetiner"

以下是我目前掌握的代码:

# coding:utf-8
import sys
x = "RT @zamancomtr: Meslekten ihraç edilen polis müdürü Murat Çetiner: Bana takdir belgesi veren     BM de mi paralel? http://t.co/sd5N6yaZzv http:…"
y = ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)"," ",x).split())
print y

Tags: 代码importhttputftweetabcrtcoding
1条回答
网友
1楼 · 发布于 2024-09-26 17:54:14

您可以使用下一个代码:

z = lambda x: re.compile('\#').sub('', re.compile('RT @').sub('@', x, count=1).strip())
print z(x)

首先re.compile('RT @').sub('@', x, count=1)替换昵称之前的第一个'RT'。如果您想删除post中retweet标签的任何情况,只需从代码中删除count=1。有必要使用掩码“RT@”,因为“RT”可能出现在tweet body中。在

同样,re.compile('\#')从tweet中删除所有的标签。在

相关问题 更多 >

    热门问题