我需要使用Python对tweets进行预处理。现在我想知道什么是正则表达式来分别删除tweet的所有标签,@user和链接?
例如
original tweet: @peter I really love that shirt at #Macy. http://bet.ly//WjdiW4
I really love that shirt at Macy
@shawn Titanic tragedy could have been prevented Economic Times: Telegraph.co.ukTitanic tragedy could have been preve... http://bet.ly/tuN2wx
Titanic tragedy could have been prevented Economic Times Telegraph co ukTitanic tragedy could have been preve
I am at Starbucks http://4sh.com/samqUI (7419 3rd ave, at 75th, Brooklyn)
I am at Starbucks 7419 3rd ave at 75th Brooklyn
我只需要在每一条推特上都写些有意义的话。我不需要用户名,或任何链接或任何标点符号。
这将适用于您的示例。如果你的tweets中有链接,它将失败,惨编辑:
也适用于内部链接,只要它们被空间分隔开。
只需使用API。为什么要重新发明轮子?
下面的例子是一个近似值。不幸的是,仅仅通过正则表达式是没有正确方法的。下面的regex只是一个URL(不仅仅是http)、任何标点符号、用户名或任何非字母数字字符的条带。它还用一个空格分隔这个词。如果你想在你打算的时候解析tweet,你需要系统中更多的智能。一些考虑到没有标准tweet feed格式的预感自学习算法。
这是我的提议。
下面是你例子的结果
以下是一些不完美的例子
有点晚了,但是这个解决方案防止了诸如hashtag1、hashtag2(不带空格)之类的标点错误,而且实现非常简单
相关问题 更多 >
编程相关推荐