擅长:python、mysql、java
<pre><code>import re
def cleaning_PicURL (text):
text = re.sub(r'pic.twitter.com/[\w]*',"", text)
return text
df['text'] = df['text'].apply(lambda x: cleaning_PicURL(x))
</code></pre>
<p>使用上面的代码,它将从文本中删除图片URL,这里<code>split</code>函数将文本拆分为匹配的正则表达式模式,并给我们一个列表。在tweets中,您可能不确定图片URL的位置,因此使用<code>sub</code>函数而不是<code>split</code>函数更为相关,因为<code>sub</code>函数将直接删除带有空字符串的匹配文本,这对您来说很容易。正则表达式模式<code>pic.twitter.com/[\w]*</code>将有助于匹配文本中的所有twitter图片URL。希望这能消除你的疑虑</p>
<p>例如:</p>
<pre><code>re.sub(r'pic.twitter.com/[\w]*',"", "test pic.twitter.com/va4nFjFQ5B")
'test '
</code></pre>