擅长:python、mysql、java
<p>例如以下数据帧</p>
<pre><code> Supporter
0 üá®üáÆ
1 foo
2 üáÆüá™üá™üá∫
3 üìû061 300149
4 bar
5 üíªsdim.csdg@dsga.com
</code></pre>
<p>我们可以使用<a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.str.match.html" rel="nofollow noreferrer">^{<cd1>}</a>删除任何包含特殊字符的行:</p>
^{pr2}$
<p>输出:</p>
<pre><code> Supporter
1 foo
4 bar
</code></pre>
<p>另外,如果要在保留实际记录的同时只删除特殊字符:</p>
<pre><code>df['Supporter'] = df['Supporter'].str.replace('[\u0080-\uFFFF]', '')
print(df)
</code></pre>
<p>输出:</p>
<pre><code> Supporter
0
1 foo
2
3 061 300149
4 bar
</code></pre>
<p>注意:如果数据集中有任何<code>NA</code>值,则应在运行这些值之前删除它们:</p>
<pre><code>df = df.dropna()
</code></pre>