擅长:python、mysql、java
<p>我建议将文本标记化,并使用一组名称:</p>
<pre><code>xwords = set(["George", "Lucas", ...])
df["Text"] = ' '.join(filter(lambda x: x not in xwords, df["Text"].str.split(' ')))
</code></pre>
<p>根据字符串的不同,标记化需要比仅在空格上拆分更为精细。在</p>
<p>可能有一种熊猫特有的方法可以做到这一点,但我对此几乎没有经验;)</p>