擅长:python、mysql、java
<h3>注</h3>
<p>Graipher的解决方案告诉您如何生成唯一的数据帧。我的答案告诉您为什么当前操作会删除太多行(根据您的问题)</p>
<h3>尾注</h3>
<p>当您输入“else”语句来删除重复的tweet时,您将删除具有指定tweet的所有行。让我们演示一下:</p>
<pre><code>import numpy as np
import pandas as pd
df = pd.DataFrame(data=np.random.randint(0, 10, (10, 5)), columns=list('ABCDE'))
</code></pre>
<p>这意味着什么:</p>
<pre><code>Out[118]:
A B C D E
0 2 7 0 5 4
1 2 8 8 3 7
2 9 7 4 6 2
3 9 7 7 9 2
4 6 5 7 6 8
5 8 8 7 6 7
6 6 1 4 5 3
7 1 4 7 8 7
8 3 2 5 8 5
9 5 8 9 2 4
</code></pre>
<p>在您的方法中(假设您希望从“A”而不是“Tweets”中删除重复项),您将得到(即,只有不唯一的行)</p>
<pre><code>Out[118]:
A B C D E
5 8 8 7 6 7
7 1 4 7 8 7
8 3 2 5 8 5
9 5 8 9 2 4
</code></pre>
<p>如果你只是想让这个独特,实现Graipher的建议。如果要计算您有多少个副本,可以执行以下操作:</p>
<pre><code>total = df.shape[0]
duplicates = total - df.A.unique().size
</code></pre>