擅长:python、mysql、java
<p>为了便于编码和计算速度,您可以采取的方法是:首先,将每列中的值转换为列表(您可以使用pandas库)。例如:</p>
<pre><code>import pandas as pd
dataset_1 = pd.read_csv('/PATH/FILE1.csv')
dataset_2 = pd.read_csv('/PATH/FILE2.csv')
x_min_1 = dataset_1['xmin'].values.tolist()
x_min_2 = dataset_2['xmin'].values.tolist()
</code></pre>
<p>现在您有了要比较的列,并将其转换为列表。现在,根据您想要执行的操作,有很多方法可以从目标列表中删除重复项,例如列表理解。如果希望<code>x_min_2</code>只包含<code>x_min_1</code>中已有的值,可以执行列表理解:</p>
<pre><code>x_min_2 = [i for i in x_min_2 if i in x_min_1]
</code></pre>
<p>很明显,您可以对想要与任何数据集中的任何其他列进行比较的任何列执行此过程。最后,您将使用新的已编辑列表替换目标数据集列:</p>
<pre><code>dataset_2['xmin'] = pd.Series(x_min_2)
</code></pre>