擅长:python、mysql、java
<p>如果ID转换是可预测的,那么一个选项是使用正则表达式来均匀化ID。例如,如果情况只是删除前三位数字,则可以使用如下内容:</p>
<pre class="lang-py prettyprint-override"><code>df['short_id'] = df['long_id'].str.extract(r'\d\d\d-([\d-]*)')
</code></pre>
<p>如果ID转换不可预测(例如,由于转录错误或数据中的某些其他噪声),那么最好的选择是首先使用类似<code>recordlinkage</code>的方法消除ID转换的歧义,请参见示例<a href="https://recordlinkage.readthedocs.io/en/latest/notebooks/data_deduplication.html" rel="nofollow noreferrer">here</a></p>