擅长:python、mysql、java
<p>ISIN似乎是一个分类特性,因此用整数表示它(您可以对其进行比较并进行算术运算)可能会导致问题</p>
<p>通常分类值使用一种编码技术进行编码,最流行的是一种热编码和标签编码。标签编码将每个唯一的分类值映射到一个整数(考虑到我所说的,这不是很好),而一个Hot将您的分类列替换为N列,每个列包含一个值[0,1],并表示一个可能的唯一分类值。您可能想了解更多关于<a href="https://www.analyticsvidhya.com/blog/2020/03/one-hot-encoding-vs-label-encoding-using-scikit-learn/" rel="nofollow noreferrer">here</a>的信息</p>
<p>如果您的ISIN列中没有大量的唯一值,那么最好选择一个。您可以在分类列上使用<a href="https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html" rel="nofollow noreferrer">pandas.get_dummies</a>来应用一种热编码</p>