Python random.shuffle不会为数据帧提供精确的唯一值

user_id job_id 0 HP HP2 1 Microsoft Microsoft4 2 Accenture Accenture2 3 HP HP0 4 Dell Dell4 5 FIS FIS1 6 HP HP0 7 Microsoft Microsoft4 8 Dell Dell2 9 Accenture Accenture0

1条回答

网友

1楼 · 发布于 2024-09-30 19:28:08

唯一的id由基本的pd函数提供，所以您不需要任何花哨的东西。解决方案的效率因df的大小而异

# Hashing for small datasets:
df['new_id'] = pd.factorize(df.apply(tuple, axis=1))[0] + 1

# Grouping for larger datasets:
df['new_id'] = df.groupby(df.columns.tolist(), sort=False).ngroup() + 1

# Assign:
df.assign(id=(#Some combo of columns).astype('category').cat.codes)

进一步阅读： Q: [Pandas] How to efficiently assign unique ID to individuals with multiple entries based on name in very large df

How to assign a unique ID to detect repeated rows in a pandas dataframe?

编程相关推荐

for循环如何使用Java8流迭代x次？
macos如何从java代码执行以下命令行表达式？
java为什么可以使用类名作为向量类型？
在Java中读取平面文件中的XML文件
java为什么gradlew在不同的机器上构建不同的JAR？
线程“main”java中出现异常。lang.NoClassDefFoundError:名称错误：
java安装了Eclipse2006，但没有在文件>新建部分下获取Maven项目
用Java绘制头部和颈部。拉绳问题
线程“main”java中出现异常。lang.ArrayIndexOutofBounds异常：65
java为什么用通配符创建的比较器的compare方法不能接受对象？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python random.shuffle不会为数据帧提供精确的唯一值

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >