基于字段的唯一值在PySpark数据帧中生成UUID

df = pd.DataFrame({'Name': ['John Doe', 'Jane Smith', 'John Doe', 'Jane Smith','Jack Dawson','John Doe']}) df: Name 0 John Doe 1 Jane Smith 2 John Doe 3 Jane Smith 4 Jack Dawson 5 John Doe

df: Name UUID 0 John Doe 6d07cb5f-7faa-4893-9bad-d85d3c192f52 1 Jane Smith a709bd1a-5f98-4d29-81a8-09de6e675b56 2 John Doe 6d07cb5f-7faa-4893-9bad-d85d3c192f52 3 Jane Smith a709bd1a-5f98-4d29-81a8-09de6e675b56 4 Jack Dawson 6a495c95-dd68-4a7c-8109-43c2e32d5d42 5 John Doe 6d07cb5f-7faa-4893-9bad-d85d3c192f52

1条回答

网友

1楼 · 发布于 2024-09-30 06:13:40

您实际需要的是应用hash function。应用于相同值的哈希函数将始终输出相同的结果。另一方面，UUID是is simply a 128 bits integer，因此只需应用128位哈希函数并将结果解释为UUID。例如，MD5就是这样一个散列函数

import hashlib
import uuid

def compute_uuid(name: str) -> uuid.UUID:
    digest = hashlib.md5(name.encode()).digest()
    return uuid.UUID(bytes=digest)

assert compute_uuid('alice') != compute_uuid('bob')

您可以将此新函数应用于数据帧

df['UUID'] = [compute_uuid(name) for name in df['Name']]

应用于我得到的示例数据帧

          Name                                  UUID
0     John Doe  4c2a904b-afba-0659-1225-113ad17b5cec
1   Jane Smith  71768b5e-2a0b-3697-eb3c-0c6d4ebbbaf8
2     John Doe  4c2a904b-afba-0659-1225-113ad17b5cec
3   Jane Smith  71768b5e-2a0b-3697-eb3c-0c6d4ebbbaf8
4  Jack Dawson  ba4f82d8-ef72-6e37-eb87-e5c3b0dce9e3
5     John Doe  4c2a904b-afba-0659-1225-113ad17b5cec

相关问题更多 >

编程相关推荐

热门问题

热门文章