Pandas：通过正则表达式用散列字符串替换字符串

1条回答

网友

1楼 · 发布于 2024-09-30 12:19:09

以下是我的建议：

import hashlib
import re
import pandas as pd
# First I reproduce a similar dataset
df = pd.DataFrame({"v1":["ABSX", "ADSFJ"],
                   "v2": ["PLAN=PLAN_A", "PLAN=PLAN_B"],
                   "v3": ["SFFBJD", "AHJDG"]})

# I search for the regex and create a column matched_el with the hash
r = re.compile(r'=[a-zA-Z_]+')
df["matched_el"] = ["".join(r.findall(w)) for w in df.v2]
df["matched_el"] = df["matched_el"].str.replace("=","")
df["matched_el"] = [hashlib.md5(w.encode()).hexdigest() for w in df.matched_el]
# Then I replace in v2 using this hash
df["v2"] = df["v2"].str.replace("(=[a-zA-Z_]+)", "=")+df["matched_el"]
df = df.drop(columns="matched_el")

结果如下

      v1                                     v2      v3
0   ABSX  PLAN=8d846f78aa0b0debd89fc1faafc4c40f  SFFBJD
1  ADSFJ  PLAN=3b9a3c8184829ca5571cb08c0cf73c8d   AHJDG

编程相关推荐

java Gif未显示在JFrame中
java在包“安卓”中找不到属性“startcolor”的资源标识符
java在带有jnlp文件的小程序中加载惰性jar时不能工作的原因是什么？
javajavax。坚持不懈PersistenceException:没有名为的EntityManager的持久性提供程序
多线程当不仅仅执行主方法（Java）时意味着什么？
java JUnit测试错误未找到测试
java写入Spring Boot“resources”目录下的资源文件
java使用GUI和MySQL数据库制作程序
用java制作计算器
java数据库查询在一段时间后挂起

相关问题更多 >

编程相关推荐

热门问题

热门文章

Pandas：通过正则表达式用散列字符串替换字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >