我已经编写了使用pyspark验证电子邮件地址的代码,但是得到的电子邮件地址无效
输入电子邮件地址
alcaraz@lcc@uma.es
获得输出
lcc@ums.es
预期产出
"invalid email address"
代码已尝试
df1 = df.withColumn(df.columns[0], regexp_replace(lower(df.columns[0]), "^a-zA-Z0-9@\._\-| ", ""))
extract_expr = expr(
"regexp_extract_all(emails, '(\\\w+([\\\.-]?\\\w+)*@\\[A-Za-z\-\.]+([\\\.-]?\\\w+)*(\\\.\\\w{2,3})+)', 0)")
df2 = df1.withColumn(df.columns[0], extract_expr) \
.select(df.columns[0])
有许多“解决方案”可用于确定可确保符合RFC5322的RE。这是我用的那个。它可能与100%的情况不匹配
相关问题 更多 >
编程相关推荐