我有两个列,我想检查它们是否在4个或更多字符之间匹配,而不管数组的位置如何,如果它们匹配,则创建一个匹配的列,如果它匹配,则为OK,否则为KO。你知道吗
如何在PYTHON或sqllite中实现这一点?你知道吗
示例:
数据集
Street 1;Street 2
ASENSIO Y TOLEDO 15;AVILA 9
AVILA 9;AVILA 9
FISTERRA S/N;FINISTERRE S/N - SAN ROQUE
PASEO DEL PUER;PASEO DEL PUERTO SN
PASEO DEL PUER;PASEO DEL PUERTO SN
LA UNION 2;LA UNION 2
ALEGRIA 14;LA UNION 2
谢谢你。你知道吗
https://i.stack.imgur.com/gYLcg.png
代码:
def dataet():
df_dataset= pd.read_csv("C:/Users/Documents/DATASET2.CSV", sep=';')
print(df_dataset.columns.values)
query = """
SELECT INSTR(street 1, street 2)
FROM df_dataset
"""
result= pdsql.sqldf(query)
print(result)
在python中,可以使用
set
获取字符串中的唯一字符,然后使用&
集合从Street 1
和Street 2
获取它们的并集。我也在从匹配列表中删除空格,你不想数一数,对吧?你知道吗输出:
更新:如果要查找
Street 1
和Street 2
之间最长公共子串的长度:输出:
同时使用努比。哪里():
相关问题 更多 >
编程相关推荐