比较两列不同的cs时出错

2024-09-29 19:24:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我写了一个函数来比较两个不同数据帧中的两列(同名),如果我的删除停止了,我可以重新开始,只使用没有删除的url

def diff(list1, list2):
    return list(set(list1).symmetric_difference(set(list2)))


if os.path.isfile("dataset\\infos.csv"):
    # instructions
    tableauInfos = pd.read_csv('dataset\\infos.csv', encoding="utf-8", sep=',', names=colonnes, dtype="unicode")
    tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
    colonnes1 = tableauInfos['lien']
    colonnes2 = tableauLiens['lien']
    listeLiens = diff(colonnes1, colonnes2)
else:
    # instructions
    tableauInfos = DataFrame(columns = colonnes)
    tableauInfos.to_csv('dataset\\infos.csv', index=False)
    tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
    listeLiens = tableauLiens['lien']

我首先验证文件是否存在,如果存在,我检索两列并应用diff函数。一切正常,但很多时候,在报废过程中,代码会因以下错误而停止:

TypeError: can only concatenate str (not "float") to str

当最后(当大量URL被废弃时),我打印Listens的内容时,我有:

[nan, 'lien']

我不明白为什么这个'nan'和为什么它还显示列“lien”的名称


Tags: csv函数readunicodediffdatasetseputf

热门问题