我写了一个函数来比较两个不同数据帧中的两列(同名),如果我的删除停止了,我可以重新开始,只使用没有删除的url
def diff(list1, list2):
return list(set(list1).symmetric_difference(set(list2)))
if os.path.isfile("dataset\\infos.csv"):
# instructions
tableauInfos = pd.read_csv('dataset\\infos.csv', encoding="utf-8", sep=',', names=colonnes, dtype="unicode")
tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
colonnes1 = tableauInfos['lien']
colonnes2 = tableauLiens['lien']
listeLiens = diff(colonnes1, colonnes2)
else:
# instructions
tableauInfos = DataFrame(columns = colonnes)
tableauInfos.to_csv('dataset\\infos.csv', index=False)
tableauLiens = pd.read_csv('dataset\\liensVilles.csv', encoding="utf-8", sep=',', dtype="unicode")
listeLiens = tableauLiens['lien']
我首先验证文件是否存在,如果存在,我检索两列并应用diff函数。一切正常,但很多时候,在报废过程中,代码会因以下错误而停止:
TypeError: can only concatenate str (not "float") to str
当最后(当大量URL被废弃时),我打印Listens的内容时,我有:
[nan, 'lien']
我不明白为什么这个'nan'和为什么它还显示列“lien”的名称
目前没有回答
相关问题 更多 >
编程相关推荐