我有一个大数据帧,我正在使用pandas.to_csv()
发送到csv
当我看到“使用打印”时,它似乎还不错:
print(df.name[160])
--> ALEXANDRE SILVA FARINAZZO
print(df.name[161])
--> ARCHANGELA GABRIELA PRATI FAVARO
当我将其发送到csv并在Excel中打开时,我注意到熊猫在使用csv时会打断一些行:
我以为它可能是Excel的东西,但当我将它导入到Google Data Studio(不保存它或任何东西)时,我得到的正是有问题的行:
其他有问题的行遵循相同的问题模式。 有办法避免吗?为什么会这样
编辑
根据@Quang Hoang的建议,我在to_csv句子中加入了sep='\t'。问题转移了。显然,Google Data Studio不将“\t”识别为分隔符
编辑2
试图用df['column'].str.replace(",","")
去掉文件中的所有逗号,显然逗号不是问题所在。我又遇到了第一个问题:
我最终解决了它。 其实有两个问题:
问题a)在某些列中有一些隐藏的
"\n"
。必须做一个print(repr(string))
来找到它,然后str.replace('\n',"")
问题b)我注意到在上传到Google Data Studio时,某些行中的单元格字符串很长,出现了问题。不确定是什么原因造成的,但我尝试用
df['column'].loc[df['column'].str.len() > 1000] = df['column'].str[:1000]
缩短一些字符密集的列,它解决了这个问题。不太理想,因为我错过了一些数据,但工作了相关问题 更多 >
编程相关推荐