Pandas破坏行并阻止Google Data Studio正确读取文件

2024-05-18 11:41:52 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个大数据帧,我正在使用pandas.to_csv()发送到csv 当我看到“使用打印”时,它似乎还不错:

print(df.name[160])
--> ALEXANDRE SILVA FARINAZZO

print(df.name[161])
--> ARCHANGELA GABRIELA PRATI FAVARO

当我将其发送到csv并在Excel中打开时,我注意到熊猫在使用csv时会打断一些行:

enter image description here

我以为它可能是Excel的东西,但当我将它导入到Google Data Studio(不保存它或任何东西)时,我得到的正是有问题的行:

enter image description here

其他有问题的行遵循相同的问题模式。 有办法避免吗?为什么会这样

编辑

根据@Quang Hoang的建议,我在to_csv句子中加入了sep='\t'。问题转移了。显然,Google Data Studio不将“\t”识别为分隔符

enter image description here

编辑2

试图用df['column'].str.replace(",","")去掉文件中的所有逗号,显然逗号不是问题所在。我又遇到了第一个问题:

enter image description here


Tags: csvto数据name编辑pandasdfdata
1条回答
网友
1楼 · 发布于 2024-05-18 11:41:52

我最终解决了它。 其实有两个问题:

问题a)在某些列中有一些隐藏的"\n"。必须做一个print(repr(string))来找到它,然后str.replace('\n',"")

问题b)我注意到在上传到Google Data Studio时,某些行中的单元格字符串很长,出现了问题。不确定是什么原因造成的,但我尝试用df['column'].loc[df['column'].str.len() > 1000] = df['column'].str[:1000]缩短一些字符密集的列,它解决了这个问题。不太理想,因为我错过了一些数据,但工作了

相关问题 更多 >