从文本fi中删除解释为EOF的非科学字符

2024-09-30 18:18:08 发布

您现在位置:Python中文网/ 问答频道 /正文

下面是我之前的问题:Row limit in read.table.ffdf?

有大约三分之二的ASCII-R文件被解释为非-2.85亿个字符,数据表)作为EOF字节。看起来这些字符最初是作为度数符号输入的,但在文本编辑器中显示为框(see example here)。当我尝试使用这些方法读入文本文件时,它只会在遇到第一个字符时停止,没有错误消息,就好像它完成了一样。在

现在我可以在文本编辑器中打开文件来删除这些字符。但考虑到这个数据集的大小,这并不是一个长期的解决方案;我需要能够在不打开整个文件的情况下删除或绕过它们。我尝试过在R中使用quote选项,并尝试在awk导入期间替换所有非ASCII和'CTRL-M'字符,但是读取过程总是在第一个字符处停止。有什么解决办法吗?我现在使用的是R和awk,但对其他选项(python?)持开放态度。谢谢!在


Tags: 文件inread字节选项asciitable字符