从文本fi中删除解释为EOF的非科学字符

2024-09-30 18:18:08 发布

男 | 程序猿一只，喜欢编程写python代码。

有大约三分之二的ASCII-R文件被解释为非-2.85亿个字符，数据表)作为EOF字节。看起来这些字符最初是作为度数符号输入的，但在文本编辑器中显示为框（see example here）。当我尝试使用这些方法读入文本文件时，它只会在遇到第一个字符时停止，没有错误消息，就好像它完成了一样。在

现在我可以在文本编辑器中打开文件来删除这些字符。但考虑到这个数据集的大小，这并不是一个长期的解决方案；我需要能够在不打开整个文件的情况下删除或绕过它们。我尝试过在R中使用quote选项，并尝试在awk导入期间替换所有非ASCII和'CTRL-M'字符，但是读取过程总是在第一个字符处停止。有什么解决办法吗？我现在使用的是R和awk，但对其他选项（python？）持开放态度。谢谢！在

Tags：文件 in read 字节选项 ascii table 字符

1条回答

网友

1楼 · 发布于 2024-09-30 18:18:08

gawk -v BINMODE=3 '{gsub(/[[:cntrl:]]/,"")}1

会把它们移除。

从文本fi中删除解释为EOF的非科学字符

相关问题更多 >

编程相关推荐

热门问题

热门文章

从文本fi中删除解释为EOF的非科学字符

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >