2024-07-08 10:31:15 发布
网友
官方的tensorflow教程建议解析csv文件,方法是使用tf.TextLineReader逐行读取文件,然后使用tf.decode_csv(source)。但是,这对于包含带有换行符的字符串的csv记录不起作用,因为这会导致读取器拆分单个csv记录。在
tf.TextLineReader
tf.decode_csv
解析这些类型文件的最佳方法是什么?在
在tf.decode_csv需要RFC 4180格式的CSV文件,根据RFC4180,换行符(CRLF)确实应该用来分隔记录。在
TensorFlow 1.8版引入了API tf.contrib.data.make_csv_dataset将CSV文件读入数据集。 我不知道它是否能解决你的问题,但值得一试。在
如果正确引用了这些字符串,pandas.read_csv()可以正确解析这些CSV文件:
CSV:
a,b,c 1,"text which includes line breaks",100 2,another line,200 3,yet another line,300
结果:
In [21]: df Out[21]: a b c 0 1 text which includes\r\nline\r\nbreaks 100 1 2 another line 200 2 3 yet another line 300
在tf.decode_csv需要RFC 4180格式的CSV文件,根据RFC4180,换行符(CRLF)确实应该用来分隔记录。在
TensorFlow 1.8版引入了API tf.contrib.data.make_csv_dataset将CSV文件读入数据集。 我不知道它是否能解决你的问题,但值得一试。在
如果正确引用了这些字符串,pandas.read_csv()可以正确解析这些CSV文件:
CSV:
^{pr2}$
结果:
相关问题 更多 >
编程相关推荐