如何从tensorflow的csv文件中用新行解析字符串?

2024-07-08 10:31:15 发布

您现在位置:Python中文网/ 问答频道 /正文

官方的tensorflow教程建议解析csv文件,方法是使用tf.TextLineReader逐行读取文件,然后使用tf.decode_csvsource)。但是,这对于包含带有换行符的字符串的csv记录不起作用,因为这会导致读取器拆分单个csv记录。在

解析这些类型文件的最佳方法是什么?在


Tags: 文件csv方法字符串类型source官方tf
2条回答

在tf.decode_csv需要RFC 4180格式的CSV文件,根据RFC4180,换行符(CRLF)确实应该用来分隔记录。在

TensorFlow 1.8版引入了API tf.contrib.data.make_csv_dataset将CSV文件读入数据集。 我不知道它是否能解决你的问题,但值得一试。在

如果正确引用了这些字符串,pandas.read_csv()可以正确解析这些CSV文件:

CSV:

a,b,c
1,"text which includes
line
breaks",100
2,another line,200
3,yet another line,300

^{pr2}$

结果:

In [21]: df
Out[21]:
   a                                      b    c
0  1  text which includes\r\nline\r\nbreaks  100
1  2                           another line  200
2  3                       yet another line  300

相关问题 更多 >

    热门问题