我在tensorflow
中使用NER
类序列标记,并决定尝试tf.data
,看看我的模型是否能提高IO性能。在
目前我使用TFRecordWriter
来预处理和保存我的训练/验证数据,这是一个tf.train.SequenceExample()
序列化为字符串的数据。然后我用tf.data.TFRecorddataset
加载它,对它进行parse/shuffle/padded\u批处理,然后继续进行培训,这很好。在
问题是:
dataset
不必先serializing
并将SeuquenceExamples保存到tfrecord
文件中?在tf.data.Dataset.from_tensor_slices()
,但在这种情况下似乎不适合,因为输入是不同长度的序列,尚未填充。在
在这种情况下可以使用^{} 。例如,假设您的示例看起来像以下非常简单的数据,具有两个特性(其中第二个表示序列数据):
您可以使用以下代码将其转换为
^{pr2}$tf.data.Dataset
:相关问题 更多 >
编程相关推荐