数据集直接来自tf.train.SequenceExamp

2024-09-27 09:36:18 发布

您现在位置:Python中文网/ 问答频道 /正文

我在tensorflow中使用NER类序列标记,并决定尝试tf.data,看看我的模型是否能提高IO性能。在

目前我使用TFRecordWriter来预处理和保存我的训练/验证数据,这是一个tf.train.SequenceExample()序列化为字符串的数据。然后我用tf.data.TFRecorddataset加载它,对它进行parse/shuffle/padded\u批处理,然后继续进行培训,这很好。在

问题是

  • 有没有一种方便的方法可以使dataset不必先serializing并将SeuquenceExamples保存到tfrecord文件中?在
  • 当我对新数据进行预测时,这似乎是不必要的一步。我尝试过使用tf.data.Dataset.from_tensor_slices(),但在这种情况下似乎不适合,因为输入是不同长度的序列,尚未填充。在

Tags: 数据字符串标记io模型data序列化tf
1条回答
网友
1楼 · 发布于 2024-09-27 09:36:18

在这种情况下可以使用^{}。例如,假设您的示例看起来像以下非常简单的数据,具有两个特性(其中第二个表示序列数据):

examples = [("foo", [1, 2, 3, 4, 5]),
            ("bar", [6, 7]),
            ("baz", [8, 9, 10])]

您可以使用以下代码将其转换为tf.data.Dataset

^{pr2}$

相关问题 更多 >

    热门问题