如何训练tensorflow/机器学习哪些字符串应该匹配?

2024-09-24 06:21:37 发布

您现在位置:Python中文网/ 问答频道 /正文

我有两个来自不同来源的输入名称,它们并不完全匹配,但我知道如何通过某些线索匹配它们

比如说,

NYCC REMOTE FINANCE 05212020 Fri  05 Jun 2020 03 54 19  0000

火柴

Committee on Finance__2020-05-21T00:00:00

我想使用机器学习来输入1000个匹配和非匹配字符串

然后,在训练结束后,我想传递两个字符串,并询问它们是否匹配

这里有一个到培训表的链接:https://docs.google.com/spreadsheets/d/1rXOj43WYB5hrzOKexRcVU9uj4n4eTJhpxLOZlOQ9s2k/edit?usp=sharing

我尝试使用语义搜索和TF Hub中的近似近邻和文本嵌入

https://colab.research.google.com/drive/1FWMlK8ms_3FOcR8zlAhWval3Zubs_gE-?usp=sharing

但它似乎不够具体。这只是寻找最近的邻居

我想告诉模型匹配是什么样子,然后给两个新字符串,询问它们是否匹配

比如说,

Committee on Education 05272020 Thu  28 May 2020 15 00 17  0000

不匹配

Committee on Criminal Justice__2020-03-09T00:00:00

然后问问题:是吗

NYCC Committee on Health w Others 05262020 Wed 27 May 2020 13 52 13 0000

匹配

Committee on Health__2020-05-26T00:00:00 ?

当然还有更多的新字符串

我可以在一个静态程序中这样做,但输入不在我的控制之下,他们会改变它,我想简单地采样数据,重新训练模型,让它告诉我未来的匹配情况

这个有colab笔记本吗

谢谢


Tags: 字符串https模型名称comongoogle来源