如何训练tensorflow/机器学习哪些字符串应该匹配？

2024-09-24 06:21:37 发布

男 | 程序猿一只，喜欢编程写python代码。

我有两个来自不同来源的输入名称，它们并不完全匹配，但我知道如何通过某些线索匹配它们

比如说,

NYCC REMOTE FINANCE 05212020 Fri  05 Jun 2020 03 54 19  0000

火柴

Committee on Finance__2020-05-21T00:00:00

我想使用机器学习来输入1000个匹配和非匹配字符串

然后，在训练结束后，我想传递两个字符串，并询问它们是否匹配

我尝试使用语义搜索和TF Hub中的近似近邻和文本嵌入

但它似乎不够具体。这只是寻找最近的邻居

我想告诉模型匹配是什么样子，然后给两个新字符串，询问它们是否匹配

比如说,

Committee on Education 05272020 Thu  28 May 2020 15 00 17  0000

不匹配

Committee on Criminal Justice__2020-03-09T00:00:00

然后问问题：是吗

NYCC Committee on Health w Others 05262020 Wed 27 May 2020 13 52 13 0000

匹配

Committee on Health__2020-05-26T00:00:00 ?

当然还有更多的新字符串

我可以在一个静态程序中这样做，但输入不在我的控制之下，他们会改变它，我想简单地采样数据，重新训练模型，让它告诉我未来的匹配情况

这个有colab笔记本吗

谢谢

Tags：字符串 https 模型名称 com on google 来源

0条回答

目前没有回答