我有两个来自不同来源的输入名称,它们并不完全匹配,但我知道如何通过某些线索匹配它们
比如说,
NYCC REMOTE FINANCE 05212020 Fri 05 Jun 2020 03 54 19 0000
火柴
Committee on Finance__2020-05-21T00:00:00
我想使用机器学习来输入1000个匹配和非匹配字符串
然后,在训练结束后,我想传递两个字符串,并询问它们是否匹配
这里有一个到培训表的链接:https://docs.google.com/spreadsheets/d/1rXOj43WYB5hrzOKexRcVU9uj4n4eTJhpxLOZlOQ9s2k/edit?usp=sharing
我尝试使用语义搜索和TF Hub中的近似近邻和文本嵌入
见https://colab.research.google.com/drive/1FWMlK8ms_3FOcR8zlAhWval3Zubs_gE-?usp=sharing
但它似乎不够具体。这只是寻找最近的邻居
我想告诉模型匹配是什么样子,然后给两个新字符串,询问它们是否匹配
比如说,
Committee on Education 05272020 Thu 28 May 2020 15 00 17 0000
不匹配
Committee on Criminal Justice__2020-03-09T00:00:00
然后问问题:是吗
NYCC Committee on Health w Others 05262020 Wed 27 May 2020 13 52 13 0000
匹配
Committee on Health__2020-05-26T00:00:00
?
当然还有更多的新字符串
我可以在一个静态程序中这样做,但输入不在我的控制之下,他们会改变它,我想简单地采样数据,重新训练模型,让它告诉我未来的匹配情况
这个有colab笔记本吗
谢谢
目前没有回答
相关问题 更多 >
编程相关推荐