用python搜索机会的40多个网站

2024-06-25 05:53:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试为一家公司在40多个网站上自动搜索机会(投标)。商机通常以表格形式显示。他们有一个标题、发布日期和一个可点击的链接,可以将您带到机会的详细描述。 一个网站的例子是: http://www.eib.org/en/about/procurement/index.htm

目标是检索每天发布的符合特定标准的新机会。因此,我需要查看opportunities标题中的特定关键字。这些关键字是该公司以前有经验的领域和地区

我的问题是:在我以数据框架格式提取这些带有投标者标题的表格之后,我如何搜索正确的机会,并根据相关性对它们进行排序(给出一个关键字列表)?我是否在本例中使用NLP并将标题中的单词转换为二进制代码(0和1)?或者还有其他更简单的方法吗

提前谢谢


Tags: http标题网站链接www公司关键字形式
1条回答
网友
1楼 · 发布于 2024-06-25 05:53:50

要按相关性对标书进行排序,需要定义相关性。 在这种情况下,您可以计算您的关键字在投标中出现的次数,这将是您的相关性得分。然后,您只能保留至少有一个关键字出现的关键字。 这是第一次尝试,您可以通过添加关键字来改进这一点,或者如果关键字在标题中而不是在详细描述中,则可以分配更高的分数

您可能试图解决的任务是信息检索:根据文档(投标书)与查询(您的关键字)的相关性对其进行排序。 因此,你可以使用Tf Idf或BM25等称重方案。。。但这取决于你的需要,也许数一数关键词就足够了

相关问题 更多 >