使用KEA或其他python库提取关键字

2024-09-27 22:20:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我现在为一个关键字提取项目工作。基本上,我使用python来实现这一点。 让我先谈谈我的项目是什么。 我在这个项目中的目标是从一段或一个网页中找出关键词(关键短语不太可取)。在

我假设我可以从一个网站抓取一个相当好的内容结构。在

假设我有很多段落,所有段落都来自同一个行业。下面是一个示例段落:

About us

We are the greatest bank in the world, which provide the most safe service in the world. Our bank is providing FX, security trading and saving services. Over the past few years, we successfully build up a reliable reputation.

其次,我将这些段落中的关键词标注在其他段落中,建立了一个有监督的学习模型。在

最后,我尝试使用KEA,这是一个JAVA程序(我使用python来调用JAVA程序)来建立一个模型。在

然而,结果却糟透了。准确率只有15%左右。这意味着,如果我给我的KEA程序一个段落,KEA将输出10个关键字给我,而且几乎85%的关键字实际上不是一个理想的关键字。在

这里我有几个问题:

  1. 这个问题是关于KEA的准备材料。培训数据的.txt文件中是否应该包含关键字?或者我应该把它从段落中删除?因为这是关于KEA自述文件中的困惑:

'从这些文档中删除作者指定的关键短语 把它们放在单独的“.key”文件中。例如,如果 您的文档文件名为doc1.txt,请移动关键短语 到一个名为“doc1.key”的新文件中。重要的是 你把每个关键字放在这个文件的一行在

所以假设我有最后一个示例段落作为我的培训数据,并假设“安全”和“可靠”。我应该把这两个字从这段删去吗??在

  1. 由于KEA可以应用SKOS词汇表,这是否意味着如果我在某一类主题(比如金融行业)中使用适当的SKOS词汇表,我的模型结果会更好吗?如果是,我在哪里可以找到这些SKOS词汇表,例如,我想要关于金融行业的SKOS词汇表。

  2. 在这个主题中,python中是否有强大的建议库?有人能和我分享吗?

非常感谢。在


Tags: 文件the词汇表项目模型程序示例关键字
1条回答
网友
1楼 · 发布于 2024-09-27 22:20:55

实际上,我试图用这个(https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words)kaggle示例来实现这一点。然而,这太简单了。在

不知怎么的,我想知道更多的练习案例。比如netfix或facebook如何检测人们的评论。有没有人会给我更多关于这个文本挖掘信息的信息?在

相关问题 更多 >

    热门问题