spaCy公司使用什么工具从股票代码中识别公司名称?

2024-09-27 21:28:17 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试对金融新闻进行情绪分析,我希望能够根据股票代码识别公司。从SPOT识别Spotify。最终目标是生成每个公司的情绪模型。 公司在股票市场上的识别度很好,但在股票市场上,公司股票的识别度很低。我有一份csv格式的股票代码和公司名称列表(来自纳斯达克、纽约证券交易所、美国证券交易所)。在

基于在spaCy中使用similarity()函数,到目前为止效果并不理想。下表显示了一些相似性得分较低的公司的样本,尽管这些公司的名称在视觉上是相似的。我想用公司名称/股票代码列表来训练模型,并且在这个训练过程之后有一个更高的相似度分数。在

+------------+-------------------------+------------+
|   Stock    |          Name           | Similarity |
+------------+-------------------------+------------+
| CSPI stock | CSP Inc.                | 0.072      |
| CHGG stock | Chegg, Inc.             | 0.071      |
| QADA stock | QAD Inc.                | 0.065      |
| SPOT stock | Spotify Technology S.A. | 0.064      |
+------------+-------------------------+------------+

基于spaCy的文档,一些工具包括使用PhraseMatcherEntityRulerRule-based matching,令牌匹配器。哪个最适合这个用例?在


Tags: 模型名称列表spacystock公司新闻金融
2条回答

我建议您尝试使用fuzzyfuzzy库。它非常容易使用,而且我认为它在您的情况下可以做得很好。很好的例子可以在这里找到:https://towardsdatascience.com/natural-language-processing-for-fuzzy-string-matching-with-python-6632b7824c49

您可以训练sense2vec模型,然后将其与spaCy结合使用。他们携手共进。 https://github.com/explosion/sense2vec

sense2vec将帮助您识别SPOT在上下文中与Spotify相似。在

相关问题 更多 >

    热门问题