NLTK、Ngrams和concordanceMultiple words

2024-10-03 21:28:28 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在研究一些报纸档案,一些与银行有关的报道。我的问题是,像美银美林、摩根士丹利和摩根大通这样的名字在不同的国家被报道得不一样:BankAM,BofA,BAML,或者MS,JPM,J.P.Morgan,JP。摩根。我正在使用regexp标记器进行预处理。如何建立某种等价/查找表?花旗集团与花旗银行、花旗银行、花旗集团和花旗银行是同一回事(在新闻报道中)。任何帮助都将不胜感激。 @词典把一个词映射成多个词。在这种情况下,我需要将许多变体映射到一个“专有名词”。这也意味着我需要把{bankofamericamerrilllynch}读为NNP,在适当的上下文中,将{MS}读为NNP,相当于摩根士丹利。在


Tags: 标记银行档案国家名字msjpregexp