World Guess是一个在文档中识别主题国家的包
worldguess的Python项目详细描述
世界猜测
摘要
这个python包根据地名频率猜测主题文本、名称或列表的国家。 它适用于任何语言/字母。在
警告
最初,这个库是用来与一个NER程序(如Spacy)提取的位置列表一起使用。在
我强烈建议这样使用它。
它也可以用在文本上,但精度不是很好,因为一种语言中的某些单词对应于另一种语言中的某个位置。在
这也是一项正在进行的工作。我在一个旧的实习期间做了这个库的一个版本,以便根据国家快速识别和分类文档,并且认为这是一个很酷的共享工具,所以最近我在家里从头开始重新制作了它(得到了我的老老板的许可)。在
例如,识别新闻文章的来源国并自动标记国家是一种简单的方法。在
使用
,包含列表:
wg=WorldGuesser()text=["London","Manchester","UK","BRISTOL","Scotland","Berlin"]result=wg.from_list(text)self.assertEqual(result[0],"United Kingdom")
,名称:
^{pr2}$如果找不到国家,列表中的第一个结果将是“未知”
数据源
日期源来自GeoNames数据库:https://www.geonames.org/
- 项目
标签: