将wikidata转储分解为更小的知识图
wikidatasets的Python项目详细描述
维基数据集
将wikidata转储分解为更小的知识图(例如人类实体图)。
- 免费软件:BSD许可证
- 文档:https://wikidatasets.readthedocs.io。
- 纸张:https://arxiv.org/abs/1906.04536
数据集
数据集在此page上可用。
功能
这是一个非详尽的有用函数列表:
- wikidatasets.processFunction.get_subclasses:获取作为主题子类的实体的wikidata id列表。
- wikidatasets.processFunction.query_wikidata_dump:通过wikidata转储。它既可以收集作为测试实体实例的实体,也可以收集标签字典。它也可以两者兼得。
- wikidatasets.processFunction.build_dataset:从查询wikidata转储生成的pickle文件生成数据集。
- wikidatasets.utils.load_data_labels:将边和属性文件加载到pandas数据帧中,并合并要获取的实体和关系的标签。
示例/文件夹包含创建数据集(例如build_humans.py)的脚本示例。 这样的脚本应该放在主目录(连同utils.py,processFunctions.py)中,并且应该调整硬编码路径以匹配您的安装。
引文
如果您发现此代码对您的研究有用,请考虑引用我们的paper:
@misc{arm2019wikidatasets, title={WikiDataSets : Standardized sub-graphs from WikiData}, author={Armand Boschin}, year={2019}, eprint={1906.04536}, archivePrefix={arXiv}, primaryClass={cs.LG} }
学分
这个包是用Cookiecutter和audreyr/cookiecutter-pypackage项目模板创建的。
历史记录
0.2.0(2019-07-02)
- 将nodes.txt的导出添加到build_dataset函数。
0.1.0(2019-07-01)
- pypi上的第一个版本。