将wikidata转储分解为更小的知识图

wikidatasets的Python项目详细描述


维基数据集

https://img.shields.io/pypi/v/wikidatasets.svghttps://img.shields.io/travis/armand33/wikidatasets.svgDocumentation StatusUpdates

将wikidata转储分解为更小的知识图(例如人类实体图)。

数据集

数据集在此page上可用。

功能

这是一个非详尽的有用函数列表:

  • wikidatasets.processFunction.get_subclasses:获取作为主题子类的实体的wikidata id列表。
  • wikidatasets.processFunction.query_wikidata_dump:通过wikidata转储。它既可以收集作为测试实体实例的实体,也可以收集标签字典。它也可以两者兼得。
  • wikidatasets.processFunction.build_dataset:从查询wikidata转储生成的pickle文件生成数据集。
  • wikidatasets.utils.load_data_labels:将边和属性文件加载到pandas数据帧中,并合并要获取的实体和关系的标签。

示例/文件夹包含创建数据集(例如build_humans.py)的脚本示例。 这样的脚本应该放在主目录(连同utils.pyprocessFunctions.py)中,并且应该调整硬编码路径以匹配您的安装。

引文

如果您发现此代码对您的研究有用,请考虑引用我们的paper

@misc{arm2019wikidatasets,
    title={WikiDataSets : Standardized sub-graphs from WikiData},
    author={Armand Boschin},
    year={2019},
    eprint={1906.04536},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

学分

这个包是用Cookiecutteraudreyr/cookiecutter-pypackage项目模板创建的。

历史记录

0.2.0(2019-07-02)

  • 将nodes.txt的导出添加到build_dataset函数。

0.1.0(2019-07-01)

  • pypi上的第一个版本。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
在java代码中实现两个侦听器时发生swing错误   Lambda是否完全取消了Java8中匿名内部类的使用?   swing OpenSuse 12.3+Java双显示   POM中的java错误。xml文件,即使在清理{users}/之后。m2/用于*上次更新文件的存储库   JavaEDT特定的方法和其他东西   java如何使用GridLayout设置组件大小?有更好的办法吗?   java在itext7中生成二维码时,如何调整点的大小?   java如何在多行上显示文本并右对齐?   java在WebSphereCluString环境中分离Log4j日志   JAVA从文件读取,返回BigInteger值   当使用rxjava2进行排列时,使用javamockito。重试()   在java fasterxml中创建Xml   使用64位整数进行模运算的64位整数的java快速乘法,无溢出   java静态变量保留以前发布的值   datastax enterprise SSTable loader流式处理无法提供java。木卫一。IOException:对等方重置连接   java匹配的通配符是严格的,但找不到元素“mvc:annotationdriven”的声明。标准包装。可抛出   java无法在浏览器上下载文件文档?