下载维基百科数据转储

wikipedia-downloader的Python项目详细描述


维基百科下载程序

wikipedia_downloader是一个python模块,可以轻松下载wikipedia数据转储。

安装

要安装wikipedia_downloader,只需运行:

pip install wikipedia_downloader

文档

功能

  • 维基百科下载程序。下载SQL转储languagefiledump=“latest”target\u dir=”.“

    下载并解压缩WikipediaSQL转储。

    参数:

    • language:维基百科名称(语言代码)。
    • file:文件名。
    • dump:转储版本。
    • 目标目录:目标目录。

    示例

    importwikipedia_downloaderaswpdwpd.download_sql_dump("en","pagelinks",dump="20190101",target_dir="./dumps")
  • 维基百科下载程序。get_dataframelanguagefiledump=“latest”select=nonewhere=none

    从维基百科SQL转储生成pandas.dataframe。

    参数:

    • language:维基百科名称(语言代码)。
    • file:文件名。
    • dump:转储版本。
    • select:要保留的列。
    • where:用于筛选记录的函数。

    返回:pandas.dataframe

    示例

    importwikipedia_downloaderaswpdselect=["page_id","page_namespace","page_title"]where={"page_namespace":lambdax:x==0orx==14}df=wpd.get_dataframe("en","page",dump="20190101",select=select,where=where)

许可证

此项目是在mit许可下授权的-有关详细信息,请参阅LICENSE.md文件。

欢迎加入QQ群-->: 979659372 Python中文网_新手群

推荐PyPI第三方库


热门话题
java如何在springmvc POST webservice中验证集合?   java将变量传递到@Optional注释   浮点Java字节到浮点   java为什么我的结果字符串在解析json数据后不打印到logcat?   多线程应用程序中的java可选调试输出是为客户机提供的,而不是为了找出死锁或bug   java Hibernate模型对象作为VO对象   java字体未应用于复选框并切换到Android Studio 3   list Java equals方法无法按预期工作   java将未知对象强制转换为特定接口可以吗?   调用后未擦除方法中的Java变量   数组求和不正确,线程“main”java中出现异常。lang.ArrayIndexOutofBounds异常:100   java超级类应该实例化并调用其子类吗?   在java apache中。平民io,如何避免读取旧的日志消息   BuffereImage如何使用apache在TIFF图像中保持透明性。平民java中的图像处理   java转换。将文件分类为二进制代码(1和0)   Java:。类搜索器   java如何使用谓词生成器返回“Todays Orders”