下载维基百科数据转储
wikipedia-downloader的Python项目详细描述
维基百科下载程序
wikipedia_downloader是一个python模块,可以轻松下载wikipedia数据转储。
安装
要安装wikipedia_downloader,只需运行:
pip install wikipedia_downloader
文档
功能
维基百科下载程序。下载SQL转储(language,file,dump=“latest”,target\u dir=”.“)
下载并解压缩WikipediaSQL转储。
参数:
- language:维基百科名称(语言代码)。
- file:文件名。
- dump:转储版本。
- 目标目录:目标目录。
示例
importwikipedia_downloaderaswpdwpd.download_sql_dump("en","pagelinks",dump="20190101",target_dir="./dumps")
维基百科下载程序。get_dataframe(language,file,dump=“latest”,select=none,where=none)
从维基百科SQL转储生成pandas.dataframe。
参数:
- language:维基百科名称(语言代码)。
- file:文件名。
- dump:转储版本。
- select:要保留的列。
- where:用于筛选记录的函数。
返回:pandas.dataframe
示例
importwikipedia_downloaderaswpdselect=["page_id","page_namespace","page_title"]where={"page_namespace":lambdax:x==0orx==14}df=wpd.get_dataframe("en","page",dump="20190101",select=select,where=where)
许可证
此项目是在mit许可下授权的-有关详细信息,请参阅LICENSE.md文件。