基于wikiprojects的自动检测wikipedia新草稿主题的库。
drafttopic的Python项目详细描述
#主题草稿
根据英文维基百科上的wikiprojects预测新草稿的主题。
##设置
确保有一个工作的python3环境。 使用以下命令安装要求:
` pip install -r requirements `
使用以下命令安装库:
` python setup.py install `
##生成机器可读的wikiprojects数据
从根目录使用以下实用程序生成机器可读的wikiprojects数据:
` ./utility fetch_wikiprojects --output <output_file_name.json> `
##生成中级类别到wikiprojects的映射
使用根目录中的以下实用程序生成高级主题类别到其中包含的WikiProject列表的映射:
` ./utility trim_wikiprojects --wikiprojects wp --output outmid `
##使用每个页面所属的wikiprojects和中级类别标记页面id列表
使用根目录中的以下实用程序,用wikiprojects和页面所属的中级类别标记页面id列表。
` ./utility fetch_page_wikiprojects --api-host=https://en.wikipedia.org/--input=wikiproject_page_ids.json--output=enwiki.labeled_wikiprojects.json--mid_level_wp=outmid.json--verbose `
在上面,脚本的输入应该是一个json,其中包含 观察,每个观察都有一个页id:<;页id>;映射。 此外,还要将脚本的中级wikiprojects json传递给 生成wikiprojects到中级类别的映射。剧本增加了 给定包含所述字段的列表,将其写入由指定的新文件 “输出”
##在Wikipedia上生成一组页ID的预测
要为一组修订id生成主题预测,请下载相关模型并使用revscoring的[score](https://github.com/wikimedia/revscoring/blob/master/revscoring/utilities/score.py)api 产生预测。请注意,修订标识需要位于api指定格式的文件中。使用页面的最新修订的修订ID可以获得良好的预测。