用于提取学术交流参考文献的小型图书馆。
refextract的Python项目详细描述
关于
一个小型图书馆,用于提取学术交流中使用的参考文献。
安装
$ pip install refextract
用法
从出版物参考中获取结构化信息:
>>>fromrefextractimportextract_journal_reference>>>reference=extract_journal_reference('J.Phys.,A39,13445')>>>print(reference){'extra_ibids':[],'is_ibid':False,'misc_txt':u'','page':u'13445','title':u'J. Phys.','type':'JOURNAL','volume':u'A39','year':'',}
从pdf中提取引用:
>>>fromrefextractimportextract_references_from_file>>>references=extract_references_from_file('1503.07589.pdf')>>>print(references[0]){'author':[u'F. Englert and R. Brout'],'doi':[u'doi:10.1103/PhysRevLett.13.321'],'journal_page':[u'321'],'journal_reference':[u'Phys. Rev. Lett. 13 (1964) 321'],'journal_title':[u'Phys. Rev. Lett.'],'journal_volume':[u'13'],'journal_year':[u'1964'],'linemarker':[u'1'],'raw_ref':[u'[1] F. Englert and R. Brout, \u201cBroken symmetry and the mass of gauge vector mesons\u201d, Phys. Rev. Lett. 13 (1964) 321, doi:10.1103/PhysRevLett.13.321.'],'texkey':[u'Englert:1964et'],'year':[u'1964'],}
直接从url提取:
>>>fromrefextractimportextract_references_from_url>>>references=extract_references_from_url('https://arxiv.org/pdf/1503.07589.pdf')>>>print(references[0]){'author':[u'F. Englert and R. Brout'],'doi':[u'doi:10.1103/PhysRevLett.13.321'],'journal_page':[u'321'],'journal_reference':[u'Phys. Rev. Lett. 13 (1964) 321'],'journal_title':[u'Phys. Rev. Lett.'],'journal_volume':[u'13'],'journal_year':[u'1964'],'linemarker':[u'1'],'raw_ref':[u'[1] F. Englert and R. Brout, \u201cBroken symmetry and the mass of gauge vector mesons\u201d, Phys. Rev. Lett. 13 (1964) 321, doi:10.1103/PhysRevLett.13.321.'],'texkey':[u'Englert:1964et'],'year':[u'1964'],}
注释
refextract依赖于pdftotext。
致谢
refextract基于以下人员的代码和想法,他们 为invenio中的docextract模块贡献:
- 亚历西奥·迪安娜
- 费德里科·波利
- 格瑞特·林德曼
- 格雷厄姆R.阿姆斯特朗
- 格尔泽戈尔兹斯普拉
- Jan Aage Lavik
- 哈维尔·马丁·蒙图尔
- 米查·莫斯科维奇
- 萨缪尔·卡普伦
- 托尔斯滕施瓦德
- 蒂博尔辛科
许可证
gplv2