如何在Refextract上同时运行多个文件

2024-10-16 17:16:56 发布

您现在位置:Python中文网/ 问答频道 /正文

我是python的新手,需要从科学文献中提取参考资料。下面是我正在使用的代码

from refextract import extract_references_from_file

import pandas as pd

references = extract_references_from_file('1503.07589.pdf')

dfref = pd.DataFrame(references)

dfref.to_excel('./refs.xlsx')

使用此命令一次只能从单个文件中提取引用,但我需要同时从多个文件中提取引用。所以,请指导我是否可能以及如何做到这一点。非常感谢你


Tags: 文件代码fromimportpandasextract科学文献
1条回答
网友
1楼 · 发布于 2024-10-16 17:16:56

docs声明提取的引用作为dict返回

Returns a dictionary with extracted references and stats.

这不太准确,; 返回dictlist, 每个参考文献一本字典

因此,您只需建立一个较长的列表

from refextract import extract_references_from_file

higgs_papers = ['1503.07589', '2008.05492']
references = []
for paper in higgs_papers:
    references.extend(extract_references_from_file(f'/tmp/{paper}.pdf'))

现在你有了一个更大的列表,references,你可以把它变成一个更大的df


您可能还发现glob很方便:

import glob

files = glob.glob('/tmp/*.pdf')

相关问题 更多 >