我有用乳胶写的科学研究论文的PDF。 每一篇研究论文都有“导论”、“相关工作”等部分,我想分别摘录每一部分下的文本。在
此PDF在第1页有“摘要”和“简介”部分。 对于“抽象”部分,我想检索斜体文本。对于“导言”,我想把这些段落都放在它的章节里。在
如果我有Latex源文件,我就可以进行一些数据挖掘,并基于\section{}关键字提取文本
因此,我在Python3中尝试了一些方法,比如将pdf转换为latex[link],但是建议的软件要么与我的系统(ubuntu16.04)不兼容,要么是付费软件。我尝试使用textract,但它没有从pdf中提取节的选项。在
有人知道如何从用乳胶制作的PDF中提取部分吗?在
我不知道如何使用R来实现这一点,但是如果你把所有的PDF文件放在一个文件夹中,遍历它们并将它们转换成一堆Word文档,那么就可以很容易地使用VBA来完成这项任务。在
或者,为了更精确,试试这个。在
^{pr2}$相关问题 更多 >
编程相关推荐