使用Python从Latex导出的PDF部分提取文本

2024-06-01 20:52:25 发布

您现在位置:Python中文网/ 问答频道 /正文

我有用乳胶写的科学研究论文的PDF。 每一篇研究论文都有“导论”、“相关工作”等部分,我想分别摘录每一部分下的文本。在

Sample Image of a PDF with sections such as "Abstract" and "Introduction"

此PDF在第1页有“摘要”和“简介”部分。 对于“抽象”部分,我想检索斜体文本。对于“导言”,我想把这些段落都放在它的章节里。在

如果我有Latex源文件,我就可以进行一些数据挖掘,并基于\section{}关键字提取文本

因此,我在Python3中尝试了一些方法,比如将pdf转换为latex[link],但是建议的软件要么与我的系统(ubuntu16.04)不兼容,要么是付费软件。我尝试使用textract,但它没有从pdf中提取节的选项。在

有人知道如何从用乳胶制作的PDF中提取部分吗?在


Tags: 文本数据挖掘软件pdfsectionlatex乳胶段落
1条回答
网友
1楼 · 发布于 2024-06-01 20:52:25

我不知道如何使用R来实现这一点,但是如果你把所有的PDF文件放在一个文件夹中,遍历它们并将它们转换成一堆Word文档,那么就可以很容易地使用VBA来完成这项任务。在

Sub SelectBetweenHeadings()
    With Selection
        .GoTo What:=wdGoToHeading, Which:=wdGoToPrevious
        .Collapse
        Dim curRange As Range
        Set curRange = .Range
        .Extend
        .GoTo What:=wdGoToHeading, Which:=wdGoToNext
        If .Range = curRange Then
            .EndKey Unit:=wdStory
        End If
        .ExtendMode = False
    End With
End Sub

或者,为了更精确,试试这个。在

^{pr2}$

相关问题 更多 >