使用Python从Latex导出的PDF部分提取文本 - 问答 - Python中文网

使用Python从Latex导出的PDF部分提取文本

2024-06-01 20:52:25 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我有用乳胶写的科学研究论文的PDF。每一篇研究论文都有“导论”、“相关工作”等部分，我想分别摘录每一部分下的文本。在

此PDF在第1页有“摘要”和“简介”部分。对于“抽象”部分，我想检索斜体文本。对于“导言”，我想把这些段落都放在它的章节里。在

如果我有Latex源文件，我就可以进行一些数据挖掘，并基于\section{}关键字提取文本

因此，我在Python3中尝试了一些方法，比如将pdf转换为latex[link]，但是建议的软件要么与我的系统（ubuntu16.04）不兼容，要么是付费软件。我尝试使用textract，但它没有从pdf中提取节的选项。在

有人知道如何从用乳胶制作的PDF中提取部分吗？在

Tags：文本数据挖掘软件 pdf section latex 乳胶段落

1条回答

网友

1楼 · 发布于 2024-06-01 20:52:25

我不知道如何使用R来实现这一点，但是如果你把所有的PDF文件放在一个文件夹中，遍历它们并将它们转换成一堆Word文档，那么就可以很容易地使用VBA来完成这项任务。在

Sub SelectBetweenHeadings()
    With Selection
        .GoTo What:=wdGoToHeading, Which:=wdGoToPrevious
        .Collapse
        Dim curRange As Range
        Set curRange = .Range
        .Extend
        .GoTo What:=wdGoToHeading, Which:=wdGoToNext
        If .Range = curRange Then
            .EndKey Unit:=wdStory
        End If
        .ExtendMode = False
    End With
End Sub

或者，为了更精确，试试这个。在

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章