如何使用Python提取PDF文档中的文本

1条回答

网友

1楼 · 发布于 2024-09-19 20:58:55

要阅读pdf文件，可以使用StringIO

from StringIO import StringIO


pdfContent = StringIO(getPDFContent("Billineg.pdf").encode("ascii", "ignore"))
for line in pdfContent:
    print line

您可以使用的其他选项pypdf

小例子

^{pr2}$

提取数据后，您可以将它们写入^{}或对于excel，您可以使用^{}

getpdf内容是方法

import pyPdf  
def getPDFContent(path):
    content = ""
    num_pages = 10
    p = file(path, "rb")
    pdf = pyPdf.PdfFileReader(p)
    for i in range(0, num_pages):
        content += pdf.getPage(i).extractText() + "\n"
    content = " ".join(content.replace(u"\xa0", " ").strip().split())     
    return content

编程相关推荐

java为什么这个循环打印1020之间的所有值？我想让它打印出可以被5整除的值
java如何在JTable中集中单元格
java无法通过一个键从hashmap获取对象，该键具有相同的hashcode，并且两个键等于（）
不兼容的类型？JAVA
将字符串开头与空格匹配时java replaceAll的正则表达式混淆结果
java为非java应用程序创建jar文件。类文件
java无法从另一个普通Http Servlet访问筛选器Servlet的会话属性
java Ejb，第二个方法中的错误回滚第一个方法
swing java操作侦听器在菜单上，而不是在菜单项上
分析文件时出错：分析文件时出错：无法在Java的XSSF中分析excel文件

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何使用Python提取PDF文档中的文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >