Python-将pdf转换为文本，编码

#!/usr/bin/python # -*- coding: cp949 -*- # -*- coding: utf-8 -*- # -*- coding: latin-1 -*- # -*- coding: euc-kr -*- import codecs import pyPdf filename = "d:/data/processed_data/paper/iscram/2006/iscram1.pdf" #pdf = codecs.open(filename, "rb", encoding = 'utf-8') pdf = codecs.open(filename, "rb", encoding = 'latin1') for page in pdf: print page.encode('utf-8')

import os import glob from pyPdf import PdfFileReader import pdfminer f=open("d:/data/processed_data/paper/iscram/2006/iscram1.txt",'w') parent = "d:/data/processed_data/paper/iscram/2006" os.chdir(parent) filename = os.path.abspath('iscram1.pdf') input = PdfFileReader(file(filename, "rb")) for page in input.pages: f.write(page.extractText())

1条回答

网友

1楼 · 发布于 2024-05-20 13:42:59

以前的代码根本不能工作，PDF根本不一定包含直接可读的文本。不过，使用pyPdf的后一个代码看起来更有希望。

之所以引发^{}，是因为pages in PDF（Thepage）不是字符串，但f.write希望看到字符串。

因此，您可以尝试使用文档中的extractText方法：

for page in input.pages:
    f.write(page.extractText().encode('UTF-8'))

相关问题更多 >

编程相关推荐

热门问题

热门文章