在不创建fi的情况下将pdf转换为文本

2条回答

网友

1楼 · 编辑于 2024-05-17 08:09:41

AFAIK, you will have to at least create a temp file so that you can perform your process.

您可以使用以下代码获取/读取PDF文件并将其转换为文本文件。这将使用PDFMINER和python3.7。在

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import HTMLConverter,TextConverter,XMLConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
import io

def convert(case,fname, pages=None):
    if not pages:
        pagenums = set()
    else:
        pagenums = set(pages)
    manager = PDFResourceManager()
    codec = 'utf-8'
    caching = True
    output = io.StringIO()
    converter = TextConverter(manager, output, codec=codec, laparams=LAParams())
    interpreter = PDFPageInterpreter(manager, converter)
    infile = open(fname, 'rb')
    for page in PDFPage.get_pages(infile, pagenums, caching=caching, check_extractable=True):
        interpreter.process_page(page)

    convertedPDF = output.getvalue()
    print(convertedPDF)

    infile.close()
    converter.close()
    output.close()
    return convertedPDF

调用上述程序的主函数：

^{pr2}$

当然，你可以对它进行更多的调整，也许还有更大的改进空间，但这件事肯定会奏效。在

Just make sure instead of providing pdf folder provide a temp pdf file directly.

希望这对你有帮助…快乐的编码！在

网友

2楼 · 编辑于 2024-05-17 08:09:41

如果只需要文本，PyPDF2可以正常工作

在anaconda终端（或）cmd提示符上安装PyPDF2包https://pypi.org/project/PyPDF2/

pip install PyPDF2

您可以使用以下代码获取/读取PDF文件并将其转换为文本文件

import PyPDF2
from PyPDF2 import PdfFileReader, PdfFileWriter
def getText2PDF(pdfFileName,password=''):
    pdf_file=open(pdfFileName,'rb')
    read_pdf=PyPDF2.PdfFileReader(pdf_file)
    if password !='':
        read_pdf.decrypt(password)
    text=[]
    for i in range(0,read_pdf.getNumPages()):
        text.append(read_pdf.getPage(i).extractText())
    return ('\n'.join (text).replace("\n",''))


getText2PDF('0001.pdf')

今天从使用NLTK的源文本处理中找到了解决方案。在

对我很有用

相关问题更多 >

编程相关推荐

热门问题

热门文章

在不创建fi的情况下将pdf转换为文本

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >