import PyPDF2
from PyPDF2 import PdfFileReader, PdfFileWriter
def getText2PDF(pdfFileName,password=''):
pdf_file=open(pdfFileName,'rb')
read_pdf=PyPDF2.PdfFileReader(pdf_file)
if password !='':
read_pdf.decrypt(password)
text=[]
for i in range(0,read_pdf.getNumPages()):
text.append(read_pdf.getPage(i).extractText())
return ('\n'.join (text).replace("\n",''))
getText2PDF('0001.pdf')
您可以使用以下代码获取/读取PDF文件并将其转换为文本文件。 这将使用PDFMINER和python3.7。在
调用上述程序的主函数:
^{pr2}$当然,你可以对它进行更多的调整,也许还有更大的改进空间,但这件事肯定会奏效。在
希望这对你有帮助…快乐的编码!在
如果只需要文本,PyPDF2可以正常工作
在anaconda终端(或)cmd提示符上安装PyPDF2包https://pypi.org/project/PyPDF2/
pip install PyPDF2
您可以使用以下代码获取/读取PDF文件并将其转换为文本文件
今天从使用NLTK的源文本处理中找到了解决方案。在
对我很有用
相关问题 更多 >
编程相关推荐