2024-05-19 05:06:13 发布
网友
我试图用python(.pdf.doc.docx)从不同类型的文件中提取信息并转换为.txt,但在处理不同的文件时,我会在不需要时获得空间和换行符,以及许多其他问题。我试过PyPDF2和PDF经理,拜托建议我一些可以从文件中提取信息的东西。在
编辑
目前正在寻找一些东西,可以帮助我提取准确的文本从.pdf文件。我试过PyPDF、PDFMiner和PDF Manager,但我发现它们中的一些PDF都有问题。在
我个人认为pdfminer是从pdf中提取信息的最好的python模块Get it here
pdfminer
我想你可以参考this link 对应的文件格式。在
我个人认为
pdfminer
是从pdf中提取信息的最好的python模块Get it here我想你可以参考this link 对应的文件格式。在
相关问题 更多 >
编程相关推荐