对我来说,这就是python的第一天。我曾经用VBA、Java和Swift编写过代码,但我在遵循在线指南编写pdf scraper时遇到了特别困难。因为我不知道我在做什么,所以每次我想测试我在网上找到的一些代码时,我总是碰到一堵墙。在
基本信息
目标
用python创建一些东西,允许我将pdf从文件夹转换成excel文件(理想情况下)或文本文件(我将使用VBA从中进行转换)。在
问题
每次我尝试从网上找到的指南中的一些示例代码时,我总是在调用要测试代码的pdf的行中遇到语法错误。下面是一些指南链接和错误示例。我应该把我的测试.pdf放在与.py文件相同的文件中?在
runfile('C:/Users/U587208/Desktop/pdffolder/pdfminer.py', wdir='C:/Users/U587208/Desktop/pdffolder')
File "C:/Users/U587208/Desktop/pdffolder/pdfminer.py", line 79
print pdf_to_csv('test.pdf', separator, threshold)
^
SyntaxError: invalid syntax
我正试着做同样的事情!我已经能够将我的pdf转换成文本,但是格式是非常随机和混乱的,我需要表格保持机智,以便能够将它们写入excel数据表。我现在正试图转换成XML,看看它是否更容易从中提取。如果我有任何进展,我会让你知道:)
顺便说一句,如果要使用pdfminer,请使用python2。这里有一些关于pdfminerhttps://media.readthedocs.org/pdf/pdfminer-docs/latest/pdfminer-docs.pdf的帮助
这里 Pdfminer python 3.5一个例子,如何从PDF中提取信息。 但它不能解决要导出到Excel的表的问题。商业产品在这方面可能更好。。。在
下面的教程似乎使用了python2。通常很少有明显的区别,最大的区别是在Python3中,打印变成了一种功能,所以
我会建议您更改python的版本或查找python3的教程。希望这有帮助
相关问题 更多 >
编程相关推荐