如何用表格py将PDF转换成CSV？

1条回答

网友

1楼 · 发布于 2024-09-19 20:42:09

好的，我发现了问题：您必须设置spreadsheet=True，并保持utf-8编码：

df = tabula.read_pdf("Ativos_Fevereiro_2018_servidores_rj.pdf", encoding='utf-8', spreadsheet=True, pages='1-6041')

在下面的图片中，我用第一页测试了它（因为你的文件很大）：

之后您可以将数据帧保存为csv：

df.to_csv('otuput.csv', encoding='utf-8')

编辑：

好的，错误可能是java内存问题。为了加快速度，我添加了pages选项。还有一个编码问题，所以encoding='utf-8'添加到csv导出中。如果继续遇到java错误，请尝试将其分块解析，例如pages='1-300'。我刚刚完成了所有6041（在一台64GB内存的机器上），它工作得很好。

编程相关推荐

java为什么这个循环打印1020之间的所有值？我想让它打印出可以被5整除的值
java如何在JTable中集中单元格
java无法通过一个键从hashmap获取对象，该键具有相同的hashcode，并且两个键等于（）
不兼容的类型？JAVA
将字符串开头与空格匹配时java replaceAll的正则表达式混淆结果
java为非java应用程序创建jar文件。类文件
java无法从另一个普通Http Servlet访问筛选器Servlet的会话属性
java Ejb，第二个方法中的错误回滚第一个方法
swing java操作侦听器在菜单上，而不是在菜单项上
分析文件时出错：分析文件时出错：无法在Java的XSSF中分析excel文件

编辑：

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用表格py将PDF转换成CSV？

编辑：

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >