我正在尝试构建一个可以读取任意PDF并从中提取表的应用程序,我正在使用Camelot来提取表。对于单元格具有单行值的表来说,这很好。但是,对于具有多行值单元格的表,Camelot正在将单个单元格中的多行文本拆分为多个单元格。由于Camelot构建在pdfminer之上,因此我尝试调整布局分析参数(特别是line_margin),以使Camelot不拆分行。然而,问题仍然存在
我可以调整哪些其他参数来处理此问题?下面是有此问题的表的示例。
我不想使用“lattice”风格,因为我希望看到的大多数表都没有分界线
Tags:
如果您的PDF表格中的线条比单元格更亮,如您的示例中所示,那么您可以使用process_background=True尝试lattice Flavor
tables = camelot.read_pdf('background_lines.pdf', process_background=True)
见https://camelot-py.readthedocs.io/en/master/user/advanced.html
相关问题 更多 >
编程相关推荐