如何阻止camelotpy将单个单元格中的多行文本拆分为多个单元格？ - 问答 - Python中文网

如何阻止camelotpy将单个单元格中的多行文本拆分为多个单元格？

2024-10-06 07:50:44 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我正在尝试构建一个可以读取任意PDF并从中提取表的应用程序，我正在使用Camelot来提取表。对于单元格具有单行值的表来说，这很好。但是，对于具有多行值单元格的表，Camelot正在将单个单元格中的多行文本拆分为多个单元格。由于Camelot构建在pdfminer之上，因此我尝试调整布局分析参数（特别是line_margin），以使Camelot不拆分行。然而，问题仍然存在

我可以调整哪些其他参数来处理此问题？下面是有此问题的表的示例。

我不想使用“lattice”风格，因为我希望看到的大多数表都没有分界线

Tags： margin 文本应用程序示例参数 pdf 风格 line

1条回答

网友

1楼 · 发布于 2024-10-06 07:50:44

如果您的PDF表格中的线条比单元格更亮，如您的示例中所示，那么您可以使用process_background=True尝试lattice Flavor

tables = camelot.read_pdf('background_lines.pdf', process_background=True)

见https://camelot-py.readthedocs.io/en/master/user/advanced.html

相关问题更多 >

编程相关推荐

热门问题

热门文章