我想使用python中的tika解析器提取每页超过2000个字符的pdf页面。从下面的代码中,我提取了[metadata],并从中使用pdf:charsPerPage
获得每页的最小字符数限制(如2000年)。我未能集成pdf:charsPerPage
代码以从解析器获取[content]数据。以下是代码:
import tika
from tika import parser
parsed = parser.from_file('C:/User/xyz/file.pdf')
parsed["metadata"]['pdf:charsPerPage']
# converting string to int to perform greater than operation
test_list = [int(i) for i in parsed["metadata"]['pdf:charsPerPage']]
[i for i in test_list if i >= 2000]
# Sample ['pdf:charsPerPage'] data: ['1319','4930','6971','5548','5646','5974','5352','6096','6054']
Actual output from the above data: ['4930','6971','5548','5646','5974','5352','6096','6054']
从上面的['pdf:charsPerPage']
中,第一个元素少于2000个字符,通过上面的操作,我们排除了2000个字符的限制。现在我想提取/解析每页超过2000个字符的内容
目前没有回答
相关问题 更多 >
编程相关推荐