Python Apache Tika单页pars

from tika import parser # running: java -jar tika-server1.18.jar before executing code below. parsedPDF = parser.from_file('C:\\path\\to\\dir\\sample.pdf') fulltext = parsedPDF['content'] metadata_dict = parsedPDF['metadata'] title = metadata_dict['title'] author = metadata_dict['Author'] # capturing all the names from lets say 15 pages. Just want it to capture from first page pages = metadata_dict['xmpTPg:NPages']

2条回答

网友

1楼 · 编辑于 2024-10-02 10:33:06

谢谢你的信息，真的很有帮助。下面是我逐页检索内容的代码（有点脏，但它可以工作）：

    raw_xml = parser.from_file(file, xmlContent=True)
    body = raw_xml['content'].split('<body>')[1].split('</body>')[0]
    body_without_tag = body.replace("<p>", "").replace("</p>", "").replace("<div>", "").replace("</div>","").replace("<p />","")
    text_pages = body_without_tag.split("""<div class="page">""")[1:]
    num_pages = len(text_pages)
    if num_pages==int(raw_xml['metadata']['xmpTPg:NPages']) : #check if it worked correctly
         return text_pages

网友

2楼 · 编辑于 2024-10-02 10:33:06

@Gagravarr关于XHTML的评论，我发现Tika在读取文件时有一个xmlContent解析。我用它来捕获xml格式，并用regex来捕获它。在

我终于明白了：

parsed_data_full = parser.from_file(file_name,xmlContent=True) 
parsed_data_full = parsed_data_full['content']

每个页分隔符都有一个开始和结束，它以"<div"开始，并以第一次出现的"</div>"结束。基本上写了一个小代码来捕捉2个子字符串之间的子字符串，并根据我的具体要求存储到一个变量中。在

相关问题更多 >

编程相关推荐

热门问题

热门文章