如何在Python中将提取的文本从PDF转换为JSON或XML格式？ - 问答 - Python中文网

如何在Python中将提取的文本从PDF转换为JSON或XML格式？

2024-09-25 00:36:23 发布

您现在位置：Python中文网/ 问答频道 /正文

男 | 程序猿一只，喜欢编程写python代码。

我使用PyPDF2从PDF文件中提取数据，然后转换成文本格式？在

文件的PDF格式如下：

Name : John 
Address: 123street , USA 
Phone No:  123456
Gender: Male 

Name : Jim 
Address:  456street , USA 
Phone No:  456899
Gender: Male

在Python中，我使用以下代码：

^{pr2}$

这是我从第页内容得到的结果：

 'Name : John \n \nAddress: 123street , USA \n \nPhone No:  123456\n \nGender: Male \n \n \nName : Jim \n \nAddress:  456street , USA \n \nPhone No:  456899\n \nGender: Male \n \n \n'

如何将其格式化为JSON或XML格式，以便使用sqlserver数据库中提取的数据。在

我也试过用这种方法

import json
data = json.dumps(page_content)
formatj = json.loads(data)
print (formatj)

输出：

Name : John 
Address: 123street , USA 
Phone No:  123456
Gender: Male 

Name : Jim 
Address:  456street , USA 
Phone No:  456899
Gender: Male

这与word文件中的输出相同，但我不认为这是JSON格式。在

Tags：文件数据 no name json pdf address 格式

1条回答

网友

1楼 · 发布于 2024-09-25 00:36:23

不是很漂亮，但我想这能完成任务。您将得到一个字典，然后由json解析器以漂亮的格式打印出来。在

import json    

def get_data(page_content):
    _dict = {}
    page_content_list = page_content.splitlines()
    for line in page_content_list:
        if ':' not in line:
            continue
        key, value = line.split(':')
        _dict[key.strip()] = value.strip()
    return _dict

page_data = get_data(page_content)
json_data = json.dumps(page_data, indent=4)
print(json_data)

或者，代替最后三行，只需这样做：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章