漂亮的汤解析XML不正确

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd"> <page number="1" position="absolute" top="0" left="0" height="1188" width="918"> <text top="301" left="136" width="223" height="17" font="4">– Jul-18 ABC </text> <text top="495" left="136" width="258" height="17" font="4">– Aug-16 XYZ </text> </page>

1条回答

网友

1楼 · 发布于 2024-10-04 03:18:15

也许你需要试试这个方法

from bs4 import BeautifulSoup
text = """
    <?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE pdf2xml SYSTEM "pdf2xml.dtd">
<page number="1" position="absolute" top="0" left="0" height="1188" width="918">
<text top="301" left="136" width="223" height="17" font="4"><b>– Jul-18            ABC  </b></text>
<text top="495" left="136" width="258" height="17" font="4"><b>– Aug-16</b>                     <b>XYZ                  </b></text>
</page>
"""

soup = BeautifulSoup(text, 'html.parser')
for i in soup.find_all('text'):
    print(i.get_text(separator=u' ', strip=False))

#Output as : – Jul-18            ABC  
#             – Aug-16   XYZ

相关问题更多 >

编程相关推荐

热门问题

热门文章

漂亮的汤解析XML不正确

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >