BS4在试图修复它时破坏HTML

2024-10-02 06:38:40 发布

您现在位置:Python中文网/ 问答频道 /正文

BS4纠正了错误的html。通常这不是问题。我尝试解析、修改和保存这个页面的html:ulisses-regelwiki.de/index.php/sonderfertigkeiten.html 在这种情况下,修复会更改表示。修复后,页面的许多行不再居中,而是左对齐。 由于我必须处理所述页面的损坏html,我不能简单地修复html代码

如何防止bs4修复html或以某种方式修复“更正”

(这个最小的示例只显示了bs4修复损坏的html代码;我无法创建一个最小的示例,其中bs4以错误的方式进行修复,就像上面提到的页面一样)

#!/usr/bin/env python3
from bs4 import BeautifulSoup


html = '''
<!DOCTYPE html>
<center>
Some Test content
<!-- A comment -->
<center>
'''

def is_string_only(t):
    return type(t) is NavigableString

soup = BeautifulSoup(html, 'lxml') #or html.parse

print(str(soup))

Tags: 代码示例ishtml错误方式de页面

热门问题