BS4纠正了错误的html。通常这不是问题。我尝试解析、修改和保存这个页面的html:ulisses-regelwiki.de/index.php/sonderfertigkeiten.html 在这种情况下,修复会更改表示。修复后,页面的许多行不再居中,而是左对齐。 由于我必须处理所述页面的损坏html,我不能简单地修复html代码
如何防止bs4修复html或以某种方式修复“更正”
(这个最小的示例只显示了bs4修复损坏的html代码;我无法创建一个最小的示例,其中bs4以错误的方式进行修复,就像上面提到的页面一样)
#!/usr/bin/env python3
from bs4 import BeautifulSoup
html = '''
<!DOCTYPE html>
<center>
Some Test content
<!-- A comment -->
<center>
'''
def is_string_only(t):
return type(t) is NavigableString
soup = BeautifulSoup(html, 'lxml') #or html.parse
print(str(soup))
试试这个lib
这里有更多的例子:https://github.com/yiyedata/simplified-scrapy-demo/tree/master/doc_examples
相关问题 更多 >
编程相关推荐