beauthulsoup无法在javascript中读取正确编码的html

html_doc = """<html> <body> voilà déjà vu c'est la vie ! <script type="text/javascript"> ... varHTML = 'voilà déjà vu c\'est la vie !'; ... </script> </body> </html>""" from bs4 import BeautifulSoup BeautifulSoup(html_doc)

<html> <body> voilà déjà vu c'est la vie ! <script type="text/javascript"> ... varHTML = 'voilà déjà vu c\'est la vie !'; ... </script> </body> </html>

1条回答

网友

1楼 · 发布于 2024-06-25 22:52:10

我终于解决了。在

使用Regex，我将html部分作为文本提取到javascript中，然后对其重新应用beauthoulsoup以获得可读的html代码：

from bs4 import BeautifulSoup
import re
soup = BeautifulSoup(html_doc)
html_from_javascript = re.findall("varHTML = '(.*)';",soup.text)
print str(BeautifulSoup(html_from_javascript[0]))

给出：voilàdéjà vuc'est la vie !

关于奖金问题：

问题是网页上的初始代码被双重转义。所以代码不是C\'est，而是C\\\'est。在

我用这个函数解决了这个问题：

^{pr2}$

希望有一天能有人看到它，它不是复制品！在

格里戈里

相关问题更多 >

编程相关推荐

热门问题

热门文章