Python lxml清理器模块没有按预期工作?

2024-09-29 19:20:45 发布

您现在位置:Python中文网/ 问答频道 /正文

在我的webscrapper中,有些内容附带了广告和一些java脚本函数。如下图所示

(函数(){var infAds=文档.createElement(“脚本”);infAds.async异步=真;infAds.类型='文本/javascript';var useSSL='https:'==文件位置协议; infAds.src公司=(使用SSL?)https:':'http:')+'//d。进料id/widget-50716010/loader/all/';变量节点=文档.getElementById('cont-50716010-all');node.parentNode.insertBefore节点(infAds,节点);})();

我用过lxml.html.clean文件.Cleaner从内容中删除脚本和样式。但这并不是我所期望的全部。我试着像下面一样

from lxml.html.clean import Cleaner
cleaner = Cleaner()
cleaner.javascript = True
cleaner.scripts = True
content = "Page content"
clean_content = cleaner.clean_html(content)
print(clean_content)

但如果我用 净含量=lxml.html.to字符串(cleaner.clean\u html(内容) __ 我得到下面的类型错误; __类型错误:无法序列化类型“str”。

我也尝试过使用regex,但没有成功。任何建议或帮助都是值得赞赏的!你知道吗

提前谢谢。你知道吗


Tags: 函数文档脚本clean类型内容节点var

热门问题