在我的webscrapper中,有些内容附带了广告和一些java脚本函数。如下图所示
(函数(){var infAds=文档.createElement(“脚本”);infAds.async异步=真;infAds.类型='文本/javascript';var useSSL='https:'==文件位置协议; infAds.src公司=(使用SSL?)https:':'http:')+'//d。进料id/widget-50716010/loader/all/';变量节点=文档.getElementById('cont-50716010-all');node.parentNode.insertBefore节点(infAds,节点);})();
我用过lxml.html.clean文件.Cleaner从内容中删除脚本和样式。但这并不是我所期望的全部。我试着像下面一样
from lxml.html.clean import Cleaner
cleaner = Cleaner()
cleaner.javascript = True
cleaner.scripts = True
content = "Page content"
clean_content = cleaner.clean_html(content)
print(clean_content)
但如果我用 净含量=lxml.html.to字符串(cleaner.clean\u html(内容) __ 我得到下面的类型错误; __类型错误:无法序列化类型“str”。
我也尝试过使用regex,但没有成功。任何建议或帮助都是值得赞赏的!你知道吗
提前谢谢。你知道吗
目前没有回答
相关问题 更多 >
编程相关推荐