Python lxml清理器模块没有按预期工作？

2024-09-29 19:20:45 发布

男 | 程序猿一只，喜欢编程写python代码。

在我的webscrapper中，有些内容附带了广告和一些java脚本函数。如下图所示

（函数（）{var infAds=文档.createElement（“脚本”）；infAds.async异步=真；infAds.类型='文本/javascript'；var useSSL='https:'==文件位置协议; infAds.src公司=（使用SSL？）https:'：'http:'）+'//d。进料id/widget-50716010/loader/all/'；变量节点=文档.getElementById（'cont-50716010-all'）；node.parentNode.insertBefore节点（infAds，节点）；}）（）；

我用过lxml.html.clean文件.Cleaner从内容中删除脚本和样式。但这并不是我所期望的全部。我试着像下面一样

from lxml.html.clean import Cleaner
cleaner = Cleaner()
cleaner.javascript = True
cleaner.scripts = True
content = "Page content"
clean_content = cleaner.clean_html(content)
print(clean_content)

但如果我用 净含量=lxml.html.to字符串(cleaner.clean\u html（内容） __ 我得到下面的类型错误； __类型错误：无法序列化类型“str”。

我也尝试过使用regex，但没有成功。任何建议或帮助都是值得赞赏的！你知道吗

提前谢谢。你知道吗

Tags：函数文档脚本 clean 类型内容节点 var

0条回答

目前没有回答

Python lxml清理器模块没有按预期工作？

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python lxml清理器模块没有按预期工作？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >