我用lxml把html转换成txt。随着解析、转换和清理(制表符、空格、空行)功能的一些部分准备就绪,程序启动并运行,我几乎达到了我想要的地方。在
然而,在我用大约一百个htmls(都来自不同的站点)尝试我的代码后,我发现了一些异常,例如:
#wrapper #PrimaryNav {margin:0;*overflow:hidden;}
a.scbbtnred{background-position:right -44px;}
a.scbbtnblack{background-position:right -176px;}
.ghsearch{width:58px;height:21px;line-height:21px;background-position:0 -80px;}
a.scbbtnred span span{background-color:#f00;background-position:0 -22px;}
我想这些是CSS?或者其他的网络编程。但我对这些完全不熟悉。在
问题:这些线是什么?有什么建议可以让这些线路顺利运行吗?在
编辑:下面是我在这个问题之前是如何做的,以供以后在这篇文章中出现的任何人参考(对于python来说,这里有很多东西可以改进,但对我来说效果不错):
^{pr2}$
这确实是CSS。你会得到这样的文件:
在分析出文本之前,您需要删除所有
style
标记。在相关问题 更多 >
编程相关推荐