清除html2tx后的文本

2024-10-01 02:40:36 发布

您现在位置:Python中文网/ 问答频道 /正文

我用lxml把html转换成txt。随着解析、转换和清理(制表符、空格、空行)功能的一些部分准备就绪,程序启动并运行,我几乎达到了我想要的地方。在

然而,在我用大约一百个htmls(都来自不同的站点)尝试我的代码后,我发现了一些异常,例如:

#wrapper #PrimaryNav {margin:0;*overflow:hidden;}
a.scbbtnred{background-position:right -44px;}
a.scbbtnblack{background-position:right -176px;}
.ghsearch{width:58px;height:21px;line-height:21px;background-position:0 -80px;}
a.scbbtnred span span{background-color:#f00;background-position:0 -22px;}

我想这些是CSS?或者其他的网络编程。但我对这些完全不熟悉。在

问题:这些线是什么?有什么建议可以让这些线路顺利运行吗?在


编辑:下面是我在这个问题之前是如何做的,以供以后在这篇文章中出现的任何人参考(对于python来说,这里有很多东西可以改进,但对我来说效果不错):

^{pr2}$

Tags: 程序功能righttxthtmlpositionlxml制表符
1条回答
网友
1楼 · 发布于 2024-10-01 02:40:36

这确实是CSS。你会得到这样的文件:

<style>
#wrapper #PrimaryNav {margin:0;*overflow:hidden;}
a.scbbtnred{background-position:right -44px;}
a.scbbtnblack{background-position:right -176px;}
.ghsearch{width:58px;height:21px;line-height:21px;background-position:0 -80px;}
a.scbbtnred span span{background-color:#f00;background-position:0 -22px;}
</style>
<div>
    <p>This bit is HTML</p>
</div>

在分析出文本之前,您需要删除所有style标记。在

相关问题 更多 >