Python中文
首页
教程
问答
标签
搜索
登录
注册
使用Python解析一行HTML中的段落
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>考虑到HTML代码的灵活性,解析出用户通过浏览器看到的段落似乎是一项非常重要的任务。</p> <p>目前,我有一个不太可靠的解决方案:</p> <pre><code>tree = lxml.etree.fromstring(html, lxml.etree.HTMLParser()) if isinstance(html, basestring) else html for skiptag in ('//script', '//iframe', '//style', '//link', '//meta', '//noscript', '//option'): for node in tree.xpath(skiptag): node.getparent().remove(node) paragraphs = lxml.etree.tostring(tree, encoding=unicode, method='text') </code></pre> <p>我面临的问题主要是如何处理异常(或者说,自由风格)。</p> <p>一个很常见的情况是,在HTML中,许多段落都是在一行(例如下面的代码)中编写的,我的代码将它们解析为一个段落。</p> ^{pr2}$ <p>我的问题是:</p> <ul> <li>一般来说,有没有什么好方法可以正确地分析出段落?在</li> <li>在这个特殊的例子中,我应该如何优化我的代码,以从一行HTML中正确地获取段落,因为<code><p></code>不仅可以表示段落,而且还有许多其他方法可以应用于free样式?在</li> <li>有什么一般的建议吗?在</li> </ul>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>看看<a href="http://www.aaronsw.com/2002/html2text" rel="nofollow">html2text</a>。在</p> <p>它可能不能完全满足您的需要,但它只是一个500行的脚本,所以它应该很容易适应您的特殊需要。在</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
当用户用PYTHON设置一个或一个不带值的URL时,他们怎么能输入一个/a的代码呢?
3 回答
当用户登录到站点时,如何显示不同的导航栏
6 回答
当用户登录时,在Flask中向用户显示处理结果
10 回答
当用户的Flask会话结束时,我如何从Redis后端中移除所有Celery结果?
5 回答
当用户的Okta配置文件字段当前为blan时,更新该字段
6 回答
当用户的付款逾期2天时,从Django模型检索数据
10 回答
当用户的消息以问号结尾时,如何让机器人说些什么?
5 回答
当用户的系统上可能也安装了Python 2.7时,如何在用户的系统上运行Python 3脚本?
6 回答
当用户确定打印数量时,使用Matplotlib打印动画
2 回答
当用户离开时是否可以删除整个网页?
1 回答
当用户给出一个单词时如何打印?
7 回答
当用户继续更改TKin中的值(使用trace方法)时,使用Entry并更新输入的条目
9 回答
当用户编辑表单字段时,从Django时间字段中删除秒数
4 回答
当用户被更改时,消息不会来自web套接字
7 回答
当用户访问表单时,如何使表单为只读,而不具有更改权限
2 回答
当用户试图更改对象的值时,使用描述符类引发RuntimeError
1 回答
当用户调整GUI的大小时,是否有方法更改GUI内容的大小?
8 回答
当用户调整风的大小时,pythontkinter小部件的大小会不均匀
5 回答
当用户购买某个类别时,是否查找其他类别的销售?
3 回答
当用户转到上一页时,Django和芹菜插入操作
10 回答