Python中文
首页
教程
问答
标签
搜索
登录
注册
如何在python中使用标准库解析格式错误的HTML
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>有太多的<a href="http://docs.python.org/library/markup.html" rel="noreferrer">html and xml libraries built into python</a>,很难相信没有对实际HTML解析的支持。</p> <p>我已经为这个任务找到了很多优秀的第三方库,但是这个问题是关于<a href="https://www.cnpython.com/book/596" class="inner-link">python标准库</a>的。</p> <p>要求:</p> <ul> <li>仅使用Python标准库组件(任何2.x版本)</li> <li>DOM支持</li> <li>处理HTML实体(<code>&nbsp;</code>)</li> <li>处理部分文档(例如:<code>Hello, <i>World</i>!</code>)</li> </ul> <p>加分:</p> <ul> <li>XPATH支持</li> <li>处理未关闭/格式错误的标记。(<code><big>does anyone here know <html ???</code></li> </ul> <hr/> <p>这是我要求的90%的解决方案。这适用于我尝试过的有限的HTML集合,但是正如每个人都清楚地看到的那样,这并不完全是健壮的。因为我盯着文档看了15分钟和一行代码,所以我想我可以向stackoverflow社区咨询类似但更好的解决方案。。。</p> <pre><code>from xml.etree.ElementTree import fromstring DOM = fromstring("<html>%s</html>" % html.replace('&nbsp;', '&#160;')) </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>把美丽组的源代码复制到你的脚本中;-)我只是在开玩笑。。。你所能写的任何能完成这项工作的东西,或多或少都会复制类似库中已经存在的功能。</p> <p>如果这真的不起作用,我不得不问,为什么只使用标准库组件如此重要?</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
从HTML页面Python获取带有特定关键字的<li>
7 回答
从html页面中删除所有样式、脚本和html标记
7 回答
从HTML页面中删除样板内容
10 回答
从HTML页面中动态提取数据
5 回答
从html页面中提取特定内容
4 回答
从html页面分析并获取链接
4 回答
从html页面向函数获取数据以将数据加载到数据库时出现问题
3 回答
从HTML页面和JavaScrip抓取数据
1 回答
从HTML页面抓取后出现CSV问题
5 回答
从HTML页面提取css
8 回答
从HTML页面提取内容(不包括导航)的python方法
3 回答
从HTML页面提取嵌套节时出现问题
2 回答
从HTML页面提取数据(Python)
10 回答
从html页面提取数据的Python单元测试类
10 回答
从html页面的列表元素中筛选数据
7 回答
从Html页面获取数据到Python数组中
8 回答
从html页面获取相关链接
9 回答
从HTML页面获取输入,并将输入传递到另一个Python文件中的函数中
8 回答
从HTML页面调用python函数
8 回答
从HTML页面运行Python script.py
7 回答