Python中文
首页
教程
问答
标签
搜索
登录
注册
用python regex抓取html
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我对python中的regex有一些问题。我有一些html页面,其中包含对我有用的信息。在保存页面时,encodig字符集是一种iso。。。 它保存了所有德国典型的字母编码,例如“Fr%C3%BCchte”为Früchte和son on。 html的结构非常糟糕,因此唯一合理的方法就是使用regex。在</p> <p>我在python中有一个regex:</p> <pre><code>re.compile('<a\s+href="javascript.*?\(\'(\w+).*?\s.(\d+.+\d+).*?(.*)\'\)\">') </code></pre> <p>不幸的是,这并不是我想要的,因为编码的单词只会被部分提取,例如,结果是:</p> ^{pr2}$ <p>也许我累了,但我看不出错误在哪里:</p> <p>hir html:</p> <pre><code><td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160500', 'Fr%C3%BCchte in Alkohol')">Früchte in Alkohol</a></td> </tr> <tr valign="top"> <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td> </tr> <tr valign="top"> <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160400', 'Rumtopf')">Rumtopf</a></td> </tr> <tr valign="top"> <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td> </tr> <tr valign="top"> <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160300', 'Spirituosen (Bio)')">Spirituosen (Bio)</a></td> </tr> <tr valign="top"> <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td> </tr> <tr valign="top"> <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160200', 'Spirituosen zur Verarbeitung in der Confiserie')">Spirituosen zur Verarbeitung in der Confiserie</a></td> </tr> <tr valign="top"> <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td> </tr> <tr valign="top"> <td colspan="3" width="100%"><a href="javascript:sendForm('showSubGroups', '160100', 'Spirituosen, allgemein')">Spirituosen, allgemein</a></td> </tr> <tr valign="top"> <td colspan="3"><img src="NoName_Time_200843_93448%20-Dateien/pix.gif" height="5" width="1"></td> </tr> </tbody></table> </td> </tr> </code></pre>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p><a href="http://www.crummy.com/software/BeautifulSoup/" rel="nofollow">Beautiful Soup</a>是解析html的一个很好的库。</p> <p>一旦从html中提取了href,那么使用regex应该很容易。</p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
尝试加密和解密文本文件(Python)
4 回答
尝试加密文本文件会导致类型错误
3 回答
尝试加密时溢出错误
1 回答
尝试加载.plist文件时出现“无此类文件或目录”错误
10 回答
尝试加载“blog.templatetags.blog_标记”时引发ImportError:没有名为“markdown”的模块
9 回答
尝试加载“menus.templatetags.menus\u标记”时引发ImportError:无法从“menus.models”导入名称“menus”
4 回答
尝试加载5GB文本fi时发生Python内存错误
1 回答
尝试加载5GB文本文件时出现MemoryError
7 回答
尝试加载Django模板时出现渲染错误
9 回答
尝试加载exi时出错
5 回答
尝试加载imag时使用精灵表失败
5 回答
尝试加载json.Python时出错
7 回答
尝试加载json文件时遇到此错误:json.decoder.jsondeCoderror:预期值:第1行第1列(char 0)
6 回答
尝试加载keras和tensorflow,我仍然得到ModuleNotFoundError:在我的Anaconda环境中没有名为'tensorflow_core.estimator'的模块
9 回答
尝试加载Librosa的示例fi时出现“找不到文件”错误
4 回答
尝试加载matplotlib时发生iPython笔记本错误
6 回答
尝试加载MP3时出现PyGame错误
4 回答
尝试加载pickled matplotlib figu时发生AttributeError
6 回答
尝试加载pickle文件时出错
3 回答
尝试加载Pytoch模型时遇到问题:“在模块中找不到标识”
7 回答