我们正在尝试编写一个Python脚本,在以下条件下解析HTML:
如果HTML title标记包含字符串“Record does not exist”,则继续运行循环。
如果没有,请下载页面内容。
如何根据条件编写if语句?在
我们知道美丽的汤,不幸的是,我们没有许可在我们使用的机器上安装它。在
我们的代码:
import urllib2
opp1 = 1
oppn = 2
for opp in range(opp1, oppn + 1):
oppurl = (something.com)
response = urllib2.urlopen(oppurl)
html = response.read()
# syntax error on the next line #
if Title == 'Record doesn't exist':
continue
else:
oppfilename = 'work/opptest' + str(opp) + '.htm'
oppfile = open(oppfilename, 'w')
opp.write(opphtml)
print 'Wrote ', oppfile
votefile.close()
试试Beautiful Soup。这是一个非常容易使用的用于解析HTML文档和片段的库。在
编辑
如果不能选择靓汤,我个人会使用正则表达式。然而,我拒绝在公共场合承认这一点,因为我不会让别人知道我会屈尊于简单的解决方案。让我们看看“电池包”里有什么。在
^{} 看起来很有前途,让我们看看能否按我们的意愿来做。在
^{pr2}$那真是太痛苦了。几乎和Java一样冗长。(开玩笑)
还有什么?有一个^{} 一个“轻量级DOM实现”。我喜欢“轻量级”的声音,意思是我们可以用一行代码来完成,对吗?在
我们只有一条线!在
所以我听说这些正则表达式在从HTML中提取文本时非常有效。我想你应该用那些。在
可以使用正则表达式获取标题标记的内容:
相关问题 更多 >
编程相关推荐