我正在获取python中的url内容。。。我要捕获<h1>
和</h1>
之间的所有内容。在
我尝试的是:
myString='''<h1>kgkgjgjgkjgkjgkj</h1>
<h1>kdfgggggggggggggggggggkgjgjgkjgkjgkj</h1>
dsfgdfgg
<h1>kgkgjgjgkdfgdfgdgdfjgkjgkj</h1>
dfgdffdgf
<h1>kgkgjgjsdssssssssssssssssssssgkjgkjgkj</h1>
dfgdfgdg
<h1>kgkgjgjgkjgkjgkgggggggggggggggggggj</h1>
'''
if '<h1>' in myString:
startString='<h1>'
endString='</h1>'
print myString[myString.find(startString)+len(startString):myString.find(endString)]
我有多个h1
标记。但它捕获第一个h1标记之间的数据。在
如何捕获所有h1
标记之间的数据?在
您可以使用一个简单的regular expression:
另一种方法是使用Beautiful Soup作为HTML解析器(如果您想解析真实的HTML页面,这是更可取的方法):
^{2}$BeautifulSoup未包含在标准库中,因此需要手动安装。您可以通过pip轻松安装:
我会追求美丽的人生--我的尝试
打印(在本例中只有一个h1标记)
^{2}$使用BeautifulSoup解析器。在
相关问题 更多 >
编程相关推荐