我得到了一个包含html列表的html文档:
<body>
<p>Once upon a time, there were <a
href="http://en.wikipedia.org/wiki/Three_Little_Pigs">three little pigs</a>:</p>
<ol>
<li><h2>Pig A</h2>
</li>
<li><h2>Pig B</h2>
</li>
<li><h2>Pig C</h2>
</li>
</ol>
我想把下面列出的三只小猪还给你“有三只小猪” 在类似“[“Pig a”,“Pig B”,“Pig C”]”的JSON字符串中
我试着用find\u all和re
def get_pigs():
soup = BeautifulSoup(html_doc, 'html.parser')
pigs = soup.body.contents[3].find_all('h2')
import re
p_list = soup.find(text=re.compile("Pig "))
print(p_list)
get_pigs()
我的代码只给了我一个猪A。我不知道为什么这不能给我预期的结果,我怎么能得到正确的结果?你知道吗
必须从
soup
方法find_all
中找到的每个元素中提取.text
,然后只需要json.dumps
这个列表输出:
Working code
相关问题 更多 >
编程相关推荐