从html lis返回json字符串

<body> <p>Once upon a time, there were <a href="http://en.wikipedia.org/wiki/Three_Little_Pigs">three little pigs</a>:</p> <ol> <li><h2>Pig A</h2> </li> <li><h2>Pig B</h2> </li> <li><h2>Pig C</h2> </li> </ol>

def get_pigs(): soup = BeautifulSoup(html_doc, 'html.parser') pigs = soup.body.contents[3].find_all('h2') import re p_list = soup.find(text=re.compile("Pig ")) print(p_list) get_pigs()

1条回答

网友

1楼 · 发布于 2024-06-28 19:47:33

必须从soup方法find_all中找到的每个元素中提取.text，然后只需要json.dumps这个列表

from bs4 import BeautifulSoup
import json

def get_pigs(html_doc):
  soup = BeautifulSoup(html_doc, 'html.parser')
  pigs = [elem.text for elem in soup.find_all('h2')]
  return pigs
pigs=get_pigs(open("pigs.html").read())
print(pigs)
print("json string:",json.dumps(pigs))

输出：

['Pig A', 'Pig B', 'Pig C']
json string: ["Pig A", "Pig B", "Pig C"]

Working code

编程相关推荐

java使用无循环和乘法的递归调用查找值
java字符串大小冲突
在一组Java文件对象中查找唯一的超级目录
没有Eclipse控制台输出窗口（Java）？
java这怎么等于105而不是15？
java Adempiere列调出，用于不处理从（代码）选项导入和创建行的字段
java tomcat、2个webapps、2个log4js，但这两个应用都记录到一个文件中
lambda理解Java谓词
HotspotFX上的Java EOF问题
java google应用程序引擎：如何向连接/断开通道“ping”添加信息？

相关问题更多 >

编程相关推荐

热门问题

热门文章

从html lis返回json字符串

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >