从<p>而不是<table>中的html表提取数据

1条回答

网友

1楼 · 发布于 2024-09-26 17:59:34

我用BeautifulSoup解析请求html中的每个标记p和br，最后的结果是一个数据帧…以后你可以把它导出到excel文件中…希望能对你有所帮助

from bs4 import BeautifulSoup
import requests
import pandas as pd

result = requests.get('http://www.linfo.org/acronym_list.html')
c = result.content
soup = BeautifulSoup(c, "html.parser")
samples = soup.find_all("p")

rows_list = []

for row in samples:
    tagstrong = row.find_all("strong")
    for x in tagstrong:
        #print(x.get_text())
        tagbr = row.find_all("br")
        for y in tagbr:
            new_row = {'letter':x.get_text(), 'content':y.next}
            rows_list.append(new_row)

df1 = pd.DataFrame(rows_list)
print(df1.head(10))

结果如下：

编程相关推荐

java如何拆分字符串（基于各种分隔符），但不保留空格？
解析。Json格式的txt文件和knime中的java
java Spring rest api为什么在rest api调用的响应中更改了数据类型
升华文本3抛出java。lang.ClassNotFoundException，而记事本++不存在
java Android指纹扫描仪在尝试5次后停止工作？
java Android如何设置精确的重复报警？
java如何使用HTTPGET connect为access API输入用户名和密码
java当测试报告显示没有测试失败时，Gradle为什么说“有失败的测试”？
用Gson实现java获取响应
MapReduce程序中函数错误的java不可映射参数

相关问题更多 >

编程相关推荐

热门问题

热门文章

从<p>而不是<table>中的html表提取数据

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >