Python中的HTML文件解析

1条回答

网友

1楼 · 发布于 2024-10-06 12:34:11

from bs4 import BeautifulSoup
from pprint import pprint

soup = BeautifulSoup(html)
h2s = soup.select("h2") #get all h2 elements
tables = soup.select("table") #get all tables

first = True
title =""
players = []
for i,table in enumerate(tables):
    if first:
         #every h2 element has 2 tables. table size = 8, h2 size = 4
         #so for every 2 tables 1 h2
         title =  h2s[int(i/2)].text
    for tr in table.select("tr"):
        player = (title,) #create a player
        for td in tr.select("td"):
            player = player + (td.text,) #add td info in the player
        if len(player) > 1: 
            #If the tr contains a player and its not only ("Goalkeaper") add it
            players.append(player)
    first = not first
pprint(players)

输出：

^{pr2}$

编程相关推荐

java jpa从oracle检索日期
探查器下的java Hibernate性能和内存泄漏问题
java Spring数据规范RSQL和join
Java序列化将枚举读取为字符串
sonarqube为什么从Java“Sonar way with Findbugs”质量配置文件中删除了squid:CycleBeweenPackages规则？
java按钮单击不使用材质设计？
java如何仅对某些控制器使用Spring转换器？
在一个Java Android类中使用相同名称的方法
java将PDF/A1b转换为PDF/A2
带有scribesjava库的wordpress Woocommerce REST API返回消费者密钥参数缺失错误消息

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python中的HTML文件解析

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >