在python中使用beautifulsoup解析表

<div style="overflow:auto; border:1px #cccccc solid;"> <table cellspacing="0" cellpadding="3" align="left" border="0" width="100%"> <tbody> <tr class="tblHeading"> <td colspan="7">AMERICANS SOCCER CLUB</td> </tr> <tr bgcolor="#CCE4F1"> <td colspan="7">B11EB - AMERICANS-B11EB-WARZALA</td> </tr> <tr bgcolor="#FFFFFF"> <td width="19%" class="tdUnderLine">        Cameron Coya </td> <td width="19%" class="tdUnderLine"> Rozel, Max </td> <td width="06%" class="tdUnderLine"> 09-11-2016 </td> <td width="05%" class="tdUnderLine" align="center"> <a href="http://www.ncsanj.com/gameRefReportPrint.cfm?gid=228004" target="_blank">228004</a> </td> <td width="16%" class="tdUnderLine" align="center"> 09/10/16 02:15 PM </td> <td width="30%" class="tdUnderLine"> player persistently infringes the laws of the game </td> <td class="tdUnderLine"> Cautioned </td> </tr> <tr class="tblHeading"> <td colspan="7">AVIATORS SOCCER CLUB</td> </tr> <tr bgcolor="#CCE4F1"> <td colspan="7">G12DB - AVIATORS-G12DB-REYNGOUDT</td> </tr> <tr bgcolor="#FBFBFB"> <td width="19%" class="tdUnderLine">        Saskia Reyes </td> <td width="19%" class="tdUnderLine"> HollaenderNardelli, Eric </td> <td width="06%" class="tdUnderLine"> 09-11-2016 </td> <td width="05%" class="tdUnderLine" align="center"> <a href="http://www.ncsanj.com/gameRefReportPrint.cfm?gid=224463" target="_blank">224463</a> </td> <td width="16%" class="tdUnderLine" align="center"> 09/11/16 06:45 PM </td> <td width="30%" class="tdUnderLine"> player/sub guilty of unsporting behavior </td> <td class="tdUnderLine"> Cautioned </td> </tr> <tr class="tblHeading"> <td colspan="7">BERGENFIELD SOCCER CLUB</td> </tr> <tr bgcolor="#CCE4F1"> <td colspan="7">B11CW - BERGENFIELD-B11CW-NARVAEZ</td> </tr> <tr bgcolor="#FFFFFF"> <td width="19%" class="tdUnderLine">        Christian Latorre </td> <td width="19%" class="tdUnderLine"> Coyle, Kevin </td> <td width="06%" class="tdUnderLine"> 09-10-2016 </td> <td width="05%" class="tdUnderLine" align="center"> <a href="http://www.ncsanj.com/gameRefReportPrint.cfm?gid=226294" target="_blank">226294</a> </td> <td width="16%" class="tdUnderLine" align="center"> 09/10/16 11:00 AM </td> <td width="30%" class="tdUnderLine"> player persistently infringes the laws of the game </td> <td class="tdUnderLine"> Cautioned </td> </tr>

3条回答

网友

1楼 · 编辑于 2024-09-29 19:25:09

from __future__ import print_function
import re
import datetime
from bs4 import BeautifulSoup

soup = ""
with open("/tmp/a.html") as page:
   soup = BeautifulSoup(page.read(),"html.parser")

table = soup.find('div', {'style': 'overflow:auto; border:1px #cccccc solid;'}).find('table')

trs = table.find_all('tr')

table_dict = {}
game = ""
section = ""

for tr in trs:
    if tr.has_attr('class'):
        game = tr.text.strip('\n')
    if tr.has_attr('bgcolor'):
        if tr['bgcolor'] == '#CCE4F1':
            section = tr.text.strip('\n')
        else:
            tds = tr.find_all('td')
            extracted_text = [re.sub(r'([^\x00-\x7F])+','', td.text) for td in tds]
            extracted_text = [x.strip() for x in extracted_text]
            extracted_text = list(filter(lambda x: len(x) > 2, extracted_text))
            extracted_text.pop(1)
            extracted_text[2] = "Player " + extracted_text[2]
            extracted_text[3] = datetime.datetime.strptime(extracted_text[3], '%m/%d/%y %I:%M %p').strftime("%Y-%m-%d")
            extracted_text = ['"' + x + '"' for x in [game, section] + extracted_text]
            print(','.join(extracted_text))

跑步时：

^{pr2}$

根据与OP的进一步对话，输入是https://paste.fedoraproject.org/428111/87928814/raw/，运行上述代码后的输出是：https://paste.fedoraproject.org/428110/38792211/raw/

网友

2楼 · 编辑于 2024-09-29 19:25:09

如果数据的结构真的像一个表，那么很有可能直接用pd.read U表格(). 注意，它接受filepath_或_buffer参数中的url。 http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html

网友

3楼 · 编辑于 2024-09-29 19:25:09

count = 0
string = ""
for td in soup.find_all("td"):
string += "\""+td.text.strip()+"\","
count +=1
if(count % 9 ==0):
    print string[:-1] + "\n\n" # string[:-1] to remove the last ","
    string = ""

由于表格的格式不符合要求，我们只需使用td，而不是逐行逐行进入td，这会使工作复杂化。我刚刚使用了一个字符串，您可以将数据附加到列表列表中，然后对其进行处理以供以后使用。
希望这能解决你的问题

相关问题更多 >

编程相关推荐

热门问题

热门文章