如何从不同的表条目中提取信息：Text vs.DIV vs.SPAN

from bs4 import BeautifulSoup data = '''<table class="ds-table"> <tr> <td class="data-label">year of birth:</td> <td class="data-value">1994</td> </tr> <tr> <td class="data-label">reporting period:</td> <td class="data-value"> <span class="editable" id="c-scope_beginning_date"> ? </span>  -  <span class="editable" id="c-scope_ending_date"> ? </span> </td> </tr> <tr> <td class="data-label">reporting cycle:</td> <td class="data-value"> <span class="editable" id="c-periodicity"> - </span> </td> </tr> <tr> <td class="data-label">grade:</td> <td class="data-value">1.3, upper 10% of class</td> </tr> <tr> <td class="data-label">status:</td> <td class="data-value"></td> </tr> </table> <table class="ds-table"> <tr> <td class="data-label">economics:</td> <td class="data-value"><span class="positive-value"></span></td> </tr> <tr> <td class="data-label">statistics:</td> <td class="data-value"><span class="negative-value"></span></td> </tr> <tr> <td class="data-label">social:</td> <td class="data-value"><div id="music_id" class="trigger"><span class="negative-value"></span></div></td> </tr> <tr> <td class="data-label">misc:</td> <td class="data-value"> <div id="c_assurance" class=""> <span class="positive-value"></span> </div> </td> </tr> <tr> <td class="data-label">recommendation:</td> <td class="data-value"> <span class="negative-value"></span> </td> </tr> </table>''' soup = BeautifulSoup(data)

1条回答

网友

1楼 · 发布于 2024-09-29 23:15:36

您得到这个错误是因为其中一个标记没有任何children，所以{}列表在搜索该索引时会给出一个错误。在

您可以通过以下方式进行审批：

1）搜索data-label标记

2）找到下一个TD兄弟姐妹

3 A）检查兄弟姐妹是否有文字

3 A）1）如果是，则创建一个dict条目，其中data-label为键，同级文本为其值

3 A）B）如果没有，则检查同级第一个子级是否包含-value`

4）解析数据。在

示例：

soup = BeautifulSoup(data, 'lxml')

result = {}

for tag in soup.find_all("td", { "class" : "data-label" }):
    NextSibling = tag.find_next("td", { "class" : "data-value" }).get_text(strip = True)
    if not NextSibling and len(tag.find_next("td").select('span[class*=-value]')) > 0:
        NextSibling = tag.find_next("td").select('span[class*=-value]')[0]["class"][0]
    result[tag.get_text(strip = True)] = NextSibling

print (result)

结果：

{ 'year of birth:': '1994', 'reporting period:': '?-?', 'reporting cycle:': '-', 'grade:': '1.3, upper 10% of class', 'status:': '', 'economics:': 'positive-value', 'statistics:': 'negative-value', 'social:': 'negative-value', 'misc:': 'positive-value', 'recommendation:': 'negative-value' }

相关问题更多 >

编程相关推荐

热门问题

热门文章