提取BS4中的嵌套数据

2024-09-29 23:31:15 发布

您现在位置:Python中文网/ 问答频道 /正文

我有下面的HTML文件,我想提取运行时和视图数据参数。我已经能够导航到主id=videouser类,但是我不确定现在如何获得相关的文本。。在

vid_data = (soup('td', {'id':'videoUser'}))[0]

<td id="videoUser">
<div class="item" style="padding-left: 0;">
<span>Added by</span>
<a href="/user/glanceweb">glanceweb</a>
<a class="hint" hint="Send private message" href="#" onclick="return openPm('glanceweb')" overicon="iconMailOver">
<div class="icon iconMail di" style="margin-bottom:-1px"></div>
</a>
<span class="hint" hint="2013-04-01 01:07:00 UTC">10 months ago</span>
</div>
<div class="item"><span>Runtime:</span> 02:39</div>
<div class="item"><span>Views:</span> 284,397</div>
</td>

有人知道如何在BS4中做到这一点吗。。?在


Tags: 文件数据div视图idstylehtmlitem
1条回答
网友
1楼 · 发布于 2024-09-29 23:31:15

如果要查找由上述HTML打印的所有文本,请执行以下操作:

soup = BeautifulSoup(<your-html>)
div = soup.find_all('div', {'class':'item'})[0]
user = str(div.find_all('span')[0].string) + ' ' + str(div.find_all('a')[0].string) + ' ' + str(div.find_all('span')[1].string)
r_div = soup.find_all('div', {'class':'item'})[1]
runtime = r_div.get_text()
v_div = soup.find_all('div', {'class':'item'})[2]
views = v_div.get_text()

然后用户可以:

^{pr2}$

运行时将有:

Runtime: 02:39

这样,视图就会有

Views: 284,397

相关问题 更多 >

    热门问题