用python靓汤制作的HTML表格

2024-09-28 23:35:50 发布

您现在位置:Python中文网/ 问答频道 /正文

我有一个HTML表格,如下所示:

<table border=0 cellspacing=1 cellpadding=2 class=form>
<tr class=form><td class=formlabel>Heating Coils in Bunker Tanks</td><td class=form>N</td></tr>
<tr class=forma><td class=formlabel>Heating Coils in Cargo Tanks</td><td class=form>U</td></tr>
<tr class=form><td class=formlabel>Manifold Type</td><td class=form>N</td></tr>
<tr class=forma><td class=formlabel>No. Holds</td><td class=form>5</td></tr>
<tr class=form><td class=formlabel>No. Centreline Hatches</td><td class=form>5</td></tr>
<tr class=forma><td class=formlabel>Lifting Gear</td><td class=form>Yes</td></tr>
<tr class=form><td class=formlabel>Gear</td><td class=form>4 Crane (30.5t SWL)</td></tr>
<tr class=forma><td class=formlabel>Alteration</td><td class=form>Unknown</td></tr>
</table>

我用美丽的汤来提取特定的数据,这是来自一个痒蜘蛛的回应

^{pr2}$

我该怎么做这个。做请注意,值的顺序可能会更改,但表单标签始终保持不变?如何使用特定的表单标签进行搜索?在

编辑:

<tr class=forma><td class=formlabel>Fleet Manager (Operator)</td><td class=form><a href="oBasic.asp?LRNumber=9442964&Action=Display&LRCompanyNumber=40916">ESSAR SHIPPING LTD</a></td></tr>

此特定案例场景不适用于以下同级搜索?如何克服这个问题?在


Tags: noinform表单table标签trclass
1条回答
网友
1楼 · 发布于 2024-09-28 23:35:50

您可以找到^{cd1>}元素by text并获得next sibling

table.find('td', text='Manifold Type').next_sibling.text

作为一个侧记,为什么需要在一个碎片蜘蛛内部使用^{{cd2>}?Scrapy在HTML解析、定位元素方面,它本身非常强大:

^{pr2}$

演示来自^{}

^{pr3}$

相关问题 更多 >