从HTML选项卡获取href链接的策略

<tr> <td class="transactionTableBodyText">5250 S RAINBOW BLVD 1001 </td> <td class="transactionTableBodyText" align="center">SPRING VALLEY</td> <td class="transactionTableBodyText" align="center"> <a id="DataGrid1__ctl3_HyperLink2" href="http://Sandgate.co.clark.nv.us/AssrRealProp/ParcelDetail.aspx?hdnParcel=16326214001&hdnInstance=pcl7" target="_self">163-26-214-001</a> </td> </tr>

td = driver.find_elements_by_css_selector("td.transactionTableBodyText") i = 0 while i <= len(td): try: if StrtNum in td[i].text: print("We matched %s!" % (StrtNum)) #This is the incorrect part where I try to get to the 'a' selector in the 3rd column from the correctly identified 1st column. ParcelLink = td[i+2].driver.find_elements_by_css_selector('a').get_attribute('href') print(ParcelLink) else: return except: break i+=1

1条回答

网友

1楼 · 发布于 2024-06-26 13:41:46

另一个弓弦：lxml。它使您能够访问xpath表达式，从而简化导航HTML的工作。你知道吗

>>> from lxml import etree
>>> parser = etree.HTMLParser()
>>> tree = etree.fromstring(open('sample.htm').read(), parser)
>>> for td in tree.xpath('.//table/tr/td[@class="transactionTableBodyText"][1]'):
...     if td.text.startswith('5250'):
...         tr = td.getparent()
...         td_3_link = tr.xpath('./td[3]/a')
...         link = td_3_link[0].attrib['href']
... 
>>> link
'http://Sandgate.co.clark.nv.us/AssrRealProp/ParcelDetail.aspx?hdnParcel=16326214001&hdnInstance=pcl7'

如您所见，我使用了REPL环境，这样我就可以尝试各种方法，同时尝试收敛到一些工作良好且看起来相当健壮的方法。你知道吗

差点忘了，这是我正在解析的HTML。你知道吗

<table>
    <tr>
      <td class="transactionTableBodyText">1000 S RAINBOW BLVD 1001  </td>
      <td class="transactionTableBodyText" align="center">SPRING VALLEY</td>
      <td class="transactionTableBodyText" align="center">
        <a id="DataGrid1__ctl3_HyperLink2" href="http://Sandgate.co.clark.nv.us/AssrRealProp/ParcelDetail.aspx?hdnParcel=16326214001&amp;hdnInstance=pcl7" target="_self">163-26-214-001</a>
      </td>
    </tr>
    <tr>
      <td class="transactionTableBodyText">5250 S RAINBOW BLVD 1001  </td>
      <td class="transactionTableBodyText" align="center">SPRING VALLEY</td>
      <td class="transactionTableBodyText" align="center">
        <a id="DataGrid1__ctl3_HyperLink2" href="http://Sandgate.co.clark.nv.us/AssrRealProp/ParcelDetail.aspx?hdnParcel=16326214001&amp;hdnInstance=pcl7" target="_self">163-26-214-001</a>
      </td>
    </tr>
    <tr>
      <td class="transactionTableBodyText">2000 S RAINBOW BLVD 1001  </td>
      <td class="transactionTableBodyText" align="center">SPRING VALLEY</td>
      <td class="transactionTableBodyText" align="center">
        <a id="DataGrid1__ctl3_HyperLink2" href="http://Sandgate.co.clark.nv.us/AssrRealProp/ParcelDetail.aspx?hdnParcel=16326214001&amp;hdnInstance=pcl7" target="_self">163-26-214-001</a>
      </td>
    </tr>
    <tr>
      <td class="transactionTableBodyText">2000 S RAINBOW BLVD 1001  </td>
      <td class="transactionTableBodyText" align="center">SPRING VALLEY</td>
      <td class="transactionTableBodyText" align="center">
        <a id="DataGrid1__ctl3_HyperLink2" href="http://Sandgate.co.clark.nv.us/AssrRealProp/ParcelDetail.aspx?hdnParcel=16326214001&amp;hdnInstance=pcl7" target="_self">163-26-214-001</a>
      </td>
    </tr>
</table>'''

相关问题更多 >

编程相关推荐

热门问题

热门文章