在python脚本中使用选择器获取项目

import requests ; from lxml import html tree = html.fromstring(requests.get("https://www.austrade.gov.au/SupplierDetails.aspx?ORGID=ORG8000000314&folderid=1736").text) for title in tree.cssselect("div.contact-details"): cDetails = title.cssselect("h3:contains('Contact Details')+p")[0].text cContact = title.cssselect("h4:contains('Contact')+p")[0].text print(cDetails, cContact)

Company Name: Distance Learning Australia Pty Ltd Phone: +61 2 6262 2964 Fax: +61 2 6169 3168 Email: rto@dla.com.au Name: Christine Jarrett Phone: +61 2 6262 2964 Fax: +61 2 6169 3168 Email: chris.jarrett@dla.com.au

2条回答

网友

1楼 · 编辑于 2024-09-30 10:35:57

text返回第一个文本节点。如果要在抓取文本节点时遍历所有子节点，请使用xpath，如下所示：

company_details = title.cssselect("h3:contains('Contact Details')+p")[0]
for node in company_details.xpath("child::node()"):
    print node

结果：

^{pr2}$

网友

2楼 · 编辑于 2024-09-30 10:35:57

只需将text属性替换为text_content()方法即可获得所需的输出：

cDetails = title.cssselect("h3:contains('Contact Details')+p")[0].text_content()
cContact = title.cssselect("h4:contains('Contact')+p")[0].text_content()

相关问题更多 >

编程相关推荐

热门问题

热门文章