在Python中使用相对XPath访问表值

from lxml import html import requests SEC_pageA = requests.get('https://www.sec.gov/Archives/edgar/data/1000228/000100022810000006/the10k_2009.htm') SEC_treeA = html.fromstring(SEC_pageA.content) SalesA = SEC_treeA.xpath('(//p[contains(., "CONSOLIDATED STATEMENTS OF INCOME")]/following::td[contains(.,"Net sales")]/following-sibling::td[@align="right"]//text())[1]') SEC_pageB = requests.get('https://www.sec.gov/Archives/edgar/data/320193/000119312515356351/d17062d10k.htm') SEC_treeB = html.fromstring(SEC_pageB.content) SalesB = SEC_treeB.xpath('(//p[contains(., "CONSOLIDATED STATEMENTS OF OPERATIONS")]/following::td[contains(.,"Net sales")]/following-sibling::td[@align="right"]//text())[1]') print SalesA print SalesB

1条回答

网友

1楼 · 发布于 2024-09-28 19:04:41

这是因为有些文本不在一行中，因为xpath无法找到您真正想要的内容。你知道吗

from lxml import html
import requests

xpath_a = """
//*[text()[contains(., "CONSOLIDATED
      STATEMENTS OF INCOME")]]/following::td[contains(., "Net
      sales")][1]/following-sibling::td[@valign="bottom"][3]//text()
      """

SEC_pageA = requests.get('https://www.sec.gov/Archives/edgar/data/1000228/000100022810000006/the10k_2009.htm')
SEC_treeA = html.fromstring(SEC_pageA.content)
SalesA = SEC_treeA.xpath(xpath_a)

print(SalesA)

印刷品

['6,538,336']

相关问题更多 >

编程相关推荐

热门问题

热门文章