Python/lxml/xpath解析Yahoo-Finan

import urllib import lxml import lxml.html url_local1 = "http://www.smartmoney.com/quote/FAST/?story=financials&timewindow=1&opt=YB&isFinprint=1&framework.view=smi_emptyView" result1 = urllib.urlopen(url_local1) element_html1 = result1.read() doc1 = lxml.html.document_fromstring (element_html1) list_row1 = doc1.xpath(u'.//th[div[text()="Total Assets"]]/following-sibling::td/text()') print list_row1 url_local2 = "http://finance.yahoo.com/q/bs?s=FAST" result2 = urllib.urlopen(url_local2) element_html2 = result2.read() doc2 = lxml.html.document_fromstring (element_html2) list_row2 = doc2.xpath(u'.//td[strong[text()="Total Assets"]]/following-sibling::td/strong/text()') print list_row2

<tr> <td colspan="2">Total Assets</td> <td align="right">1,684,948  </td> <td align="right">1,468,283  </td> <td align="right">1,327,358  </td> </tr>

1条回答

网友

1楼 · 发布于 2024-09-25 00:34:06

包含语法错误，结尾应该是td/strong/text()，加上后面有一个]。我认为正确的问题是：

xpath('//td[strong[text()="Total Assets"]]/following-sibling::td/strong/text()')

结果：

^{pr2}$

在原始页面中，“Total Assets”容器有空格和换行符。对text()结果使用附加的normalize-space函数，如下所示：

xpath('//td[strong[normalize-space(text())="Total Assets"]]/following-sibling::td/strong/text()')

相关问题更多 >

编程相关推荐

热门问题

热门文章