我试图获取具有特定类名的标记之间的所有文本。我相信我很快就能把它修好,所以我想它只需要一个简单的修复。在
在网站上,这些是我试图从中检索数据的标签。我要“SNP”。在
<span class="rtq_exch"><span class="rtq_dash">-</span>SNP </span>
据我目前所知:
^{pr2}$我明白了:
http://finance.yahoo.com/q?s=^GSPC&d=t None
为了证明它是有效的,当我改变这一行时:
if "rtq_dash" == class_name:
我得到了这个(请注意标记之间相同的“-”):
http://finance.yahoo.com/q?s=^GSPC&d=t -
我认为它会看到子标签并停止获取数据,但我不确定原因。在
我很乐意接受
<span class="rtq_dash">-</span>SNP
作为跨度的字符串_标签文本,因为我可以轻易地砍掉我不想要的东西。在
更高级的描述,我想从页面上得到股票代码。在
Here是请求的文档,here是lxml(xpath)的文档。在
我想使用xpath而不是beauthulsoup有几个原因,所以请不要建议改为使用该库,因为这样做会更简单。在
有一些可能的方法。您可以找到外部
span
,并返回它的直接子文本节点:或者找到内部的
^{pr2}$span
并得到tail
:使用BeautifulSoup:
相关问题 更多 >
编程相关推荐