我正试图从以下位置抓取日期列表:https://ca.finance.yahoo.com/quote/AAPL/options
日期位于选项链正上方的下拉菜单中。我以前从这个网站上抓取过文本,但是这个文本使用了“选择”选项选项的语法。如何调整代码以收集此类文本?我已经使用了下面代码的许多变体来尝试和刮文本,但我没有运气
多谢各位
import bs4
import requests
datesLink = ('https://ca.finance.yahoo.com/quote/AAPL/options')
datesPage = requests.get(datesLink)
datesSoup = BeautifulSoup(datesPage.text, 'lxml')
datesQuote = datesSoup.find('div', {'class': 'Cf Pt(18px)controls'}).find('option').text
您只需将HTML直接读取到熊猫:
您无法提取此下拉列表的原因是,此列表是动态生成的,最简单的方法是将html内容保存到文件中,并在文本编辑器中手动查看
但是,您可以使用一些丑陋的正则表达式从脚本源代码中解析这些日期,这些代码位于同一个html文件中。例如,这似乎有效:
很明显,以如此恶劣的方式解析东西并不是万无一失的,而且很可能很快就会崩溃。但是,对于任何类型的网络抓取,也可以这样说
相关问题 更多 >
编程相关推荐