使用beautifulsoup从下拉菜单中进行抓取

import bs4 import requests datesLink = ('https://ca.finance.yahoo.com/quote/AAPL/options') datesPage = requests.get(datesLink) datesSoup = BeautifulSoup(datesPage.text, 'lxml') datesQuote = datesSoup.find('div', {'class': 'Cf Pt(18px)controls'}).find('option').text

2条回答

网友

1楼 · 编辑于 2024-10-03 23:26:05

您只需将HTML直接读取到熊猫：


import pandas as pd
URI = 'https://ca.finance.yahoo.com/quote/AAPL/options'

df = pd.read_html(URI)[0] #[1] depending on the table you wish for

网友

2楼 · 编辑于 2024-10-03 23:26:05

您无法提取此下拉列表的原因是，此列表是动态生成的，最简单的方法是将html内容保存到文件中，并在文本编辑器中手动查看

但是，您可以使用一些丑陋的正则表达式从脚本源代码中解析这些日期，这些代码位于同一个html文件中。例如，这似乎有效：

import requests, re
from datetime import *

content = requests.get('https://ca.finance.yahoo.com/quote/AAPL/options').content.decode()
match = re.search(r'"OptionContractsStore".*?"expirationDates".*?\[(.*?)\]', content)
dates = [datetime.fromtimestamp(int(x), tz=timezone.utc) for x in match.group(1).split(',')]

for d in dates:
    print(d.strftime('%Y-%m-%d'))

很明显，以如此恶劣的方式解析东西并不是万无一失的，而且很可能很快就会崩溃。但是，对于任何类型的网络抓取，也可以这样说

相关问题更多 >

编程相关推荐

热门问题

热门文章