用Python改变HTML中下拉菜单的值

import requests from bs4 import BeautifulSoup as bs import numpy as np import matplotlib.pyplot as plt car_type=0 car_spec=['ford-focus','ford-fiesta','ford-ecosport'] my_url='http://carsalesbase.com/european-car-sales- data/ford/'+car_spec[car_type]+'/' page = requests.get(my_url) soup = bs(page.content, 'html.parser') t=soup.find("table") rows=t.find_all('td')

<form action="http://carsalesbase.com/" class="search-form" method="get" role="search"> <input class="" id="hide-value" name="hide-value" type="hidden" value="1"/> <select class="kelas1" id="brand-option" name="brand-option"> <option value="0">Select Brand</option> <option value="82"> Group</option> <option value="17">Alfa Romeo</option> <option value="1">Alpina</option> ... <option value="74">Volkswagen</option> <option value="26">Volvo</option> </select> <select class="kelas1" id="model-option" name="model-option"> <option value="0">Select Model</option> </select> <input name="css-go" type="submit" value="Go"/> </form>

2条回答

网友

1楼 · 编辑于 2024-07-04 07:40:26

想办法解决这个问题。我看到第二个下拉列表由一个Java脚本填充。此脚本根据您在第一个下拉列表中选择的内容生成第二个下拉列表的可能条目。在

然而，第二个下拉列表中的数据存储在该网站上的另一个Java脚本中。在

所以我把HTML中所有的“script”标签都刮了，直到找到一个包含我需要的数据的标签。我可以用编程方式打开该脚本，并将数据从脚本内部传输到主python脚本。在

这样我就可以迭代这个http方案：

http://carsalesbase.com/?hide-value=1&brand-option=17&model-option=2089&css-go=Go

这是一个非常专业的解决方案，显然您需要selenium，或者可以与使用JS的scrape网站相媲美。但对于我的问题，这已经足够了。在

网友

2楼 · 编辑于 2024-07-04 07:40:26

有一种方法可以使用pandas read_html从html读取表。只需几行代码就可以将表html传递到pandas DataFrame中。在

对我来说 http://carsalesbase.com/?hide-value=1&brand-option=17&model-option=2089&css-go=Go不返回响应。在

import requests
import lxml
from lxml import html
import pandas as pd
import html5lib
from bs4 import BeautifulSoup
from tabulate import tabulate

url = "http://carsalesbase.com/european-car-sales-data/alfa-romeo/"

r = requests.get(url)
tree = html.fromstring(r.content)

tables = tree.xpath('//table')

for table in tables:
  df = pd.read_html(html.tostring(table), header=0)
  df = df[0]
  print(tabulate(df, headers='keys', tablefmt='psql'))

打印如下：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章