我正在尝试使用Python清理这个网站:“https://ec.europa.eu/research/mariecurieactions/how-to/find-job_en”
首先,我注意到我感兴趣的表实际上位于以下url:https://ec.europa.eu/assets/eac/msca/jobs/import-jobs_en.htm
然而,requests+BS4只提供HTML格式的页面源代码。我假设这是因为内容是动态的
因此,我尝试了Selenium+BS4来刮取网站,但我仍然只能刮取页面源代码
from selenium.webdriver import Firefox
from bs4 import BeautifulSoup
import lxml
driver = Firefox()
url = 'https://ec.europa.eu/assets/eac/msca/jobs/import-jobs_en.htm'
driver.get(url)
soup = BeautifulSoup(driver.page_source, 'lxml')
我如何才能刮上述网站
如果你再进一步,你会在这里找到真正的数据:https://euraxess.ec.europa.eu/sites/default/files/exports/msca.xml 下面是一个使用SimplifiedDoc的示例
结果:
实际上,您可以使用requests+BS4获得所需的结果。您所需要做的就是将API
https://euraxess.ec.europa.eu/sites/default/files/exports/msca.xml
与头一起使用代码
输出
相关问题 更多 >
编程相关推荐