我尝试使用h2标记进行web抓取,但是BeautifulSoup返回一个空列表。在
<h2 class="iCIMS_InfoMsg iCIMS_InfoField_Job">
html=urlopen("https://careersus-endologix.icims.com/jobs/2034/associate-supplier-quality-engineer/job")
bs0bj=BeautifulSoup(html,"lxml")
nameList=bs0bj.findAll("h2",{"class":"iCIMS_InfoMsg iCIMS_InfoField_Job"})
print(nameList)
内容在iframe中并通过js更新(因此在初始请求中不存在)。您可以使用页面用于获取iframe内容的相同链接(iframe
src
)。然后从包含信息的脚本标记中提取字符串并用json
加载,提取description
(这是html)并传递回bs,然后选择h2
标记。现在,如果需要的话,其余的信息也存储在第二个soup对象中。在答案隐藏在两个因素中:
你可以想象h2^{cl1}$
解决方案? IMHO实现您想要的效果的最佳方法是使用selenium来获得完整的呈现的web页面。在
也检查一下这个 Web-scraping JavaScript page with Python
相关问题 更多 >
编程相关推荐