我相信这是一个简单的问题谁有网页编程和基本的网页抓取经验(我没有)。在
我的目标是通过删除Chegg雇佣的许多导师的“简历”段落来获取他们的信息。虽然我是一个网络抓取的新手,但我想这将涉及到编写一个scaper,它递归地点击导师的链接:
把导师的简历都翻出来了
使用Microsoft Edge DOM Explorer,我可以在页面的HTML中检测导师的链接标记:
然而,当我使用Python的“Requests”模块获取网页的HTML时,导师的链接不在那里!奇怪的是,网页上的其他链接都被检测到了,但是没有一个导师的链接。Python代码如下所示:
import requests
r = requests.get('www.chegg.com/tutors/online-tutors/')
print r.content
有人能就这个问题给我一些建议吗?我应该学些什么(例如HTML编程、HTTP理论等等),这样我就可以处理这个项目了?在
每个专家的所有数据都在div中,其中有
expert-list-content
类:这给了你:
^{pr2}$要获取配置文件链接和名称:
这给了你:
这里不涉及Javascript,如果您在浏览器中右键单击并选择viewsource,您可以看到它就在那里。如果它是动态创建的,则在源代码中不会看到它。一般来说,添加用户代理总是好的。在
相关问题 更多 >
编程相关推荐