Python“Requests”模块无法检测某些HTML链接标记

1条回答

网友

1楼 · 发布于 2024-06-02 20:59:39

每个专家的所有数据都在div中，其中有expert-list-content类：

from bs4 import BeautifulSoup
import requests

soup = BeautifulSoup(requests.get("https://www.chegg.com/tutors/online-tutors/").content)
for ex in soup.select("div.expert-list-content"):
    print(ex.select_one("div.expert-description").text)

这给了你：

^{pr2}$

要获取配置文件链接和名称：

for ex in soup.select("div.expert-list-content"):
  info = ex.select_one("div.expert-info a")
  print(info.text, info["href"])

这给了你：

(u'Aleria S.', '/tutors/online-tutors/Aleria-S-371573/')
(u'Douglas Z.', '/tutors/online-tutors/Douglas-Z-568826/')
(u'Carla S.', '/tutors/online-tutors/Carla-S-864918/')
(u'Vinit R.', '/tutors/online-tutors/Vinit-R-2031766/')
(u'Anastasia G.', '/tutors/online-tutors/Anastasia-G-65278/')
(u'Vinay S.', '/tutors/online-tutors/Vinay-S-85533/')
(u'Gunjan G.', '/tutors/online-tutors/Gunjan-G-2695711/')
(u'Scott M.', '/tutors/online-tutors/Scott-M-277743/')
(u'Saumya U.', '/tutors/online-tutors/Saumya-U-890305/')
(u'Ed M.', '/tutors/online-tutors/Ed-M-2895636/')

这里不涉及Javascript，如果您在浏览器中右键单击并选择viewsource，您可以看到它就在那里。如果它是动态创建的，则在源代码中不会看到它。一般来说，添加用户代理总是好的。在

head = {"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.103 Safari/537.36"}
soup = BeautifulSoup(requests.get("https://www.chegg.com/tutors/online-tutors/", headers=head).content)

相关问题更多 >

编程相关推荐

热门问题

热门文章

Python“Requests”模块无法检测某些HTML链接标记

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >