使用Python进行web抓取时，浏览器错误中禁用了如何通过Javascript

url = requests.get("https://platform.virdocs.com/r/s/0/doc/350551/sp/14552484/mi/47443495/?cfi=%2F4%2F2%5BP7001013978000000000000000003FF2%5D%2F2%2F2%5BP7001013978000000000000000010019%5D%2F2%2C%2F1%3A0%2C%2F1%3A0") url.raise_for_status() soup = bs4.BeautifulSoup(url.text, "html.parser") elems = soup.select("p") print(elems[0].getText())

1条回答

网友

1楼 · 发布于 2024-06-13 22:04:44

问题是页面实际上不包含任何内容。要加载内容，它需要运行一些JS代码。requests.get方法不运行JS，它只加载基本的HTML

您需要做的是模拟浏览器，即“打开”页面，运行JS，然后刮取内容。一种方法是使用如下所述的浏览器驱动程序-https://stackoverflow.com/a/57912823/9805867

编程相关推荐

未使用Thymeleaf解析java消息参数
java试图为应用程序的每个实例创建一个具有唯一名称的表
eclipse如何用moduleinfo替换VM参数。java文件
java如何使JTextField不接受后缀字符串中的空格
Android中的java序列化文件
java如何缓存hibernate集合？
Android Eclipse导航抽屉中的java标头ImageView
java StreamTokenizer将001_到003拆分为两个令牌；我如何防止它这样做？
java应用程序必须只有一个DBHelper类，还是可以有多个DBHelper类？
java通过使用键作为值来反序列化Jackson

相关问题更多 >

编程相关推荐

热门问题

热门文章