做汤的问题：BeautifulSoup没有打开整个页面源，停止在/htm

2024-10-02 04:37:04 发布

您现在位置：Python中文网/ 问答频道 /正文

8309

网友

男 | 程序猿一只，喜欢编程写python代码。

嗨，我对刮痧很陌生，谢谢你的帮助。在

我正在尝试使用以下url打开：

from bs4 import BeautifulSoup

import urllib2
import csv
import re

amicales = urllib2.urlopen("http://www.journal-officiel.gouv.fr/association/index.php?ACTION=Rechercher&HI_PAGE=1&HI_COMPTEUR=0&original_method=get&WHAT=&JTH_ID=014000%2F014040&JAN_BD_CP=&JRE_ID=%CEle-de-France%2FParis&JAN_LIEU_DECL=&JTY_ID=&JTY_WALDEC=&JTY_SIREN=&JPA_D_D=&JPA_D_F=&rechercher.x=36&rechercher.y=7&rechercher=Rechercher")
soup = BeautifulSoup(amicales)

我想从搜索查询中获取结果。问题是，我感兴趣的每个结果都以/html结尾。我相信这会迫使beautifulsoup在第一个搜索结果后停止读取源代码，从而忽略剩下的20个左右的结果。在

例如，这里只包括“国家倡议和马切鲁3瓦坦”的结果：

^{pr2}$

有谁能帮我打开整个页面，而不仅仅是第一个/html标记之前的所有内容吗？在

Tags： from import id url html urllib2 hi jan

1条回答

网友

1楼 · 发布于 2024-10-02 04:37:04

哦，天哪，那个网站完全坏了。每页只能有一个</html>标记。如果您查看源代码，您会发现只有一个<html>标记（而不是50个</html>标记）。在

一种解决方法是先删除所有的</html>标记，然后再将其传递给BeautifulGroup。在

page = page.replace("</html>", "")
soup = BeautifulSoup(page)

做汤的问题：BeautifulSoup没有打开整个页面源，停止在/htm

相关问题更多 >

编程相关推荐

热门问题

热门文章

做汤的问题：BeautifulSoup没有打开整个页面源，停止在/htm

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >