Python中文
首页
教程
问答
标签
搜索
登录
注册
BeautifulSoup返回包含有效html内容的空列表
回答此问题可获得
20
贡献值,回答如果被采纳可获得
50
分。
<p>我正在尝试为一个名为<a href="https://www.arukereso.hu" rel="nofollow noreferrer">https://www.arukereso.hu</a>的匈牙利电子商务网站构建一个webscraper</p> <pre><code>from bs4 import BeautifulSoup as soup import requests #The starting values #url = input("Illeszd ide egy Árukeresős keresésnek a linkjét: ") url = 'https://www.arukereso.hu/notebook-c3100/' headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36'} page_num = 1 allproducts = [] #Defining functions for better readability def nextpage(): further_pages = usefulsoup.find("div", class_="pagination hidden-xs") nextpage_num = page_num + 1 try: next_page = further_pages.find("a", string=str(nextpage_num)) next_page = next_page['href'] return next_page except: return None while True: if url == None: break r = requests.get(url, headers=headers) page_html = r.content r.close() soup = soup(page_html, "html.parser") #print(soup) usefulsoup = soup.find("div", id="product-list") #print(usefulsoup) products = usefulsoup.find_all("div", class_="product-box-container clearfix") print(products) for product in products: allproducts.append(product) url = nextpage() print(allproducts) </code></pre> <p>问题是,当第一次调用<code>nextpage()</code>函数时,它返回一个有效的链接(<a href="https://www.arukereso.hu/notebook-c3100/?start=25" rel="nofollow noreferrer">https://www.arukereso.hu/notebook-c3100/?start=25</a>),请求的内容也是有效的html,但BeautifulSoup会从中生成一个空列表,因此程序以错误结束</p> <p>如果有人能解释原因以及如何修复,我将不胜感激</p>
0 条评论
分类:
Python问答
请先
登录
后评论
默认排序
时间排序
1 个回答
匿名
1天前
擅长:python、mysql、java
<p>我不知道为什么会发生这种情况,但scrapy可能是解决这类问题的好办法 <a href="https://scrapy.org/" rel="nofollow noreferrer">https://scrapy.org/</a></p>
请先
登录
后评论
针对此问题:
更多的回答
关注
89
关注
收藏
1
收藏,
216
浏览
网友 提问于 2天前
相关Python问题
文本导入时标题行中的特殊字符
3 回答
文本小部件:在没有输入时更新并在循环后保持空闲
9 回答
文本小部件tkin
2 回答
文本小部件tkinter中的标签更改或文本外观更改是否有撤消功能?
8 回答
文本小部件tkinter复制图像选项
3 回答
文本小部件上的Python Tkinter ttk滚动条未缩放
5 回答
文本小部件上的滚动条可能需要根据制表符ord显示前进行滚动
2 回答
文本小部件不显示lis中的内容
6 回答
文本小部件不显示Unicode字符
8 回答
文本小部件中写入的行间距
1 回答
文本小部件中的文本作为变量
4 回答
文本小部件中的滚动条仅显示在底部
1 回答
文本小部件中的选项卡键空间计数
5 回答
文本小部件作为Lis
5 回答
文本小部件在主框架中扩展列宽
7 回答
文本小部件未使用删除功能清除
7 回答
文本小部件滚动动画(Tkinter、Python)
1 回答
文本居中。格式正确吗?
8 回答
文本差分算法
6 回答
文本已知时音频文件中的单词索引
7 回答