使用特定单词wtih BeautifulSoup的动态url抓取论坛时出现Python错误

import requests #TODO: Have the get method loop through every iteration of a forum page: s10, s20, s30... from bs4 import BeautifulSoup url = "https://www.elotrolado.net/hilo_disponibilidad-nintendo-switch-seguimiento-de-pedidos_2210603_s" for i in range(10,10000,10): stringer = str(i) page = requests.get(url%(stringer,)).read() soup = BeautifulSoup(page.content, "lxml") results = soup.find_all(lambda tag: "stock" in tag.string if tag.string else False) scraped_paragraphs = map(lambda element: element.string, results) print(scraped_paragraphs)

First page: https://www.elotrolado.net/hilo_disponibilidad-nintendo-switch-seguimiento-de-pedidos_2210603 Second page: https://www.elotrolado.net/hilo_disponibilidad-nintendo-switch-seguimiento-de-pedidos_2210603_s10 Third page: https://www.elotrolado.net/hilo_disponibilidad-nintendo-switch-seguimiento-de-pedidos_2210603_s20 etc...

2条回答

网友

1楼 · 编辑于 2024-06-14 17:47:52

我想尝试寻找一个字符串，我知道它存在于系列的一个页面中：“amazon”。我在代码中看到了两个可能的小缺陷

其一是，它无法识别案例中的变化（如“亚马逊”、“亚马逊”等）。另一个是map产生一个迭代器

>>> import requests
>>> page = requests.get('https://www.elotrolado.net/hilo_disponibilidad-nintendo-switch-seguimiento-de-pedidos_2210603_s20').content
>>> import bs4
>>> soup = bs4.BeautifulSoup(page, 'lxml')
>>> results = soup.find_all(lambda tag: 'amazon' in tag.string.lower() if tag.string else False)
>>> len(results)
3
>>> list(map(lambda elem: elem.string, results))
[' A las 10:30 abre la preventa Amazon España!!! ', ' Me llego email de Amazon, la ponen a las 10:30am ', ' El enlace de amazon de la neón lo tenéis? gracias. ']

网友

2楼 · 编辑于 2024-06-14 17:47:52

我不确定您的预期输出是什么，但请尝试以下方法：

for i in range(10, 10000, 10): stringer = int(i) page = requests.get(url + '%d' % stringer) print(page) soup = BeautifulSoup(page.content, "lxml") results = soup.find_all(lambda tag: "stock" in tag.string if tag.string else False) scraped_paragraphs = list(map(lambda element: element.string, results)) print(scraped_paragraphs)

相关问题更多 >

编程相关推荐

热门问题

热门文章