我需要从一个食品配送网站刮一个餐厅链接列表,然后刮他们的菜单。这是我想要的网站:https://www.pedidosya.com.ar/restaurantes/buenos-aires/monserrat/empanadas-delivery?bt=RESTAURANT&page=1
检查HTML:
<a href="https://www.pedidosya.com.ar/restaurantes/buenos-aires/el-
noble-galerias-pacifico-menu" title="El Noble Galerías Pacífico"
class="arrivalName">El Noble Galerías Pacífico</a>
我感兴趣的部分是:
URL=https://www.pedidosya.com.ar/restaurantes/buenos-aires/el-noble-galerias-pacifico-menu
名称=El Noble Galerías Pacífico
保存在不同的列表中,然后创建一个.CSV文件
该网站有几个页面,但我会得到这个问题稍后哈哈。这是我的密码:
urls = []
source = BeautifulSoup(page_soup, "html.parser")
table = source.find('h3', attrs={'a': 'arrivalName'})
for a in table.find_all("a", href=True):
print(a)
urls.append(a)
我得到这个错误: TypeError:“NoneType”对象不可调用
您可以使用类名来定位餐厅链接,然后提取链接的href和名称的.text。我生成一个df作为tidier,但您可以切掉name列和链接。你知道吗
以下是一种迭代页面、提取数据并转储到CSV的方法:
输出CSV内容:
相关问题 更多 >
编程相关推荐