我在beautifulSoup中遇到问题,无法在每个标记中找到所有内容。即,对于第3549页,它省略了下图中以蓝色突出显示的所有内容:
有趣的是,对于第30页,我没有这个问题
from bs4 import BeautifulSoup
import requests
import time
import pandas as pd
n_pages = 1
for page in range(3549, 3550):
n_pages += 1
time.sleep(1)
outer_link = 'https://www.info-net.com.pl/firmy/pokaz/polska/page:' + str(page)
response = requests.get(outer_link)
outer_soup = BeautifulSoup(response.content,'html.parser')
firmyContainer = outer_soup.find_all('div', attrs={'id':'firmy'})
for firms in firmyContainer:
print(firms)
如果您能给我一些有用的提示,告诉我是什么导致了这个问题以及如何解决它,我将不胜感激
它工作得很好,你应该花时间去检查这些网站,看看它们之间的差异
示例#1 开放网站:https://www.info-net.com.pl/firmy/pokaz/polska/page:30
outer_soup.find_all('div', attrs={'id':'firmy'})[0]
的输出示例#2 开放网站:https://www.info-net.com.pl/firmy/pokaz/polska/page:3549
outer_soup.find_all('div', attrs={'id':'firmy'})[0]
的输出@MaciekDubaj:无法重现该行为-试图从其他位置获取数据。页面加载非常缓慢,耗时数秒,结果没有您描述的
slowa_k
。切换到Selenium此行为已修复含硒溶液
输出
相关问题 更多 >
编程相关推荐