从包含存档链接的网站中提取URL

def find_urls(): start_url = "e.vnexpress.net/news/business" r = requests.get("http://" + start_url) data = r.text soup = BeautifulSoup(data, "html.parser") links = soup.findAll('a') url_list = [] for url in links: all_link = url.get('href') if all_link.startswith('http://e.vnexpress.net/news/business'): url_list.append(all_link) return set(url_list)

1条回答

网友

1楼 · 发布于 2024-10-03 06:19:28

您可以使用类似selenium的浏览器单击按钮，直到按钮消失或禁用。最后，你可以用beautifulsoup一次完成整个页面。你知道吗

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

#initializing browser
driver = webdriver.Firefox()
driver.set_window_size(1120, 550)

driver.get("http://e.vnexpress.net/news/news")

# run this till button is present
elem = driver.find_element_by_id('vnexpress_folder_load_more'))
elem.click()

编程相关推荐

java中的标签是用来制作意大利面代码的吗？
如何经营一家公司。压缩后eclipse中的java文件？
Java将双精度四舍五入将截断零
java使用定制的standalonefull。带arquillian的xml
java如何从hbase列读取日期、时间和时间戳
java在返回规范<SomeEntity>（spring，jpa）中仅包含具有true boolean字段的实体
java Ui strucking Firebase Firestore删除数据？
遇到Java数组索引错误
java使用Stanford语法分析器获得句子的K最佳语法分析
TLSPackage后的java神秘字节

相关问题更多 >

编程相关推荐

热门问题

热门文章

从包含存档链接的网站中提取URL

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >