我要按的按钮看起来像:
<a data-hide="#mvc-paginate-acf46b3a1b68090c" data-append="true" data-container="#posts-container" class="hubmvc-ajax-get mvc-more btn btn-skel-generic" href="https://example.com/linear-box-load-more/?load_more=1&pg=2&limit=36&offset=14&additional_class=gems&ajax_hook=next_page&_wpnonce=8762751649&start_pg=1">View More</a>
在使用BeautifulSoup进行刮擦之前,我试着按几次。我尝试使用来自selenium
的webdriver
,但显然,根据这个答案,Scrape page with "load more results" button
我查看了Chrome开发工具中的Network选项卡,发现当点击按钮时,页面发出了get请求。下面的代码发出一个get请求,以获取该特定“页面”的文章。在params中,将pg number更改为您想要的任何数字。当我测试它时,它起作用了。唯一的问题可能是它没有得到所有文章的html,只得到特定页面上的文章。如果您创建一个请求会话或循环访问所有页面的get请求,您可能可以获得所有页面的html。在
相关问题 更多 >
编程相关推荐