当我试图从以下网站上获取数据时
url=https://bedbathandbeyond.ugc.bazaarvoice.com/2009-en_us/1061083288/reviews.djs?format=embeddedhtml&page=4&scrollToTop=true
我是从bedbathbeyond网站上得到的,如果我使用request和beautifulsoup,我就什么也得不到。为什么?在
代码:
r = requests.get(url)
soup = BeautifulSoup(r.content,'lxml')
soup.find_all('span', class_ = 'BVRRReviewAbbreviatedText')
返回值为空:[]
Tags:
我使用了^{} ,因为}),如果您需要的话,用regex从它的值中获取HTML要困难得多。在
^{pr2}$materials
对象包含多个键(BVRRRatingSummarySourceID
、BVRRSecondaryRatingSummarySourceID
和{在下面的示例中,我只使用了
BVRRSourceID
键下的HTML,但是您可以通过将值连接在一起来使用整个HTML:如果您想使用}。在
lxml
解析器,不要忘记安装js2py
:pip install js2py
和{您可以使用selenium webdriver来获取您感兴趣的html内容。例如
相关问题 更多 >
编程相关推荐