我试图获得一个使用Python和urllib的网站的评论。 我能够得到html,但是,我注意到我使用python得到的html的comment部分丢失了。你知道吗
下面是我使用python得到的:
<div data-bv-product-id="6810124" data-bv-show="reviews" id="BVReviewsContainer">
</div>
(div标签之间的内容为空)
在浏览器中,它应该是这样的:
<div data-bv-product-id="6810124" data-bv-show="reviews" id="BVReviewsContainer">
<div id="BVRRContainer">
<div class="bv-cleanslate bv-cv2-cleanslate"> <div data-bv-v="contentList:1" class="bv-shared bv-core-container-437" data-product-id="6810124">
.
.
.
</div>
</div>
</div>
我很困惑,为什么我不明白整件事。你知道吗
Thispost解释了为什么刮取的HTML并不总是相同的;JavaScript可以改变网站的HTML。我见过的一个例子是,我相信在我们自己的档案中,一个作品的实际主体是不可用的。根据StackOverflow的文章,您应该使用Selenium来替代它,因为它基本上模拟了用户访问页面时发生的实际过程:用户打开一个web浏览器(您可以使用首选的web浏览器,如Chrome),然后打开一个页面,页面的JavaScript运行(通过
onload
事件)。你知道吗相关问题 更多 >
编程相关推荐