如何收集网页的全部来源(来源只显示前10个X。)

2024-10-02 22:38:21 发布

您现在位置:Python中文网/ 问答频道 /正文

我正在尝试创建一个程序,将通过一堆tumblr照片和提取的人谁上传他们的用户名。
http://www.tumblr.com/tagged/food

如果你看这里,你可以看到多个不同上传程序的食物图片。如果你向下滚动,你会看到更多的图片和更多的上传者。但是,如果您在浏览器中右键单击以查看源代码,并搜索“username”,则只能得到10个结果。每一次,无论你向下滚动多远。在

有没有什么方法可以解决这个问题,而是让它显示所有图像的整个源代码,或者显示X个图像量,或者显示您滚动的距离?在

下面是我的代码来显示我正在做什么:

#Imports
import requests
from bs4 import BeautifulSoup
import re

#Start of code
r = requests.get('http://www.tumblr.com/tagged/skateboard')
page = r.content

soup = BeautifulSoup(page)
soup.prettify()
arrayDiv = []

for anchor in soup.findAll("div", { "class" : "post_info" }):
    anchor = str(anchor)
    tempString = anchor.replace('</a>:', '')
    tempString = tempString.replace('<div class="post_info">', '') 
    tempString = tempString.replace('</div>', '')
    tempString = tempString.split('>')
    newString = tempString[1]
    newString = newString.strip()

    arrayDiv.append(newString)

print arrayDiv

Tags: import程序divcomhttpwww图片tumblr
1条回答
网友
1楼 · 发布于 2024-10-02 22:38:21

我用beauthulsoup解决了一个类似的问题。我所做的就是循环浏览页面。用beautifulsoup检查是否有一个continue元素-这里(在不倒翁页面中)例如,这是一个id为“next_page_link”的元素 如果有一个,我会循环照片抓取代码,同时更改由请求获取的url。当然,您需要将所有代码封装在一个函数中

祝你好运。在

相关问题 更多 >