我正在尝试创建一个程序,将通过一堆tumblr照片和提取的人谁上传他们的用户名。
http://www.tumblr.com/tagged/food
如果你看这里,你可以看到多个不同上传程序的食物图片。如果你向下滚动,你会看到更多的图片和更多的上传者。但是,如果您在浏览器中右键单击以查看源代码,并搜索“username”,则只能得到10个结果。每一次,无论你向下滚动多远。在
有没有什么方法可以解决这个问题,而是让它显示所有图像的整个源代码,或者显示X个图像量,或者显示您滚动的距离?在
下面是我的代码来显示我正在做什么:
#Imports
import requests
from bs4 import BeautifulSoup
import re
#Start of code
r = requests.get('http://www.tumblr.com/tagged/skateboard')
page = r.content
soup = BeautifulSoup(page)
soup.prettify()
arrayDiv = []
for anchor in soup.findAll("div", { "class" : "post_info" }):
anchor = str(anchor)
tempString = anchor.replace('</a>:', '')
tempString = tempString.replace('<div class="post_info">', '')
tempString = tempString.replace('</div>', '')
tempString = tempString.split('>')
newString = tempString[1]
newString = newString.strip()
arrayDiv.append(newString)
print arrayDiv
我用beauthulsoup解决了一个类似的问题。我所做的就是循环浏览页面。用beautifulsoup检查是否有一个continue元素-这里(在不倒翁页面中)例如,这是一个id为“next_page_link”的元素 如果有一个,我会循环照片抓取代码,同时更改由请求获取的url。当然,您需要将所有代码封装在一个函数中
祝你好运。在
相关问题 更多 >
编程相关推荐