我试图从Instagram的“按标签搜索”中获取一个特定的字符串。 我想从这里获取url img:
<img alt="#yeşil #manzara #doğa
#yayla #nature #naturelovers #adventuretime #adventures #mountainstaries
#picture #şehirdenuzak #tatil #holiday #cow #potography #view #kütükev
#naturelife #animal #amazing #kar #winter #winteriscomming #mapavr1 #artvin
#tulumile #insaatr #tulumci #rize
class="_2di5p" sizes="171px" srcset="https://scontent-mxp11.cdninstagram.com/vp/c883e0c4267c003843fafeda255f1329/5A9D3C97/t51.2885-15/s150x150/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 150w,
https://scontent-mxp1-1.cdninstagram.com/vp/6a3480f8658b50c691bcc100a96cc6f0/5A9CC9DC/t51.2885-15/s240x240/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 240w,
https://scontent-mxp1-1.cdninstagram.com/vp/461c138e15f52420c3fbc075fab027eb/5A9DD808/t51.2885-15/s320x320/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 320w,
https://scontent-mxp1-1.cdninstagram.com/vp/ad5d67f1c9ea77d78d145501e73c2ea0/5A9CAF9D/t51.2885-15/s480x480/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 480w,
https://scontent-mxp1-1.cdninstagram.com/vp/e0636f79adc1ae53f7321d10fe60f275/5A9CD134/t51.2885-15/s640x640/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg 640w"
src="https://scontent-mxp1-1.cdninstagram.com/vp/e0636f79adc1ae53f7321d10fe60f275/5A9CD134/t51.2885-15/s640x640/e15/c0.90.720.720/28154674_2016914221854461_991623208941649920_n.jpg" style="">
所以基本上我喜欢得到这根弦(它的末端是240w):
^{pr2}$我试着用Python编写这段代码,但没用
import requests
from bs4 import BeautifulSoup
request = requests.get("https://www.instagram.com/explore/tags/nature/")
content = request.content
soup = BeautifulSoup(content,"html.parser")
element = soup.find("srcset")
print(element.text.strip())
也许真正的问题是页面中有21个类似这样的元素 但首先我想知道如何得到那根绳子。在
(如果你们中有人知道bs4的好教程或书,你能告诉我吗?)在
您看不到任何输出的原因是图像是使用JavaScript动态添加到页面源代码中的。因此,您提供的HTML在页面源代码中不可用。克服这个问题最简单的方法是使用Selenium。在
但是,还有一个方法可以解决这个问题。查看页面源代码,您要查找的数据以JSON的形式存在于
<script>
标记中。相关数据的形式如下:要获取JSON,可以使用以下命令(代码取自this answer):
^{2}$获取所有图像的图像链接的代码:
部分输出:
注意:第
image_src = post['node']['thumbnail_resources'][1]['src']
行中的[1]
表示240w。可以使用0、1、2、3或4分别表示150w、240w、320w、480w或640w。另外,如果您想要任何其他关于任何图像的数据,比如,喜欢的数量,注释,标题等等;所有的东西都可以在这个JSON(data
变量)中获得。在相关问题 更多 >
编程相关推荐