用BeautifulSoup抓取Instagram

import requests from bs4 import BeautifulSoup request = requests.get("https://www.instagram.com/explore/tags/nature/") content = request.content soup = BeautifulSoup(content,"html.parser") element = soup.find("srcset") print(element.text.strip())

1条回答

网友

1楼 · 发布于 2024-09-30 08:33:44

您看不到任何输出的原因是图像是使用JavaScript动态添加到页面源代码中的。因此，您提供的HTML在页面源代码中不可用。克服这个问题最简单的方法是使用Selenium。在

但是，还有一个方法可以解决这个问题。查看页面源代码，您要查找的数据以JSON的形式存在于<script>标记中。相关数据的形式如下：

"thumbnail_resources": [
    {
        "src": "https://instagram.fpnq3-1.fna.fbcdn.net/vp/a3ed0ee1af581f1c1fe6170b8c080e7c/5B2CA660/t51.2885-15/s150x150/e35/28433503_571483933190064_5347634166450094080_n.jpg",
         "config_width": 150,
         "config_height": 150
     },
     {
         "src": "https://instagram.fpnq3-1.fna.fbcdn.net/vp/7a0bb4fb1b5d5e3b179c58a2b9472b9f/5B2C535F/t51.2885-15/s240x240/e35/28433503_571483933190064_5347634166450094080_n.jpg",
         "config_width": 240,
         "config_height": 240
     },

要获取JSON，可以使用以下命令（代码取自this answer）：

^{2}$

获取所有图像的图像链接的代码：

import json
import requests
from bs4 import BeautifulSoup

r = requests.get('https://www.instagram.com/explore/tags/nature/')
soup = BeautifulSoup(r.text, 'lxml')

script = soup.find('script', text=lambda t: t.startswith('window._sharedData'))
page_json = script.text.split(' = ', 1)[1].rstrip(';')
data = json.loads(page_json)

for post in data['entry_data']['TagPage'][0]['graphql']['hashtag']['edge_hashtag_to_media']['edges']:
    image_src = post['node']['thumbnail_resources'][1]['src']
    print(image_src)

部分输出：

https://instagram.fpnq3-1.fna.fbcdn.net/vp/e8a78407fb61de834cad7f10eca830fc/5A9DC375/t51.2885-15/s240x240/e15/c0.80.640.640/28766397_174603559842180_1092148752455565312_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/3a20f36647c86c2196f259b5d14ebf82/5A9D5BC9/t51.2885-15/s240x240/e15/28433802_283862648812409_3322859933120069632_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/82216be4596dd9da862ba267cdeab517/5B144226/t51.2885-15/s240x240/e35/c0.135.1080.1080/28157436_941679549319762_5605299824451649536_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/e50eab90b2e0951d67922e49b495e1fc/5B3EC9B8/t51.2885-15/s240x240/e35/c135.0.810.810/28754107_179533402825352_1137703808411893760_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/d3a13e7b81a65421b4318b57fb8ee24e/5B4D9EFF/t51.2885-15/s240x240/e35/28433583_375555202918683_1951892035636035584_n.jpg
https://instagram.fpnq3-1.fna.fbcdn.net/vp/1b0aeea1b9be983498192d350e039aa0/5B43C583/t51.2885-15/s240x240/e35/28156427_154249191953160_9219472301039288320_n.jpg
...

注意：第image_src = post['node']['thumbnail_resources'][1]['src']行中的[1]表示240w。可以使用0、1、2、3或4分别表示150w、240w、320w、480w或640w。另外，如果您想要任何其他关于任何图像的数据，比如，喜欢的数量，注释，标题等等；所有的东西都可以在这个JSON（data变量）中获得。在

相关问题更多 >

编程相关推荐

热门问题

热门文章