提取网页中嵌入的JSON

"comment":[ { "@type":"Comment", "text":"Pior operadora de sempre, nunca vi uma internet t\\u00e3o lenta como a vossa, fico feliz em dizer que quando o contrato acabar vou mudar para a Vodafone, \\u00e9 mais barato e tem uma qualidade de net no m\\u00ednimo 10 vezes melhor. Recomendo a todos a vodafone ou at\\u00e9 mesmo a MEO que pode n\\u00e3o ser perfeita mas sempre \\u00e9 melhor que a NOS( o que n\\u00e3o \\u00e9 dif\\u00edcil)", "author":{ "@type":"Person", "alternateName":"@filipe389", "mainEntityofPage":{ "@type":"ProfilePage", "@id":"https:\\/\\/www.instagram.com\\/filipe389\\/" } } }

from selenium import webdriver from bs4 import BeautifulSoup import time import json url = "https://www.instagram.com/p/BxII02-A9wb/" browser = webdriver.Chrome() browser.get(url) time.sleep(5) html = browser.page_source soup = BeautifulSoup(html, 'lxml') insta_data = soup.find_all("script", type="application/ld+json") for contents in insta_data: contents.text jsonData = json.loads(contents.text) results = [] for data in jsonData: if data == "comment": results.append(data) print(results) browser.close()

1条回答

网友

1楼 · 发布于 2024-10-04 05:21:42

如上所述，不需要迭代。但是，如果您正在通过字典创建，并且同时需要键和值，则需要使用.items()：

我不想重复，只是想向您展示您的代码：

from selenium import webdriver
from bs4 import BeautifulSoup
import time
import json

url = "https://www.instagram.com/p/BxII02-A9wb/"
browser = webdriver.Chrome('C:/chromedriver_win32/chromedriver.exe')
browser.get(url)
time.sleep(5)

html = browser.page_source
soup = BeautifulSoup(html, 'lxml')
insta_data = soup.find_all("script", type="application/ld+json")

results = []
for contents in insta_data:
    jsonData = json.loads(contents.text) 

    for key, value in jsonData.items():
        if key == "comment":
            results.append(value)

author = results[0][0]['author']['alternateName']
text = results[0][0]['text']

print ('%s:\n%s' %(author, text))

browser.close()

由于json/dictionary具备您所需的功能，只需使用数据结构的键和索引直接调用您所需的功能：

insta_data = soup.find_all("script", type="application/ld+json")[0]
jsonData = json.loads(insta_data.text) 

author = jsonData['comment'][0]['author']['alternateName']
text = jsonData['comment'][0]['text']

print ('%s:\n%s' %(author, text))

输出：

print ('%s:\n%s' %(author, text))
@filipe389:
Pior operadora de sempre, nunca vi uma internet tão lenta como a vossa, fico feliz em dizer que quando o contrato acabar vou mudar para a Vodafone, é mais barato e tem uma qualidade de net no mínimo 10 vezes melhor. Recomendo a todos a vodafone ou até mesmo a MEO que pode não ser perfeita mas sempre é melhor que a NOS( o que não é difícil)

相关问题更多 >

编程相关推荐

热门问题

热门文章