靓汤更好的方式来刮取标签上的特定元素

u', function($scope, $filter) {\n $scope.retailers = [{"licensenumber":"414876","name":"MAIN STREET MARIJUANA","city":"VANCOUVER","county":"CLARK","year":2017,"month":5,"sales":41170232.357500,"tax":14971101.020000,"recentSales":1374866.000000,"recentTax":508700.000000,"monthName":"May"}, ...

1条回答

网友

1楼 · 发布于 2024-09-29 07:33:01

因为这实际上不是您想要解析的HTML，而是JavaScript代码，所以我要么使用JavaScript解析器，比如^{}，要么使用一个正则表达式：

import json
import re

import requests


url = "https://502data.com/retailers"
response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36'})

pattern = re.compile(r"\$scope\.retailers = (\[.*?\]);")

match = pattern.search(response.text)
data = json.loads(match.group(1))
for item in data:
    print(item["name"])

这里的括号表示"capturing group"，反斜杠用于转义字符。在

请注意，我直接对页面源应用表达式，而根本没有使用BeautifulSoup。不过，我们可以使用它来定位这个script元素，然后将表达式应用于script元素的文本。在

相关问题更多 >

编程相关推荐

热门问题

热门文章