Python网络浏览

r = requests.get('https://www.example.com/example/example') data = BeautifulSoup(r.content) example1 = data.find_all("class_="example2") examples = [] for example in example1: examples.append(link.get('href'))

3条回答

网友

1楼 · 编辑于 2024-06-01 10:00:13

在没有浏览器的情况下，很难获得动态（基于JavaScript）网站的完整副本，这就是为什么获得此类副本最简单的方法是使用浏览器。在

您可以查看PhantomJS和{a2}来控制浏览器并下载HTML，或者只使用^{}运行PhantomJS。在

下载网站内容的非常简单的PhantomJS脚本：

"use strict";
var fs = require('fs');
var system = require('system');
var webpage = require('webpage');
if (system.args.length != 2) {
    console.log('Usage: gethtml.js <url>');
    phantom.exit(1);
} else {
    var url = system.args[1];
    var page = webpage.create();
    page.open(url, function(status) {
        if (status !== 'success') {
            phantom.exit(2);
        }
        setTimeout(function() {
            console.log(page.content);
            phantom.exit();
        }, 500);
    });
}

这将在“下载”之前等待500毫秒，这取决于站点和internet连接这是不够的或太多了，您可以通过使用onResourceReceived回调等待PhantomJS停止下载数据X秒来改进它。在

网友

2楼 · 编辑于 2024-06-01 10:00:13

也许不是最好的解决方案，但是如果你只想解析链接，这里是我的2美分。在

import requests
from BeautifulSoup import BeautifulSoup
r = requests.get('http://www.examples.com')
data = BeautifulSoup(r.content)
examples = []
for d in data.findAll('a'):
    examples.append(d)

当然，您可以搜索类，例如：

^{pr2}$

网友

3楼 · 编辑于 2024-06-01 10:00:13

您的代码错误且毫无意义：

r = requests.get('https://www.example.com/example/example')
data = BeautifulSoup(r.content)
aes = data.find_all("class_="example2") 
result = []
for a in aes:
    result.append(a.attrs['href'])

相关问题更多 >

编程相关推荐

热门问题

热门文章