具有超时、最大大小和连接池的http请求

import urllib2 import json r = urllib2.urlopen('https://github.com/timeline.json', timeout=5) content = r.read(100+1) if len(content) > 100: print 'too large' r.close() else: print json.loads(content) r = urllib2.urlopen('https://github.com/timeline.json', timeout=5) content = r.read(100000+1) if len(content) > 100000: print 'too large' r.close() else: print json.loads(content)

import requests r = requests.get('https://github.com/timeline.json', timeout=5, stream=True) r.headers['content-length'] # does not exists for this request, and not safe content = r.raw.read(100000+1) print content # ARF this is gzipped, so not the real size print json.loads(content) # content is gzipped so pretty useless print r.json() # Does not work anymore since raw.read was used

r = requests.get('https://github.com/timeline.json', stream=True) size = 0 ctt = StringIO() for chunk in r.iter_content(2048): size += len(chunk) ctt.write(chunk) if size > maxsize: r.close() raise ValueError('Response too large') content = ctt.getvalue()

1条回答

网友

1楼 · 发布于 2024-05-17 08:21:17

您可以使用requests来完成这项工作，但是您需要知道raw对象是urllib3内脏的一部分，并使用^{} call支持的额外参数，该参数允许您指定要读取解码的数据：

import requests
r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)

content = r.raw.read(100000+1, decode_content=True)
if len(content) > 100000:
    raise ValueError('Too large a response')
print content
print json.loads(content)

或者，可以在读取之前设置raw对象上的decode_content标志：

import requests
r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)

r.raw.decode_content = True
content = r.raw.read(100000+1)
if len(content) > 100000:
    raise ValueError('Too large a response')
print content
print json.loads(content)

如果您不喜欢像这样触及urllib3的内脏，可以使用^{}来迭代块中的解码内容；这也使用底层的HTTPResponse（使用^{} generator version：

import requests

r = requests.get('https://github.com/timeline.json', timeout=5, stream=True)

maxsize = 100000
content = ''
for chunk in r.iter_content(2048):
    content += chunk
    if len(content) > maxsize:
        r.close()
        raise ValueError('Response too large')

print content
print json.loads(content)

这里处理压缩数据大小的方式有细微的差别；r.raw.read(100000+1)将只读取100k字节的压缩数据；未压缩数据将根据您的最大大小进行测试。iter_content()方法将读取更多未压缩数据在极少情况下，压缩流比未压缩数据大。

两种方法都不允许r.json()工作；这些方法不设置response._content属性；当然，您可以手动设置。但是由于.raw.read()和.iter_content()调用已经允许您访问所讨论的内容，因此实际上没有必要。

相关问题更多 >

编程相关推荐

热门问题

热门文章