来自http流的非阻塞读/日志

3条回答

网友

1楼 · 编辑于 2024-05-02 11:31:23

嘿，三个问题合一！；-）

它有时会阻塞—即使您的服务器生成数据非常快，网络瓶颈理论上也可能导致您的读取阻塞。

使用“for dat in req”读取URL数据意味着一次读取一行数据——如果您读取的是二进制数据，例如图像，则不是真正有用的。如果你使用

chunk = req.read(size)

当然可以堵住。

这是否是最好的方法取决于你问题中没有的细节。例如，如果需要在运行时不使用任何阻塞调用，则需要考虑像Twisted这样的框架。如果你不想阻止你，也不想使用Twisted（这是一个全新的范例，与阻止方式做的事情相比），那么你可以旋转一个线程来读写文件，而你的主线程继续其快乐的方式：

def func(req):
    #code the read from URL stream and write to file here

...

t = threading.Thread(target=func)
t.start() # will execute func in a separate thread
...
t.join() # will wait for spawned thread to die

很明显，我忽略了错误检查/异常处理等，但希望这足以给您提供图片。

网友

2楼 · 编辑于 2024-05-02 11:31:23

您使用的接口级别太高，无法很好地控制诸如阻塞和缓冲块大小之类的问题。如果您不愿意一直使用异步接口（在这种情况下，twisted，已经建议了，很难打败！），为什么不httplib，毕竟它在标准库中？HTTPResponse实例.read(amount)方法比urlopen返回的对象上的类似方法更可能阻塞不超过读取amount字节所需的时间（尽管不可否认，两个模块上都没有关于该方法的文档说明，hmmm…）。

网友

3楼 · 编辑于 2024-05-02 11:31:23

另一种选择是直接使用socket模块。建立连接，发送HTTP请求，将套接字设置为非阻塞模式，然后使用socket.recv()处理“Resource temporary unavailable”异常读取数据（这意味着没有要读取的内容）。一个非常粗略的例子是：

import socket, time

BUFSIZE = 1024

s = socket.socket()
s.connect(('localhost', 1234))
s.send('GET /path HTTP/1.0\n\n')
s.setblocking(False)

running = True

while running:
    try:
        print "Attempting to read from socket..."
        while True:
            data = s.recv(BUFSIZE)
            if len(data) == 0:      # remote end closed
                print "Remote end closed"
                running = False
                break
            print "Received %d bytes: %r" % (len(data), data)
    except socket.error, e:
        if e[0] != 11:      # Resource temporarily unavailable
            print e
            raise

    # perform other program tasks
    print "Sleeping..."
    time.sleep(1)

但是，urllib.urlopen()有一些好处，如果web服务器重定向，您需要基于URL的基本身份验证等。您可以使用select模块，它将告诉您何时有数据要读取。

相关问题更多 >

编程相关推荐

热门问题

热门文章