使用Python Mechaniz下载图像

def followLink(browser, fixedLink): browser.open(fixedLink) if browser.find_link(url_regex = r'1600x1200'): browser.follow_link(url_regex = r'1600x1200') elif browser.find_link(url_regex = r'1400x1050'): browser.follow_link(url_regex = r'1400x1050') elif browser.find_link(url_regex = r'1280x960'): browser.follow_link(url_regex = r'1280x960') return

3条回答

网友

1楼 · 编辑于 2024-05-20 15:47:16

不知道为什么还没有找到这个解决方案，但是也可以使用mechanize.Browser.retrieve函数。也许这只适用于较新版本的mechanize，因此没有被提及？

无论如何，如果您想将the answer缩短为zhangyangyu，您可以这样做：

import mechanize, os
from BeautifulSoup import BeautifulSoup

browser = mechanize.Browser()
html = browser.open(url)
soup = BeautifulSoup(html)
image_tags = soup.findAll('img')
for image in image_tags:
    filename = image['src'].lstrip('http://')
    filename = os.path.join(dir, filename.replace('/', '_'))
    browser.retrieve(image['src'], filename)
    browser.back()

还请记住，您可能希望将所有这些都放入像这样的tryexcept块中：

import mechanize, os
from BeautifulSoup import BeautifulSoup

browser = mechanize.Browser()
html = browser.open(url)
soup = BeautifulSoup(html)
image_tags = soup.findAll('img')
for image in image_tags:
    filename = image['src'].lstrip('http://')
    filename = os.path.join(dir, filename.replace('/', '_'))
    try:
        browser.retrieve(image['src'], filename)
        browser.back()
    except (mechanize.HTTPError,mechanize.URLError) as e:
        pass
        # Use e.code and e.read() with HTTPError
        # Use e.reason.args with URLError

你当然要根据自己的需要来调整。也许你想让它在遇到问题时爆炸。这完全取决于你想要实现什么。

网友

2楼 · 编辑于 2024-05-20 15:47:16

import mechanize, os
from BeautifulSoup import BeautifulSoup

browser = mechanize.Browser()
html = browser.open(url)
soup = BeautifulSoup(html)
image_tags = soup.findAll('img')
for image in image_tags:
    filename = image['src'].lstrip('http://')
    filename = os.path.join(dir, filename.replace('/', '_'))
    data = browser.open(image['src']).read()
    browser.back()
    save = open(filename, 'wb')
    save.write(data)
    save.close()

这可以帮助您从网页下载所有图像。至于解析html，最好使用BeautifulSoup或lxml。而下载只是读取数据，然后将其写入本地文件。你应该给dir赋值。它是你想象的存在的地方。

网友

3楼 · 编辑于 2024-05-20 15:47:16

您可以通过打开img src的url来获取/下载图像。

image_response = browser.open_novisit(img['src'])

要立即保存文件，只需使用fopen：

with open('image_out.png', 'wb') as f:
    f.write(image_response.read())

相关问题更多 >

编程相关推荐

热门问题

热门文章