如何使用Python、Selenium和PhantomJ下载文件

... url = 'http://www.foo.com/api/index' data = urllib.parse.urlencode({ 'foopara': 'cadbrabar', }).encode('utf-8') headers = {} for cookie in driver.get_cookies(): headers[cookie['name']] = cookie['value'] req = urllib.request.Request(url, data, headers) with urllib.request.urlopen(req) as response: page = response.read() driver.close()

3条回答

网友

1楼 · 编辑于 2024-05-20 14:37:24

如果您要下载的按钮具有文件链接，则可以使用python代码测试下载，因为PhantonJs本身不支持下载。因此，如果下载按钮不提供文件链接，则无法进行测试。

要使用文件链接和phyton（断言文件存在）进行测试，可以遵循以下主题。由于我是一个C#开发人员和测试人员，我不知道用python编写代码而不出错的更好方法，但我相信您可以：

Basic http file downloading and saving to disk in python?

网友

2楼 · 编辑于 2024-05-20 14:37:24

我最近使用Selenium来利用ChromeDriver从web下载一个文件。这是因为Chrome会自动下载文件并将其存储在下载文件中。这比使用幻影更容易。

我建议研究使用含硒的ChromeDriver，并遵循以下路线：https://github.com/SeleniumHQ/selenium/wiki/ChromeDriver

编辑-正如下面指出的，我忽略了如何设置ChromeDriver以在无头模式下运行。这里有更多信息：http://www.chrisle.me/2013/08/running-headless-selenium-with-chrome/

或： https://gist.github.com/chuckbutler/8030755

网友

3楼 · 编辑于 2024-05-20 14:37:24

我找到了一个解决方案，想和大家分享。有一个需求改变了，我不再使用PhantomJS，而是使用chromedriver，它在虚拟帧缓冲区中无头工作。同样的结果也能完成任务。

你需要的是：

pip install selenium pyvirtualdisplay

apt-get install xvfb

下载ChromeDriver

我使用Py3.5和ovh.net中的一个测试文件，其中包含一个标记，而不是一个按钮。脚本等待页面上出现，然后单击它。如果您不等待该元素并且位于异步站点上，则您尝试单击的元素可能还不存在。下载位置是相对于脚本位置的文件夹。如果文件已下载，脚本将检查该目录，并再次延迟。如果我没有错，那么在下载过程中文件应该是.part，一旦它成为filename中指定的.dat，脚本就会完成。如果在下载无法完成之前关闭虚拟帧缓冲区和驱动程序。完整的脚本如下：

# !/usr/bin/python
# coding: utf-8

import os
import sys
import time
from pyvirtualdisplay import Display
from selenium import webdriver
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import glob


def main(argv):
    url = 'http://ovh.net/files'
    dl_dir = 'downloads'
    filename = '1Mio.dat'

    display = Display(visible=0, size=(800, 600))
    display.start()

    chrome_options = webdriver.ChromeOptions()
    dl_location = os.path.join(os.getcwd(), dl_dir)

    prefs = {"download.default_directory": dl_location}
    chrome_options.add_experimental_option("prefs", prefs)
    chromedriver = "./chromedriver"
    driver = webdriver.Chrome(executable_path=chromedriver, chrome_options=chrome_options)

    driver.set_window_size(800, 600)
    driver.get(url)
    WebDriverWait(driver, 30).until(EC.presence_of_element_located((By.XPATH, '//a[@href="' + filename + '"]')))

    hyperlink = driver.find_element_by_xpath('//a[@href="' + filename + '"]')
    hyperlink.click()

    while not(glob.glob(os.path.join(dl_location, filename))):
        time.sleep(1)

    driver.close()
    display.stop()

if __name__ == '__main__':
    main(sys.argv)

我希望这对将来的人有帮助。

相关问题更多 >

编程相关推荐

热门问题

热门文章