Python：如何实现并行化处理

['https://www.avito.ru/moskva/avtomobili/bmw_x5_2016_840834845', 'https://www.avito.ru/moskva/avtomobili/bmw_1_seriya_2016_855898883', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_853351780', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641142', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641140', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_853351780', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641134', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641141']

def get_page(url): m = re.search(r'avito.ru\/[a-z]+\/avtomobili\/[a-z0-9_]+$', url) if m is not None: url = 'https://www.' + url print url proxy = pd.read_excel('proxies.xlsx') proxies = proxy.proxy.values.tolist() for i, proxy in enumerate(proxies): print "Trying HTTP proxy %s" % proxy try: result = urllib.urlopen(url, proxies={'http': proxy}).read() if 'Мы обнаружили, что запросы, поступающие с вашего IP-адреса, похожи на автоматические' in result: raise Exception else: page = page.read() soup = BeautifulSoup(page, 'html.parser') price = soup.find('span', itemprop="price") print price except: print "Trying next proxy %s in 10 seconds" % proxy time.sleep(10) if __name__ == '__main__': pool = Pool(processes=8) pool.map(get_page, urls)

1条回答

网友

1楼 · 发布于 2024-09-26 17:53:22

这样做或许会有帮助：

def get_page(url):
m = re.search(r'avito.ru\/[a-z]+\/avtomobili\/[a-z0-9_]+$', url)
if m is not None:
    url = 'https://www.' + url
    print url
    proxy = pd.read_excel('proxies.xlsx')
    proxies = proxy.proxy.values.tolist()
    for i, proxy in enumerate(proxies):
        thread.start_new_thread( run, (proxy,i ) )

def run(proxy,i):
    print "Trying HTTP proxy %s" % proxy
    try:
        result = urllib.urlopen(url, proxies={'http': proxy}).read()
        if 'Мы обнаружили, что запросы, поступающие с вашего IP-адреса, похожи на автоматические' in result:
                raise Exception
        else:
            page = page.read()
            soup = BeautifulSoup(page, 'html.parser')
            price = soup.find('span', itemprop="price")
            print price
    except:
        print "Trying next proxy %s in 10 seconds" % proxy
            time.sleep(10)

if __name__ == '__main__':
    pool = Pool(processes=8)
    pool.map(get_page, urls)

相关问题更多 >

编程相关推荐

热门问题

热门文章