靓汤嵌套div（增加额外功能）

import requests from bs4 import BeautifulSoup def trade_spider(max_pages): page = 1 while page <= max_pages: url = 'http://www.quicktransportsolutions.com/carrier/missouri/adrian.php' source_code = requests.get(url) plain_text = source_code.text soup = BeautifulSoup(plain_text) for link in soup.findAll('div', {'class': 'well well-sm'}): title = link.string print(link) trade_spider(1)

div class="well well-sm"> 2 OLD BOYS TRUCKING LLC <a href="/truckingcompany/missouri/2-old-boys-trucking-usdot-2474795.php" itemprop="url" target="_blank" title="Missouri Trucking Company 2 OLD BOYS TRUCKING ADRIAN">2 OLD BOYS TRUCKING</a> <a href="http://maps.google.com/maps?q=227+E+2ND,ADRIAN,MO+64720&ie=UTF8&z=8&iwloc=addr" target="_blank">227 E 2ND</a> Adrian, MO 64720 Trucks: 2 Drivers: 2 <abbr class="initialism" title="Unique Number to identify Companies operating commercial vehicles to transport passengers or haul cargo in interstate commerce">USDOT</abbr> 2474795 417-955-0651 <a href="/inspectionreports/2-old-boys-trucking-usdot-2474795.php" itemprop="url" target="_blank" title="Trucking Company 2 OLD BOYS TRUCKING Inspection Reports">

def Crawl_State_Page(max_pages): url = 'http://www.quicktransportsolutions.com/carrier/alabama/trucking-companies.php' while i <= len(url): response = requests.get(url) soup = BeautifulSoup(response.content) table = soup.find("table", {"class" : "table table-condensed table-striped table-hover table-bordered"}) for link in table.find_all(href=True): print link['href'] Output: abbeville.php adamsville.php addison.php adger.php akron.php alabaster.php alberta.php albertville.php alexander-city.php alexandria.php aliceville.php alpine.php ... # goes all the way to Z I cut the output short for spacing..

1条回答

网友

1楼 · 发布于 2024-09-27 17:39:25

我将依赖于每个公司不同标记的itemprop属性。它们可以方便地设置为name、url、address等：

import requests
from bs4 import BeautifulSoup

def trade_spider(max_pages):
    page = 1
    while page <= max_pages:
        url = 'http://www.quicktransportsolutions.com/carrier/missouri/adrian.php'
        response = requests.get(url)
        soup = BeautifulSoup(response.content)
        for company in soup.find_all('div', {'class': 'well well-sm'}):
            link = company.find('a', itemprop='url').get('href').strip()
            name = company.find('span', itemprop='name').text.strip()
            address = company.find('span', itemprop='address').text.strip()

            print name, link, address
            print "  "

trade_spider(1)

印刷品：

^{pr2}$

相关问题更多 >

编程相关推荐

热门问题

热门文章