尝试使用Beautiful Soup或ElementT从链接的迭代列表中获取信息

from bs4 import BeautifulSoup import requests import re resultsdict = {} companyname = [] url1 = 'http://www.agenzia-interinale.it/sitemap-5.xml' html = requests.get(url1).text bs = BeautifulSoup(html) # find the links to companies company_menu = bs.find_all('loc') for company in company_menu: data = bs.find("html",{"i"}) print data

1条回答

网友

1楼 · 发布于 2024-09-18 16:51:55

你的语法没问题。您只需按照第一页中的链接即可，以下是米兰网页的外观：

from bs4 import BeautifulSoup
import requests
import re

resultsdict = {}
companyname = []
url1 = 'http://www.agenzia-interinale.it/sitemap-5.xml'

html = requests.get(url1).text
bs = BeautifulSoup(html)
company_menu = bs.find_all('loc')
for item in company_menu:
    if 'milano' in item.text:
        subpage = requests.get(item.text)
        subsoup = BeautifulSoup(subpage.text)
        adresses = subsoup.find_all(class_='riquadro_agenzia_off')
        for adress in adresses:
            companyname.append(adress.text)
print companyname

要获取所有地址，只需删除代码中的if'milano'块即可。我不知道它们是否都是按照一致的规则格式化的，因为milano地址在div下，带有^{cl1}$

相关问题更多 >

编程相关推荐

热门问题

热门文章

尝试使用Beautiful Soup或ElementT从链接的迭代列表中获取信息

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >