尝试使用Beautiful Soup或ElementT从链接的迭代列表中获取信息

2024-09-18 16:51:55 发布

您现在位置:Python中文网/ 问答频道 /正文

我正试图为these addresses获取一个xml database链接列表。(第二个链接是一个示例页面,实际上包含一些地址。很多链接都没有。)

我可以检索到我想要爬过的初始链接的列表,但是我似乎不能进一步提取我要查找的最终信息(地址)。在

我假设我的语法有一个错误,我试着用beautifulsoup和Python附带的库来删除它,但它不起作用。在

B组:

from bs4 import BeautifulSoup
import requests
import re

resultsdict = {}
companyname = []
url1 = 'http://www.agenzia-interinale.it/sitemap-5.xml'

html = requests.get(url1).text
bs = BeautifulSoup(html)
# find the links to companies
company_menu = bs.find_all('loc')
for company in company_menu:
    data = bs.find("html",{"i"})
    print data

非第三方:

^{pr2}$

欢迎任何意见!谢谢。在


Tags: import列表databs链接地址htmlxml
1条回答
网友
1楼 · 发布于 2024-09-18 16:51:55

你的语法没问题。您只需按照第一页中的链接即可,以下是米兰网页的外观:

from bs4 import BeautifulSoup
import requests
import re

resultsdict = {}
companyname = []
url1 = 'http://www.agenzia-interinale.it/sitemap-5.xml'

html = requests.get(url1).text
bs = BeautifulSoup(html)
company_menu = bs.find_all('loc')
for item in company_menu:
    if 'milano' in item.text:
        subpage = requests.get(item.text)
        subsoup = BeautifulSoup(subpage.text)
        adresses = subsoup.find_all(class_='riquadro_agenzia_off')
        for adress in adresses:
            companyname.append(adress.text)
print companyname

要获取所有地址,只需删除代码中的if'milano'块即可。我不知道它们是否都是按照一致的规则格式化的,因为milano地址在div下,带有^{cl1}$

相关问题 更多 >