目标是抓取链接的PDF文件和链接标题。所有链接都应该存储在{“title”:“link”}这样的字典中
我的代码正在查找PDF文件链接,但是标题行不起作用。只存储最后一个标题列表,字典是空的。 谢谢你的建议。在
import requests
from bs4 import BeautifulSoup
import re
from urllib.parse import urljoin
url = "http://www.staff.uni-giessen.de/partosch/unterlagen/"
r = requests.get(url, verify=True)
soup = BeautifulSoup(r.text, "html.parser")
links = soup.findAll('a', attrs={'href': re.compile("pdf")})
#example link
#<a href="Erstellen-Formular2007.pdf" title="Erstellen barrierearmer PDF-Formulare">Erstellen barrierearmer PDF-Formulare</a>
#print(soup)
linklist = []
titlelist = []
pdflist = {}
for link in links:
crawledlinks = linklist.append(urljoin(url, link.get('href')))
title = titlelist.append(link.get('title'))
pdflist[title] = crawledlinks
#print(linklist)
#print(titlelist)
#print(pdflist)
PDF列表是页面上的第六个
ul
:输出:
^{pr2}$编辑:
如果您试图清除所有链接:
输出:
相关问题 更多 >
编程相关推荐