擅长:python、mysql、java
<p>更多的是旁白,但您可以使用或CSS选择器语法来组合pdf、docx等。注意,您仍然需要完成一些路径,例如带有前缀<code>"http://www.soc.napier.ac.uk/~40009856/CW/"</code>。下面将<a href="https://developer.mozilla.org/en-US/docs/Web/CSS/Attribute_selectors" rel="nofollow noreferrer">attribute = value</a>css选择器语法与$operator一起使用(这意味着属性字符串的值以结尾)</p>
<pre><code>from bs4 import BeautifulSoup
import requests
url= 'http://www.soc.napier.ac.uk/~40009856/CW/'
res = requests.get(url)
soup = BeautifulSoup(res.content, 'lxml')
items = soup.select("[href$='.docx'], [href$='.pdf'], img[src]")
print([item['href'] if 'href' in item.attrs.keys() else item['src'] for item in items])
</code></pre>