当我使用beautifulsoup时,从href返回以下代码。你知道吗
"/url?q=http://druid8.sit.aau.dk/acc_papers/kdln4ccpef78ielqg01fuabr81s1.pdf&sa=U&ei=HkNsUauqN_GQiAf5p4CwDg&ved=0CDkQFjAJ&usg=AFQjCNGk0DTzu2K2ieIKS-SXAeS5-VYTgA"
什么是最简单的方法来削减只有http://。。。。pdf以便我可以下载文件?你知道吗
for link in soup.findAll('a'):
try:
href = link['href']
if re.search(re.compile('\.(pdf)'), href):
print href
except KeyError:
pass
他们的表现如何?你知道吗
如果没有正则表达式就行了。这也可以做到:
它们似乎都在我的交互终端上工作:
你也可以用这个正则表达式:
一个更具python风格的方法是
urlparse
库:它给出:
如果您使用的是python3,synatax会略有不同,上面显示的是python2.7版本。如果你也喜欢其他的参数,这真的很好,例如:
相关问题 更多 >
编程相关推荐