我试图从一个输入的URL中获取链接,但它只适用于一个URL(http://www.businessinsider.com)。它怎样才能适应从输入的任何url中抓取?我用的是美颜素,但刮胡子更适合这个吗?在
def WebScrape():
linktoenter = input('Where do you want to scrape from today?: ')
url = linktoenter
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html, "lxml")
if linktoenter in url:
print('Retrieving your links...')
links = {}
n = 0
link_title=soup.findAll('a',{'class':'title'})
n += 1
links[n] = link_title
for eachtitle in link_title:
print(eachtitle['href']+","+eachtitle.string)
else:
print('Please enter another Website...')
您可以制作一个更通用的scraper,搜索所有标记和这些标记中的所有链接。一旦有了所有链接的列表,就可以使用正则表达式或类似表达式来查找与所需结构匹配的链接。在
代码:
输出:
^{pr2}$相关问题 更多 >
编程相关推荐