获取源html（python）中的所有链接站点

def get_next_target(page): start_link = page.find('<a href=') start_quote = page.find('"', start_link) end_quote = page.find('"', start_quote + 1) url = page[start_quote + 1:end_quote] return url, end_quote

3条回答

网友

1楼 · 编辑于 2024-09-28 22:07:34

您可以使用lxml进行此操作：

 import lxml.html

 def get_all_links(page):
     document = lxml.html.parse(page)
     return document.xpath("//a")

网友

2楼 · 编辑于 2024-09-28 22:07:34

这就是HTML解析器派上用场的地方。我推荐^{}：

from bs4 import BeautifulSoup as BS
def get_next_target(page)
    soup = BS(page)
    return soup.find_all('a', href=True)

网友

3楼 · 编辑于 2024-09-28 22:07:34

site = urllib.urlopen('http://somehwere/over/the/rainbow.html')
site_data = site.read()
for link in BeautifulSoup(site_data, parseOnlyThese=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])

编程相关推荐

java SUN次要代码309含义
java避免为空元素生成XML自关闭标记，并生成自定义的<XML>开始标记
java使用json和restful将数组数据从本地sqlite数据库插入SQL Server
java Spring Boot 1.5.9字符编码问题
LInkedIn讨论中的java 401错误
位图Java：检查多个位向量/位集是否相交的最快方法？
macos如何让Java应用程序以图标出现在Mac OS X dock中
java如何删除netbeans中的@SuppressWarnings（“未使用的”）？
apachestorm中的java自定义序列化
java可以退出代码还是应该终止main？

相关问题更多 >

编程相关推荐

热门问题

热门文章

获取源html（python）中的所有链接站点

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >