如何用python从网站中提取传出链接？

3条回答

网友

1楼 · 编辑于 2024-09-29 18:36:09

您可以检查href的前5个字符是否为https来标识：

if href[0:5] == "https":
   #outgoing link
else:
   #incoming link

网友

2楼 · 编辑于 2024-09-29 18:36:09

for link in soup.find_all('a'):
    href = link.attrs.get("href", "")
    if not href.startwith("https://"):
        continue
    
    print(href)

网友

3楼 · 编辑于 2024-09-29 18:36:09

可以使用正则表达式：

for link in soup.findAll('a', attrs={'href': re.compile("^(http|https)://")}):
    href = link.attrs.get("href")
    if href is not None:
        print(href)

编程相关推荐

java与springhibernate使用2种不同的数据库连接
java如何将txt文件读取到未知大小的ArrayList
java如何在没有XML的情况下，基于Spring的属性在运行时注入不同的服务
Windows 10中的java检测虚拟桌面
java与串口通信不稳定
java导出为CSV文件并在浏览器中打开
java在MediaStore中分离来自SD卡和设备内部内存的图像
java如何让spring jpa自动创建关系/表？
java将文件读取权限设置为安卓中的文件
java构建大型文件的动态查询

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何用python从网站中提取传出链接？

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >