如何列出给定域中的唯一URL

2024-10-04 07:34:16 发布

男 | 程序猿一只，喜欢编程写python代码。

我已经编写了从给定站点提取所有url的代码，但问题是有些url是重复的，我希望它是一个具有唯一url的列表。你知道吗

from bs4 import BeautifulSoup
from termcolor import colored
import re, os

import requests

url = 'http://example.com'
ext = 'html'
count=0
countfiles=0
files=[]
def ulist(x):
  return list(dict.fromkeys(x))



def listFD(filename, ext=''):
  print filename
  print url
  if filename == url:
      page = requests.get(url).text
  else:
      page = requests.get(url + filename).text

  soup = BeautifulSoup(page, 'html.parser')
  return ['/' + node.get('href') for node in soup.find_all('a') if node.get('href').endswith(ext)]



for file in ulist(listFD(url, ext)):
   for unfile in ulist(listFD(file, ext)):
    print unfile

Tags： in from import node url for get page

3条回答

网友

1楼 · 编辑于 2024-10-04 07:34:16

一旦有了URL列表，就可以使用set获得唯一元素和列表：

unique_urls = [url for url in set(urls)]

网友

2楼 · 编辑于 2024-10-04 07:34:16

你可以采取以下行动：

urls = list(set(urls))

网友

3楼 · 编辑于 2024-10-04 07:34:16

只需使用python的内置set功能包装您的列表：

urls = ['www.google.com', 'www.google.com', 'www.facebook.com']
unique_urls = list(set(urls))
print(unique_urls)  # prints >> ['www.facebook.com', 'www.google.com']

如何列出给定域中的唯一URL

相关问题更多 >

编程相关推荐

热门问题

热门文章

如何列出给定域中的唯一URL

相关问题 更多 >

编程相关推荐

热门问题

热门文章

相关问题更多 >