我已经编写了从给定站点提取所有url的代码,但问题是有些url是重复的,我希望它是一个具有唯一url的列表。你知道吗
from bs4 import BeautifulSoup
from termcolor import colored
import re, os
import requests
url = 'http://example.com'
ext = 'html'
count=0
countfiles=0
files=[]
def ulist(x):
return list(dict.fromkeys(x))
def listFD(filename, ext=''):
print filename
print url
if filename == url:
page = requests.get(url).text
else:
page = requests.get(url + filename).text
soup = BeautifulSoup(page, 'html.parser')
return ['/' + node.get('href') for node in soup.find_all('a') if node.get('href').endswith(ext)]
for file in ulist(listFD(url, ext)):
for unfile in ulist(listFD(file, ext)):
print unfile
一旦有了URL列表,就可以使用set获得唯一元素和列表:
你可以采取以下行动:
只需使用python的内置set功能包装您的列表:
相关问题 更多 >
编程相关推荐