在不重复已保存数据的情况下擦除数据

for i in urlrange: urlbase = 'https://www.example.com/press-releases/Pages/default.aspx?page=' targeturl = urlbase+str(i) req = requests.get(targeturl) r = req.content soup = BeautifulSoup(r,'lxml') for row in soup.find_all('table', class_='t-press'): for link in row.find_all('a'): link = link.get('href') link = 'https://www.example.com' + link if link not in datalinks: datalinks.append(link) #print('New link found!') else: continue pickling_on = open("links_saved.pkl","wb") pickle.dump(datalinks, pickling_on) pickling_on.close() for j in datalinks: req = requests.get(j) r = req.content soup = BeautifulSoup(r,'lxml') for textdata in soup.find_all('div', class_='content-slim'): textdata = textdata.prettify() data.append({j:textdata}) json_name = "Press_Data_{}.json".format(time.strftime("%d-%m-%y")) with open(json_name,'w') as outfile: json.dump(data,outfile)

2条回答

网友

1楼 · 编辑于 2024-09-30 01:21:26

尝试将链接存储在一个集合中

datalinks = [ ]
unique_links = set(datalinks)

这将删除所有重复的链接，所以现在只有唯一的链接将被处理

网友

2楼 · 编辑于 2024-09-30 01:21:26

尝试以下操作：

listwithdups = [ 'url1', 'url2', 'url3', 'url2', 'url4', 'url4' ]    
uniqueList = [ i for i in listwithdups if i not in uniqueList ]

分解列表：

listwithdups = [ 'url1', 'url2', 'url3', 'url2', 'url4', 'url4' ]    
uniqueList = [] #declaring empty list

for i in listwithdups:
 if i not in uniqueList:
  uniqueList.append(i)

相关问题更多 >

编程相关推荐

热门问题

热门文章