什么是最好的方式来刮这个网站？（非硒）

from bs4 import BeautifulSoup import requests import re query = input("Input a search: ") link = 'https://rarbgmirror.com/torrents.php?search=' + query magnets = [] titles = [] try: request = requests.get(link) except: print("ERROR") source = request.text soup = BeautifulSoup(source, 'lxml') for page_link in soup.findAll('a', attrs={'href': re.compile("^/torrent/")}): page_link = 'https://www.1377x.to/' + page_link.get('href') try: page_request = requests.get(page_link) except: print("ERROR") page_source = page_request.content page_soup = BeautifulSoup(page_source, 'lxml') link = page_soup.find('a', attrs={'href': re.compile("^magnet")}) magnets.append(link.get('href')) title = page_soup.find('h1') titles.append(title) print(titles) print(magnets)

2条回答

网友
1楼 · 编辑于 2024-10-01 00:33:00

工作解决方案 寻求答案的人免责声明：此方法不适用于RARBG以外的任何网站
我把同样的问题贴到reddit的r/learnpython上，那里有人找到了一个很好的答案，满足了我的所有要求。您可以找到原始注释here
他发现rarbg是从here获得信息的
您可以通过更改链接中的“查询”来更改搜索者。在那个页面上有每个torrent的所有信息，所以使用请求和bs4我收集了所有信息
以下是工作代码：
query = input("Input a search: ") rarbg_link = 'https://torrentapi.org/pubapi_v2.php?mode=search&search_string=' + query + '&token=lnjzy73ucv&format=json_extended&app_id=lol' try: request = requests.get(rarbg_link, headers={'User-Agent': 'Mozilla/5.0'}) except: print("ERROR") source = request.text soup = str(BeautifulSoup(source, 'lxml')) soup = soup.replace('<html><body><p>{"torrent_results":[', '') soup = soup.split(',') titles = str([i for i in soup if i.startswith('{"title":')]) titles = titles.replace('{"title":"', '') titles = titles.replace('"', '') titles = titles.split("', '") for title in titles: title.append(titles) links = str([i for i in soup if i.startswith('"download":')]) links = links.replace('"download":"', '') links = links.replace('"', '') links = links.split("', '") for link in links: magnets.append(link)

网友
2楼 · 编辑于 2024-10-01 00:33:00

如果你只使用Chrome，你可以通过谷歌查看Puppeteer。它速度快，并且与Chrome开发工具集成得很好

相关问题更多 >

编程相关推荐

热门问题

热门文章