如何刮多页的麻烦与循环？

import requests from pandas import DataFrame import numpy as np import pandas as pd from bs4 import BeautifulSoup page_sc = requests.get('https://www.rlsnet.ru/mkb_index_id_1.htm') soup_sc = BeautifulSoup(page_sc.content, 'html.parser') items_sc = soup_sc.find_all(class_='subcatlist__item') mkb_names_sc = [item_sc.find(class_='subcatlist__link').get_text() for item_sc in items_sc] mkb_stuff_sce = pd.DataFrame( { 'first': mkb_names_sc, }) mkb_stuff_sce.to_csv('/Users/gfidarov/Desktop/Python/MKB/mkb.csv')

2条回答

网友

1楼 · 编辑于 2024-10-05 15:21:46

我的方法很简单。我只是在循环上面的代码。你知道吗

for i in range(1,11001):

    page_sc = requests.get('https://www.rlsnet.ru/mkb_index_id_{}.htm'.format(i))

    soup_sc = BeautifulSoup(page_sc.content, 'html.parser')
    items_sc = soup_sc.find_all(class_='subcatlist__item')
    mkb_names_sc = [item_sc.find(class_='subcatlist__link').get_text() for item_sc in items_sc]
    mkb_stuff_sce = pd.DataFrame(
        {
            'first': mkb_names_sc,
        })
    mkb_stuff_sce.to_csv('/Users/gfidarov/Desktop/Python/MKB/mkb.csv')

我所做的是使用for循环遍历代码，range()函数正在生成index列表，我使用format()方法将其放置在url中。你知道吗

这应该很有魅力。希望这有帮助：）

网友

2楼 · 编辑于 2024-10-05 15:21:46

您可以像这样动态地创建url字符串。您可能还希望在循环的每一个其他迭代中使用一个定时延迟，以避免被服务器阻塞。你知道吗

import requests
from pandas import DataFrame
import numpy as np
import pandas as pd
from bs4 import BeautifulSoup


path_of_csv = '/Users/gfidarov/Desktop/Python/MKB/mkb.csv'

first_string = 'https://www.rlsnet.ru/mkb_index_id_'
third_string = '.htm'

df = pd.DataFrame(columns=['scraping results'])

try:
    for second_string in range(1, 11001):
        second_string = str(second_string)
        url = first_string + second_string + third_string
        page_sc = requests.get(url)
        soup_sc = BeautifulSoup(page_sc.content, 'html.parser')
        items_sc = soup_sc.find_all(class_='subcatlist__item')
        mkb_names_sc = [item_sc.find(class_='subcatlist__link').get_text() for item_sc in items_sc]
        df.append({'scraping results': mkb_names_sc}, ignore_index=True)

    df.to_csv(
        path_or_buf=path_of_csv
    )

except:
    # If it fails in the middle of the process, the results won't be lost
    path_of_csv = 'backup_' + path_of_csv
    df.to_csv(
        path_or_buf=path_of_csv 
    )
    print('Failed at index ' + second_string + '. Please start from here again by setting the beginning of the range to this index. A backup was made of the results that were already scraped. You may want to rename the backup to avoid overwriting in the next run.')

相关问题更多 >

编程相关推荐

热门问题

热门文章