循环自动从几个页面删除数据

import requests from bs4 import BeautifulSoup link=("https://ogloszenia.trojmiasto.pl/nieruchomosci-mam-do-wynajecia/wi,100.html?strona=1") page = requests.get(link).text link1=("https://ogloszenia.trojmiasto.pl/nieruchomosci-mam-do-wynajecia/wi,100.html?strona=2") page1 = requests.get(link1).text link2=("https://ogloszenia.trojmiasto.pl/nieruchomosci-mam-do-wynajecia/wi,100.html?strona=3") page2 = requests.get(link2).text pages=page+page1+page2+page3+page4+page5+page6 soup = BeautifulSoup(pages, 'html.parser') price_box = soup.findAll('p', attrs={'class':'list__item__details__info details--info--price'}) prices=[] for i in range(len(price_box)): prices.append(price_box[i].text.strip()) prices

1条回答

网友

1楼 · 发布于 2024-09-30 05:26:56

Python对空格敏感，因此任何循环的代码块都需要缩进，如下所示：

for i in range (1,npages+1):
    link=baselink+str(i)
    page = requests.get(link).text

如果希望所有页面都包含在一个字符串中（因此可以使用与上面pages变量相同的方法），可以将字符串附加到循环中：

pages = ""
for i in range (1,npages+1):
    link=baselink+str(i)
    pages += requests.get(link).text

要使用结果创建csv文件，可以查看python内置的csv module中的csv.writer（）方法，但我通常发现使用print（）写入文件更容易：

with open(samplefilepath, mode="w+") as output_file:
    for price in prices:
        print(price, file=output_file)

w+告诉python如果文件不存在，则创建该文件；如果文件确实存在，则覆盖该文件a+将附加到现有文件（如果存在）

相关问题更多 >

编程相关推荐

热门问题

热门文章