从网站上抓取电话号码时遇到问题

2024-09-28 01:27:25 发布

您现在位置:Python中文网/ 问答频道 /正文

所以我一直在尝试从一个房产交易网站(出租/购买房屋、公寓等)中提取每一个电话号码

其中有很多类别(城市、房产类型)和广告。每当你输入广告时,底部显然会有更多的图片、描述和电话号码

这就是有问题的网站。 https://www.nekretnine.rs/

我写了一个python脚本,应该可以提取这些电话号码,但它什么也没给我。这是剧本

我认为它不起作用,因为它从主页上寻找信息,而信息不在那里,但我就是不知道如何在我的循环中包含所有这些类别的所有广告。甚至不要问API,他们没有。我的意思是,我用原版的不眠之夜脚本破坏了他们的网站

for i in range (1,50):

    url = ("https://www.nekretnine.rs/"+ str(i))
    page = urlopen(url)
    soup = BeautifulSoup(page)
    x = soup.find_all("div", {"class":"label-small"})
    time.sleep (2)
    for item in x:
        number =item.find_all("form",attrs = {"span":"cell-number"})[0].text
        data.append((number ))
        print (data)

Tags: inhttps脚本信息urlnumberfor网站
2条回答

对于在这里绊倒的人,我找到了答案

https://webscraper.io/

这个浏览器脚本包含了我所需要的一切,它很简单,不需要编码,如果需要的话还可以减去一些正则表达式

如果您需要的内容不在主页上,您应该使用beautifulsoup查找指向您需要的其他页面的链接,然后发布请求以获取该html并在那里查找信息

相关问题 更多 >

    热门问题